อาลีบาบา (Alibaba) เปิดตัว Wan2.6 Series สร้างภาพด้วย AI วิวัฒนาการล่าสุด ช่วยให้ครีเอเตอร์สามารถสร้างวิดีโอ AI ในรูปลักษณของตนเอง…
Alibaba เปิด Wan 2.6 Series สร้างภาพด้วย AI วิวัฒนาการล่าสุด
อาลีบาบา เปิดตัว Wan2.6 series วิวัฒนาการล่าสุดของโมเดลการสร้างสรรค์ภาพ (visual generation models) ที่ช่วยให้ครีเอเตอร์สามารถปรากฏตัวในวิดีโอที่สร้างโดย AI ในรูปลักษณ์ และเสียงของตนเอง พร้อมความสามารถในการเล่าเรื่องผ่านมุมกล้องแบบ flexible multi-shot
ซึ่งเป็นฟีเจอร์ใหม่ที่ได้รับการออกแบบมาเพื่อปลดล็อกการสร้างสรรค์คอนเทนต์ระดับมืออาชีพ ด้วยการรองรับการสนทนาที่มีหลายบุคคล (multi-person dialogue) ที่สมจริงยิ่งขึ้น และขยายระยะเวลาของวิดีโอเพื่อการเล่าเรื่องที่สมบูรณ์กว่าเดิม
Wan2.6 series มาพร้อมโมเดลการสร้างสรรค์ใหม่แบบ reference-to-video รวมถึงการอัปเกรดครั้งใหญ่ให้กับโมเดลเดิมที่มีอยู่ทั้งสี่โมเดล โดยโมเดล Wan2.6-R2V จะช่วยให้ผู้ใช้สามารถอัปโหลด reference video ที่มีทั้งรูปลักษณ์ และเสียง
จากนั้นใช้คำสั่งข้อความ (text prompts) เพื่อสร้างฉากใหม่ที่มีชีวิตชีวาโดยใช้ตัวละครเดิมเป็นตัวแสดง ผู้ใช้สามารถสร้างวิดีโอที่มีบุคคล สัตว์ วัตถุ หรือแม้แต่ตัวละครหลายตัวร่วมกัน โดยยังคงเอกลักษณ์ทั้งหน้าตา และน้ำเสียงจากต้นฉบับไว้อย่างครบถ้วน

which Indian street food tastes the best.
ด้วยขีดความสามารถในการสร้างสรรค์งานด้าน AI แบบ multimodal reference generation ทำให้ Wan2.6-R2V เป็นโมเดล reference-to-video ตัวแรกของจีนที่ช่วยให้ผู้ใช้สามารถแทรกตัวเองหรือตัวละครอื่น ๆ เข้าไปในฉากที่สร้างโดย AI ได้อย่างกลมกลืนทั้งภาพ และเสียงที่สอดคล้อง และต่อเนื่อง
ซึ่งจะเข้ามาพลิกโฉมวิธีการเล่าเรื่องของครีเอเตอร์ละครสั้น และช่วยลดขั้นตอนกระบวนการผลิตให้กระชับรวดเร็วยิ่งขึ้น นอกจากนี้ Wan2.6 series ยังมีการเพิ่มประสิทธิภาพให้กับโมเดลด้านแปลงข้อความเป็นวิดีโอ (Wan2.6-T2V), โมเดลแปลงภาพเป็นวิดีโอ (Wan2.6-I2V) และ โมเดลการสร้างสรรค์ภาพอีกสองโมเดล (Wan2.6-image และ Wan2.6-T2I)
โมเดลใหม่เหล่านี้นำเสนอความสามารถในการเล่าเรื่องแบบ intelligent multi-shot ซึ่งจะช่วยให้สามารถสร้างเรื่องราวที่ลึกซึ้งและสื่ออารมณ์ได้ดียิ่งขึ้น โดยยังรักษาความต่อเนื่องของภาพไว้ได้ตลอดทั้งเรื่อง รวมถึงการปรับปรุงความสามารถในการซิงค์ภาพ และเสียง (audio-visual synchronization) และการสร้างภาพจากเสียง (audio-to-video) ทำให้ได้ฉากที่สมจริงพร้อมเอฟเฟกต์เสียงที่เต็มอิ่มยิ่งขึ้น
โมเดลเหล่านี้มอบพื้นที่ให้ครีเอเตอร์ได้พัฒนาเรื่องราวของตนได้มากขึ้น ด้วยการรองรับความยาววิดีโอสูงสุด 15 วินาที และเมื่อผนวกกับความแม่นยำในการทำตามคำสั่งที่ดีขึ้น และคุณภาพของภาพที่คมชัด ก็จะยิ่งช่วยให้ครีเอเตอร์สามารถผลิตคอนเทนต์สไตล์ภาพยนตร์ได้ในระดับมืออาชีพ

Wan2.6 series ช่วยให้ผู้ใช้สามารถสร้างสรรค์ภาพที่มีผลลัพธ์เป็นการผสมผสานระหว่างข้อความ และภาพ (interleaved text-image output) ผ่านความสามารถในการใช้เหตุผลเชิงตรรกะขั้นสูง เพื่อสนับสนุนการเล่าเรื่องด้วยภาพที่ต่อเนื่องสอดคล้องกันมากขึ้น
นอกจากนี้ยังมีความโดดเด่นในการควบคุมสไตล์ศิลปะได้อย่างแม่นยำ การสร้างภาพบุคคล (portraits) ที่สมจริงด้วยความเที่ยงตรงสูง และความสามารถในการแก้ไขภาพที่ยอดเยี่ยม อีกทั้งยังมีความเข้าใจคำสั่งข้อความ (prompts) ยาว ๆ ทั้งในภาษาจีน และภาษาอังกฤษอย่างลึกซึ้ง ช่วยให้ครีเอเตอร์สร้างคอนเทนต์ภาพที่สื่ออารมณ์
และเก็บรายละเอียดเจตนารมณ์ทางศิลปะได้อย่างครบถ้วน ผู้ใช้สามารถเข้าใช้งานโมเดลเหล่านี้ผ่าน Model Studio ซึ่งเป็นแพลตฟอร์มพัฒนา AI ของ อาลีบาบา คลาวด์ และผ่านเว็บไซต์อย่างเป็นทางการของ Wan นอกจากนี้ ยังมีการรวมโมเดลดังกล่าวเข้ากับ Qwen App ซึ่งเป็นแอปพลิเคชัน AI เรือธงของอาลีบาบาอีกด้วย
Wan series เปิดตัวครั้งแรกเมื่อต้นปีที่ผ่านมา และได้รับการอัปเกรดอย่างต่อเนื่อง สะท้อนให้เห็นถึงความเป็นผู้นำและนวัตกรรมของ อาลีบาบา ในด้านเทคโนโลยีมัลติมีเดียที่ขับเคลื่อนด้วย AI
ส่วนขยาย * บทความเรื่องนี้น่าจะเป็นประโยชน์สำหรับการวิเคราะห์ในมุมมองที่น่าสนใจ ** เขียน: ชลัมพ์ ศุภวาที (บรรณาธิการ และผู้สื่อข่าว) *** ขอขอบคุณภาพประกอบบางส่วนจาก N/A
สามารถกดติดตามข่าวสาร และบทความทางด้านเทคโนโลยีของเราได้ที่ www.facebook.com/itday.in.th

























