Alibaba เปิด Wan2.6 Series สร้างภาพด้วย AI วิวัฒนาการล่าสุด

Alibaba

อาลีบาบา (Alibaba) เปิดตัว Wan2.6 Series สร้างภาพด้วย AI วิวัฒนาการล่าสุด ช่วยให้ครีเอเตอร์สามารถสร้างวิดีโอ AI ในรูปลักษณของตนเอง…

Alibaba เปิด Wan 2.6 Series สร้างภาพด้วย AI วิวัฒนาการล่าสุด

อาลีบาบา เปิดตัว Wan2.6 series วิวัฒนาการล่าสุดของโมเดลการสร้างสรรค์ภาพ (visual generation models) ที่ช่วยให้ครีเอเตอร์สามารถปรากฏตัวในวิดีโอที่สร้างโดย AI ในรูปลักษณ์ และเสียงของตนเอง พร้อมความสามารถในการเล่าเรื่องผ่านมุมกล้องแบบ flexible multi-shot

ซึ่งเป็นฟีเจอร์ใหม่ที่ได้รับการออกแบบมาเพื่อปลดล็อกการสร้างสรรค์คอนเทนต์ระดับมืออาชีพ ด้วยการรองรับการสนทนาที่มีหลายบุคคล (multi-person dialogue) ที่สมจริงยิ่งขึ้น และขยายระยะเวลาของวิดีโอเพื่อการเล่าเรื่องที่สมบูรณ์กว่าเดิม

Wan2.6 series มาพร้อมโมเดลการสร้างสรรค์ใหม่แบบ reference-to-video รวมถึงการอัปเกรดครั้งใหญ่ให้กับโมเดลเดิมที่มีอยู่ทั้งสี่โมเดล โดยโมเดล Wan2.6-R2V จะช่วยให้ผู้ใช้สามารถอัปโหลด reference video ที่มีทั้งรูปลักษณ์ และเสียง

จากนั้นใช้คำสั่งข้อความ (text prompts) เพื่อสร้างฉากใหม่ที่มีชีวิตชีวาโดยใช้ตัวละครเดิมเป็นตัวแสดง ผู้ใช้สามารถสร้างวิดีโอที่มีบุคคล สัตว์ วัตถุ หรือแม้แต่ตัวละครหลายตัวร่วมกัน โดยยังคงเอกลักษณ์ทั้งหน้าตา และน้ำเสียงจากต้นฉบับไว้อย่างครบถ้วน

Alibaba
Text Prompt– Character2 interviews character1 on the street, asking
which Indian street food tastes the best.

ด้วยขีดความสามารถในการสร้างสรรค์งานด้าน AI แบบ multimodal reference generation ทำให้ Wan2.6-R2V เป็นโมเดล reference-to-video ตัวแรกของจีนที่ช่วยให้ผู้ใช้สามารถแทรกตัวเองหรือตัวละครอื่น ๆ เข้าไปในฉากที่สร้างโดย AI ได้อย่างกลมกลืนทั้งภาพ และเสียงที่สอดคล้อง และต่อเนื่อง

ซึ่งจะเข้ามาพลิกโฉมวิธีการเล่าเรื่องของครีเอเตอร์ละครสั้น และช่วยลดขั้นตอนกระบวนการผลิตให้กระชับรวดเร็วยิ่งขึ้น นอกจากนี้ Wan2.6 series ยังมีการเพิ่มประสิทธิภาพให้กับโมเดลด้านแปลงข้อความเป็นวิดีโอ (Wan2.6-T2V), โมเดลแปลงภาพเป็นวิดีโอ (Wan2.6-I2V) และ โมเดลการสร้างสรรค์ภาพอีกสองโมเดล (Wan2.6-image และ Wan2.6-T2I)

โมเดลใหม่เหล่านี้นำเสนอความสามารถในการเล่าเรื่องแบบ intelligent multi-shot ซึ่งจะช่วยให้สามารถสร้างเรื่องราวที่ลึกซึ้งและสื่ออารมณ์ได้ดียิ่งขึ้น โดยยังรักษาความต่อเนื่องของภาพไว้ได้ตลอดทั้งเรื่อง รวมถึงการปรับปรุงความสามารถในการซิงค์ภาพ และเสียง (audio-visual synchronization) และการสร้างภาพจากเสียง (audio-to-video) ทำให้ได้ฉากที่สมจริงพร้อมเอฟเฟกต์เสียงที่เต็มอิ่มยิ่งขึ้น

โมเดลเหล่านี้มอบพื้นที่ให้ครีเอเตอร์ได้พัฒนาเรื่องราวของตนได้มากขึ้น ด้วยการรองรับความยาววิดีโอสูงสุด 15 วินาที และเมื่อผนวกกับความแม่นยำในการทำตามคำสั่งที่ดีขึ้น และคุณภาพของภาพที่คมชัด ก็จะยิ่งช่วยให้ครีเอเตอร์สามารถผลิตคอนเทนต์สไตล์ภาพยนตร์ได้ในระดับมืออาชีพ

Alibaba
Text Prompt– A surreal, cinematic 3D animation of a giant ripe pomegranate rolling through the heart of Paris, from Haussmann streets and Eiffel Tower vistas to bridges over the Seine and a modern skyline of glass skyscrapers. Low-angle and dynamic shots highlight vibrant red textures, motion, and scale as it dominates avenues and stone bridges. The pomegranate cracks and and explodes into thousands of translucent red petals that fill the space between skyscrapers.

Wan2.6 series ช่วยให้ผู้ใช้สามารถสร้างสรรค์ภาพที่มีผลลัพธ์เป็นการผสมผสานระหว่างข้อความ และภาพ (interleaved text-image output) ผ่านความสามารถในการใช้เหตุผลเชิงตรรกะขั้นสูง เพื่อสนับสนุนการเล่าเรื่องด้วยภาพที่ต่อเนื่องสอดคล้องกันมากขึ้น

นอกจากนี้ยังมีความโดดเด่นในการควบคุมสไตล์ศิลปะได้อย่างแม่นยำ การสร้างภาพบุคคล (portraits) ที่สมจริงด้วยความเที่ยงตรงสูง และความสามารถในการแก้ไขภาพที่ยอดเยี่ยม อีกทั้งยังมีความเข้าใจคำสั่งข้อความ (prompts) ยาว ๆ ทั้งในภาษาจีน และภาษาอังกฤษอย่างลึกซึ้ง ช่วยให้ครีเอเตอร์สร้างคอนเทนต์ภาพที่สื่ออารมณ์

และเก็บรายละเอียดเจตนารมณ์ทางศิลปะได้อย่างครบถ้วน ผู้ใช้สามารถเข้าใช้งานโมเดลเหล่านี้ผ่าน Model Studio ซึ่งเป็นแพลตฟอร์มพัฒนา AI ของ อาลีบาบา คลาวด์ และผ่านเว็บไซต์อย่างเป็นทางการของ Wan นอกจากนี้ ยังมีการรวมโมเดลดังกล่าวเข้ากับ Qwen App ซึ่งเป็นแอปพลิเคชัน AI เรือธงของอาลีบาบาอีกด้วย

Wan series เปิดตัวครั้งแรกเมื่อต้นปีที่ผ่านมา และได้รับการอัปเกรดอย่างต่อเนื่อง สะท้อนให้เห็นถึงความเป็นผู้นำและนวัตกรรมของ อาลีบาบา ในด้านเทคโนโลยีมัลติมีเดียที่ขับเคลื่อนด้วย AI

ส่วนขยาย

* บทความเรื่องนี้น่าจะเป็นประโยชน์สำหรับการวิเคราะห์ในมุมมองที่น่าสนใจ 
** เขียน: ชลัมพ์ ศุภวาที (บรรณาธิการ และผู้สื่อข่าว) 
*** ขอขอบคุณภาพประกอบบางส่วนจาก N/A

สามารถกดติดตามข่าวสาร และบทความทางด้านเทคโนโลยีของเราได้ที่  www.facebook.com/itday.in.th

ITDay