AI ใหม่จาก Alibaba เปลี่ยนเสียงพูด+ภาพถ่าย เป็นวิดีโอมนุษย์ดิจิทัลสุดล้ำ

Alibaba

ภาพนิ่งมีชีวิต! อาลีบาบา (Alibaba) เปิดตัวโมเดล Speech-to-Video สร้างวิดีโอมนุษย์ดิจิทัลคุณภาพระดับภาพยนตร์…

AI ใหม่จาก Alibaba เปลี่ยนเสียงพูด+ภาพถ่าย เป็นวิดีโอมนุษย์ดิจิทัลสุดล้ำ!!

อาลีบาบา เปิดตัว Wan2.2-S2V (Speech-to-Video) โมเดลโอเพ่นซอร์สล่าสุดที่ออกแบบมาสำหรับการสร้างวิดีโอมนุษย์ดิจิทัล (Digital Human Video) ที่สามารถแปลงภาพถ่ายบุคคลให้กลายเป็นอวทาร์คุณภาพระดับภาพยนตร์ที่พูด ร้องเพลง และแสดงท่าทางได้

โมเดลนี้เป็นส่วนหนึ่งของ Wan2.2 ซึ่งเป็นชุดโมเดลการสร้างวิดีโอของ อาลีบาบา โมเดลนี้สามารถสร้างวิดีโอแอนิเมชันคุณภาพสูงจากภาพภาพเดียว และคลิปเสียงหนึ่งคลิป

Alibaba

Wan2.2-S2V มอบความสามารถด้านการสร้างแอนิเมชันตัวละครที่หลากหลาย รองรับการสร้างวิดีโอได้หลายมุมมอง ทั้งแบบพอร์ตเทรต ครึ่งตัว และเต็มตัว อีกทั้งยังสามารถสร้างการเคลื่อนไหวของตัวละครและองค์ประกอบแวดล้อมแบบไดนามิกตามคำสั่งที่กำหนด

ช่วยให้ครีเอเตอร์สามารถถ่ายทอดภาพได้อย่างแม่นยำ ตรงตามเรื่องราวและการออกแบบ โมเดลนี้สามารถสร้างตัวละครที่แสดงได้เสมือนจริง ตั้งแต่บทสนทนาที่เป็นธรรมชาติ ไปจนถึงการแสดงดนตรี โดยอาศัยเทคโนโลยีแอนิเมชันที่ขับเคลื่อนด้วยเสียงที่มีประสิทธิภาพสูง และยังจัดการกับตัวละครหลายตัวภายในฉากได้อย่างราบรื่น

ครีเอเตอร์สามารถแปลงเสียงบันทึกให้เป็นภาพเคลื่อนไหวที่สมจริง รองรับอวทาร์ที่หลากหลาย ตั้งแต่การ์ตูน และสัตว์ ไปจนถึงตัวละครที่มีสไตล์เฉพาะตัว เทคโนโลยีนี้มอบความละเอียดของการแสดงผลที่ยืดหยุ่น ทั้ง 480P และ 720P

เพื่อตอบโจทย์ความต้องการที่หลากหลายของคอนเทนต์ครีเอเตอร์มืออาชีพให้มั่นใจได้ว่าจะได้ภาพคุณภาพสูงที่ตรงตามมาตรฐานทางวิชาชีพ และงานสร้างสรรค์ที่หลากหลาย จึงเหมาะอย่างยิ่งสำหรับคอนเทนต์บนสื่อโซเชียลและงานนำเสนอระดับมืออาชีพ

นวัตกรรมทางเทคโนโลยีที่หลากหลาย

Alibaba

Wan2.2-S2V มีประสิทธิภาพเหนือแอนิเมชันแบบ talking-head ด้วยการผสมผสานการควบคุมการเคลื่อนไหวหลักในภาพรวมด้วยคำสั่งจากข้อความ และการเคลื่อนไหวเฉพาะจุดที่มีรายละเอียดสูงด้วยข้อมูลจากเสียงเข้าด้วยกัน ทำให้ตัวละครเคลื่อนไหวได้อย่างเป็นธรรมชาติ และสื่ออารมณ์ได้อย่างลึกซึ้ง

แม้ในสถานการณ์ที่ซับซ้อน และท้าทาย โดยเทคนิคการประมวลผลเฟรมที่เป็นนวัตกรรมของโมเดลนี้ เป็นอีกหนึ่งความล้ำหน้าสำคัญ เทคโนโลยีนี้ช่วยลดค่าใช้จ่ายในการประมวลผลได้อย่างมีนัยสำคัญ จากการบีบอัดเฟรมที่มีอยู่เดิมซึ่งมีความยาวแบบไม่จำกัดให้เป็นภาพแฝง (latent representation)

ที่มีขนาดกะทัดรัดเพียงภาพเดียว ซึ่งช่วยให้สามารถสร้างวิดีโอยาว ๆ ที่มีความเสถียรได้อย่างน่าทึ่ง เป็นการจัดการกับความท้าทายสำคัญในการผลิตคอนเทนต์แอนิเมชันที่ขยายเพิ่มเติม ความสามารถที่ก้าวล้ำของโมเดลได้รับการยกระดับให้โดดเด่นยิ่งขึ้นด้วยกระบวนการเทรนที่ครอบคลุม

ทีมวิจัยของ อาลีบาบา ได้สร้างชุดข้อมูลภาพ และเสียงขนาดใหญ่ที่ออกแบบมาเพื่อรองรับการผลิตภาพยนตร์และรายการโทรทัศน์โดยเฉพาะ Wan2.2-S2V ได้รับการเทรนด้วยความละเอียดหลายระดับ (multi-resolution) จึงสามารถรองรับการสร้างวิดีโอได้หลายรูปแบบอย่างยืดหยุ่น

ไม่ว่าจะเป็นคอนเทนต์วิดีโอสั้นที่ถ่ายทำแบบแนวตั้ง ไปจนถึงงานผลิตภาพยนต์ และรายการโทรทัศน์แบบเดิมที่ถ่ายทำเป็นแนวนอน

Alibaba

Wan2.2-S2V พร้อมให้ดาวน์โหลดแล้วบน Hugging Face, GitHub และบน ModelScope ซึ่งเป็นคอมมิวนิตี้ด้านโอเพ่นซอร์สของ อาลีบาบา คลาวด์ นอกจากนี้ในฐานะผู้มีส่วนร่วมสำคัญต่อชุมชนโอเพ่นซอร์สระดับโลก อาลีบาบาได้เปิดโอเพ่นซอร์สโมเดล Wan2.1 เมื่อเดือนกุมภาพันธ์ พ.ศ. 2568

และโมเดล Wan2.2 เมื่อเดือนกรกฎาคมที่ผ่านมา ปัจจุบันโมเดลที่อยู่ใน Wan series มียอดดาวน์โหลดรวมกว่า 6.9 ล้านครั้งบน Hugging Face และ ModelScope

ตัวอย่างการใช้งาน (การใช้เสียงเพลง)

ส่วนขยาย

* บทความเรื่องนี้น่าจะเป็นประโยชน์สำหรับการวิเคราะห์ในมุมมองที่น่าสนใจ 
** เขียน: ชลัมพ์ ศุภวาที (บรรณาธิการ และผู้สื่อข่าว) 
*** ขอขอบคุณภาพประกอบบางส่วนจาก N/A

สามารถกดติดตามข่าวสาร และบทความทางด้านเทคโนโลยีของเราได้ที่  www.facebook.com/itday.in.th

ITDay