ข่าวไอที

AI ใหม่จาก Alibaba เปลี่ยนเสียงพูด+ภาพถ่าย เป็นวิดีโอมนุษย์ดิจิทัลสุดล้ำ

โดย

สิงหาคม 28, 2025

ภาพนิ่งมีชีวิต! อาลีบาบา (Alibaba) เปิดตัวโมเดล Speech-to-Video สร้างวิดีโอมนุษย์ดิจิทัลคุณภาพระดับภาพยนตร์…

AI ใหม่จาก Alibaba เปลี่ยนเสียงพูด+ภาพถ่าย เป็นวิดีโอมนุษย์ดิจิทัลสุดล้ำ!!

อาลีบาบา เปิดตัว Wan2.2-S2V (Speech-to-Video) โมเดลโอเพ่นซอร์สล่าสุดที่ออกแบบมาสำหรับการสร้างวิดีโอมนุษย์ดิจิทัล (Digital Human Video) ที่สามารถแปลงภาพถ่ายบุคคลให้กลายเป็นอวทาร์คุณภาพระดับภาพยนตร์ที่พูด ร้องเพลง และแสดงท่าทางได้

โมเดลนี้เป็นส่วนหนึ่งของ Wan2.2 ซึ่งเป็นชุดโมเดลการสร้างวิดีโอของ อาลีบาบา โมเดลนี้สามารถสร้างวิดีโอแอนิเมชันคุณภาพสูงจากภาพภาพเดียว และคลิปเสียงหนึ่งคลิป

Wan2.2-S2V มอบความสามารถด้านการสร้างแอนิเมชันตัวละครที่หลากหลาย รองรับการสร้างวิดีโอได้หลายมุมมอง ทั้งแบบพอร์ตเทรต ครึ่งตัว และเต็มตัว อีกทั้งยังสามารถสร้างการเคลื่อนไหวของตัวละครและองค์ประกอบแวดล้อมแบบไดนามิกตามคำสั่งที่กำหนด

ช่วยให้ครีเอเตอร์สามารถถ่ายทอดภาพได้อย่างแม่นยำ ตรงตามเรื่องราวและการออกแบบ โมเดลนี้สามารถสร้างตัวละครที่แสดงได้เสมือนจริง ตั้งแต่บทสนทนาที่เป็นธรรมชาติ ไปจนถึงการแสดงดนตรี โดยอาศัยเทคโนโลยีแอนิเมชันที่ขับเคลื่อนด้วยเสียงที่มีประสิทธิภาพสูง และยังจัดการกับตัวละครหลายตัวภายในฉากได้อย่างราบรื่น

ครีเอเตอร์สามารถแปลงเสียงบันทึกให้เป็นภาพเคลื่อนไหวที่สมจริง รองรับอวทาร์ที่หลากหลาย ตั้งแต่การ์ตูน และสัตว์ ไปจนถึงตัวละครที่มีสไตล์เฉพาะตัว เทคโนโลยีนี้มอบความละเอียดของการแสดงผลที่ยืดหยุ่น ทั้ง 480P และ 720P

เพื่อตอบโจทย์ความต้องการที่หลากหลายของคอนเทนต์ครีเอเตอร์มืออาชีพให้มั่นใจได้ว่าจะได้ภาพคุณภาพสูงที่ตรงตามมาตรฐานทางวิชาชีพ และงานสร้างสรรค์ที่หลากหลาย จึงเหมาะอย่างยิ่งสำหรับคอนเทนต์บนสื่อโซเชียลและงานนำเสนอระดับมืออาชีพ

นวัตกรรมทางเทคโนโลยีที่หลากหลาย

Wan2.2-S2V มีประสิทธิภาพเหนือแอนิเมชันแบบ talking-head ด้วยการผสมผสานการควบคุมการเคลื่อนไหวหลักในภาพรวมด้วยคำสั่งจากข้อความ และการเคลื่อนไหวเฉพาะจุดที่มีรายละเอียดสูงด้วยข้อมูลจากเสียงเข้าด้วยกัน ทำให้ตัวละครเคลื่อนไหวได้อย่างเป็นธรรมชาติ และสื่ออารมณ์ได้อย่างลึกซึ้ง

แม้ในสถานการณ์ที่ซับซ้อน และท้าทาย โดยเทคนิคการประมวลผลเฟรมที่เป็นนวัตกรรมของโมเดลนี้ เป็นอีกหนึ่งความล้ำหน้าสำคัญ เทคโนโลยีนี้ช่วยลดค่าใช้จ่ายในการประมวลผลได้อย่างมีนัยสำคัญ จากการบีบอัดเฟรมที่มีอยู่เดิมซึ่งมีความยาวแบบไม่จำกัดให้เป็นภาพแฝง (latent representation)

ที่มีขนาดกะทัดรัดเพียงภาพเดียว ซึ่งช่วยให้สามารถสร้างวิดีโอยาว ๆ ที่มีความเสถียรได้อย่างน่าทึ่ง เป็นการจัดการกับความท้าทายสำคัญในการผลิตคอนเทนต์แอนิเมชันที่ขยายเพิ่มเติม ความสามารถที่ก้าวล้ำของโมเดลได้รับการยกระดับให้โดดเด่นยิ่งขึ้นด้วยกระบวนการเทรนที่ครอบคลุม

ทีมวิจัยของ อาลีบาบา ได้สร้างชุดข้อมูลภาพ และเสียงขนาดใหญ่ที่ออกแบบมาเพื่อรองรับการผลิตภาพยนตร์และรายการโทรทัศน์โดยเฉพาะ Wan2.2-S2V ได้รับการเทรนด้วยความละเอียดหลายระดับ (multi-resolution) จึงสามารถรองรับการสร้างวิดีโอได้หลายรูปแบบอย่างยืดหยุ่น

ไม่ว่าจะเป็นคอนเทนต์วิดีโอสั้นที่ถ่ายทำแบบแนวตั้ง ไปจนถึงงานผลิตภาพยนต์ และรายการโทรทัศน์แบบเดิมที่ถ่ายทำเป็นแนวนอน

Wan2.2-S2V พร้อมให้ดาวน์โหลดแล้วบน Hugging Face, GitHub และบน ModelScope ซึ่งเป็นคอมมิวนิตี้ด้านโอเพ่นซอร์สของ อาลีบาบา คลาวด์ นอกจากนี้ในฐานะผู้มีส่วนร่วมสำคัญต่อชุมชนโอเพ่นซอร์สระดับโลก อาลีบาบาได้เปิดโอเพ่นซอร์สโมเดล Wan2.1 เมื่อเดือนกุมภาพันธ์ พ.ศ. 2568

และโมเดล Wan2.2 เมื่อเดือนกรกฎาคมที่ผ่านมา ปัจจุบันโมเดลที่อยู่ใน Wan series มียอดดาวน์โหลดรวมกว่า 6.9 ล้านครั้งบน Hugging Face และ ModelScope

ตัวอย่างการใช้งาน (การใช้เสียงเพลง)

ส่วนขยาย

* บทความเรื่องนี้น่าจะเป็นประโยชน์สำหรับการวิเคราะห์ในมุมมองที่น่าสนใจ 
** เขียน: ชลัมพ์ ศุภวาที (บรรณาธิการ และผู้สื่อข่าว) 
*** ขอขอบคุณภาพประกอบบางส่วนจาก N/A

สามารถกดติดตามข่าวสาร และบทความทางด้านเทคโนโลยีของเราได้ที่ www.facebook.com/itday.in.th

ทิ้งคำตอบไว้ ยกเลิกการตอบ

Future Tech

Gartner เตือน! ตลาดซอฟต์แวร์องค์กรแสนล้านเสี่ยงเจอ Agentic AI ดิสรัปต์

ต้องจับตา! Gartner เผย 6 เทรนด์ Data & Analytics สู่องค์กรอนาคต

Gartner เผยปี 2569 ดาต้าเซ็นเตอร์ทั่วโลกใช้ไฟฟ้าพุ่ง 26% รับศึกหนักเทรนด์ AI

Gartner เผย 4 ภัยคุกคามสำคัญ ที่ผู้นำไซเบอร์ซีเคียวริตี้ต้องปรับแผนรับมืออย่างเร่งด่วน

Gartner เผย! 80% ของซีอีโอชี้ AI คือตัวเร่ง บีบองค์กรต้อง “ยกเครื่อง” ระบบการทำงานใหม่ทั้งหมด

Gartner เตือน! GenAI กำลังทลายระบบ Cybersecurity Awareness เดิมๆ แนะองค์กรต้องเตรียมกลยุทธ์ใหม่ ๆ

จุดเปลี่ยนโลกไซเบอร์! Gartner ชี้ AI จะเป็นด่านหน้าคุมความปลอดภัยองค์กรกว่าครึ่งภายในปี 2571

ปฏิวัติรัฐบาลดิจิทัล! Gartner ชี้ปี 2028 หน่วยงานรัฐส่วนใหญ่จะพึ่งพา AI Agents ช่วยตัดสินใจ และทำงานอัตโนมัติ

Gartner ชี้ทางรอดองค์กร! ใช้ CSBI ปฏิรูปความปลอดภัยไซเบอร์ สร้างธุรกิจยืดหยุ่นรับมือภัยคุกคามทุกรูปแบบ

ชี้ชะตา data! Red Hat เปิดตัวเครื่องมือประเมิน “อธิปไตยดิจิทัล” เสริมอำนาจควบคุมให้องค์กร

Philips เปิด 7 ประโยชน์สุดล้ำ! เทคโนโลยี AI พลิกโฉมวงการเฮลธ์แคร์ไทยสู่ยุคดิจิทัล

Gartner เปิด 6 เทรนด์ Cyber Security ปี 2569 จับตา AI และภูมิรัฐศาสตร์...

Accenture เผยผลสำรวจ ชี้ AI เปลี่ยนแปลงเร็วทำพนักงานพัฒนาทักษะไม่ทัน

Gartner เผยผลสำรวจชี้ 80% ของ CIO ภาครัฐเตรียมเพิ่มงบ GenAI ปี 2025

กฎหมายใหม่ Ride Sharing บังคับใช้! ใครได้ประโยชน์อะไรบ้าง?

Gartner ชี้ 3 เทรนด์เทคโนโลยีพลิกโฉมภาครัฐเอเชียแปซิฟิก ปี 2568

Gartner ชี้ปี 2569 ตลาดสื่อสารดาวเทียม LEO จะมีมูลค่าใช้จ่ายแตะ 14.8 พันล้านดอลลาร์

ETDA เปิดตัว “AI Sandbox” จุดเริ่มต้นกฎหมาย AI ที่ทุกคนร่วมออกแบบ

“จากเทคโนโลยีสู่กลยุทธ์” Gartner เปิด 6 แนวโน้มคลาวด์เปลี่ยนโลก

Cisco ชี้โครงสร้างพื้นฐานโลกกำลังเปลี่ยนครั้งใหญ่ : AI อาจเป็นทั้งภาระ และทางรอด

หยิบบรรณาธิการ

โพสต์ที่เป็นที่นิยม

5 แอปฯ คำนวณดอกเบี้ยบ้านได้ง่ายๆ ด้วยตัวเอง

2 วิธีดาวน์โหลด App ใน Huawei Mobile Service สำหรับสมาร์ทโฟนหัวเว่ย

Keep Memo คืออะไร? ทำไมคนที่ใช้ LINE ไม่ควรพลาดที่จะใช้กัน

ประเภทยอดนิยม