Baidu Research เปิตัวระบบ Deep Speech สั่งงาน อุปกรณ์อัจฉริยะต่างๆด้วยเสียงภายใต้สภาพแวดล้อมที่มีเสียงดังรบกวนมาก

ไป่ตู้ รีเสิร์ช” แผนกวิจัยและพัฒนาของไป่ตู้ เปิดเผยผลการพัฒนาเบื้องต้นของระบบการสั่งการด้วยเสียงแบบใหม่ เรียกว่า “ดีพ สปีช” (Deep Speech) ที่พัฒนาขึ้นเพื่อเพิ่มความแม่นยำให้การสั่งการด้วยเสียงกับอุปกรณ์อัจฉริยะต่างๆ ในสภาพแวดล้อมที่มีเสียงดังรบกวน เช่น ในร้านอาหาร ในรถยนต์ บนรถโดยสารสาธารณะ รวมถึงสภาพแวดล้อมที่อื่นๆ เช่น มีการสะท้อนของเสียงสูง หรือ ผู้ใช้งานอยู่ไกลจากไมโครโฟน เป็นต้น

Pic_deep speech

กุญแจสำคัญของการทำงานของ “ดีพ สปีช” คือระบบการฝึกฝนแบบ Recurrent Neural Net (RNN) ที่ได้รับการปรับแต่งมาอย่างดี โดยใช้หน่วยประมวลผลกราฟฟิก (Graphic Processing Unit หรือ จีพียู) หลายๆ ตัว มาช่วยประมวลผล รวมทั้งเทคนิคในการสังเคราะห์ข้อมูลแบบใหม่ๆ ที่ช่วยให้นักวิจัยของไป่ตู้สามารถรวบรวมข้อมูลจำนวนมหาศาลมาใช้ในการฝึกฝนระบบให้พัฒนาขึ้นได้อย่างมีประสิทธิภาพ

ในช่วงต้นเดือนที่ผ่านมา การทดสอบได้แสดงให้เห็นผลดังต่อไปนี้

  • ระบบ “ดีพ สปีช” ให้ผลลัพธ์ที่ดีกว่าผลการทดสอบเปรียบเทียบ Switchboard Hub5’00 ที่ได้มีการเผยแพร่ไปก่อนหน้า โดยมีอัตราความผิดพลาดของคำ (Word Error Rate) เพียง 16.5%
  • ระบบ “ดีพ สปีช” ให้ผลลัพธ์ที่ดีกว่าเว็บ API ของบริการสาธารณะอื่นๆ (Google Web Speech, wit.ai) รวมถึงบริการเชิงพาณิชย์ต่างๆ (Bing Speech Services, Apple Dictation) โดยเฉพาะอย่างยิ่งในสภาพแวดล้อมที่มีเสียงรบกวนมาก โดย “ดีพ สปีช” สามารถให้ผลลัพธ์ที่ดีกว่าระบบอื่นๆ มากกว่า 10% (Word Error Rate) ภายใต้สภาพแวดล้อมที่มีเสียงรบกวนมาก

ดร.แอนดรูว์ อึง หัวหน้าคณะนักวิทยาศาสตร์ของไป่ตู้ให้ความเห็นว่า “การเรียนรู้เชิงลึก ฝึกฝนระบบกับชุดข้อมูลขนาดใหญ่ (ข้อมูลสังเคราะห์มากกว่า 100,000 ชั่วโมง) ทำให้เราสามารถบรรลุถึงการพัฒนาระบบสั่งงานด้วยเสียงได้อย่างมีนัยสำคัญ ผมรู้สึกตื่นเต้นกับความก้าวหน้านี้ เพราะผมเชื่อว่าระบบการสั่งงานด้วยเสียงจะพลิกโฉมอุปกรณ์พกพา ตลอดไปจนถึง Internet of Things (IoT) ด้วย และนี่ก็เป็นแค่การเริ่มต้นเท่านั้น”

ดร.แดน จูราฟสกี้ ศาสตราจารย์ภาควิชาภาษาศาสตร์และวิทยาการคอมพิวเตอร์แห่งมหาวิทยาลัยสแตนฟอร์ดกล่าวว่า “ผมรู้สึกสนใจเกี่ยวกับวิธีการใหม่ของไป่ตู้ในระบบการสั่งงานด้วยเสียงอย่างมาก โดยเฉพาะการใช้โมเดลที่ยอดเยี่ยมในการทำให้ปัญหาดูเรียบง่าย เข้าใจง่ายขึ้นสำหรับวิศวกร เมื่อรวมเข้ากับการประมวลผลด้วยชุดของหน่วยประมวลผลกราฟฟิก (GPUs) เพื่อให้ทำงานได้อย่างรวดเร็ว และสามารถขยับขยายขีดความสามารถได้ง่าย ผลลัพธ์ที่ได้ก็ชี้ให้เห็นถึงทิศทางอันน่าตื่นเต้นในอนาคตอันใกล้ของระบบสั่งงานด้วยเสียง โดยเฉพาะการใช้งานในสภาพแวดล้อมที่มีเสียงรบกวนและอุปสรรคที่ท้าทายอื่นๆ”

“การสั่งงานด้วยเสียงภายใต้สภาพแวดล้อมที่มีเสียงรบกวนและเสียงสะท้อนมากยังคงเป็นความท้าทายแม้กับระบบสั่งงานด้วยเสียงที่ดีที่สุดก็ตาม แต่ผลลัพธ์จากงานวิจัยล่าสุดของ ไป่ตู้ รีเสิร์ช นี้ มีศักยภาพในการพลิกโฉมการทำงานของระบบสั่งงานด้วยเสียงในอนาคต” ดร.เอียน เลน ศาสตราจารย์กิตติเมธีภาควิชาวิศวกรรมศาสตร์แห่งมหาวิทยาลัยคาร์เนกีเมลลอน กล่าวเสริมว่า “นวัตกรรมของไป่ตู้ที่ใช้หน่วยประมวลผลกราฟิก (GPU) เพื่อช่วยในการขยายขีดความสามารถและชุดของมูลขนาดใหญ่ ทำให้เราเข้าใกล้วิสัยทัศน์ของการที่จะสามารถพูดคุยกับอุปกรณ์อัจฉริยะ เครื่องใช้ไฟฟ้า อุปกรณ์สวมใส่ และหุ่นยนต์ต่างๆ แม้ในสภาพแวดล้อมที่มีเสียงรบกวนมาก เข้าไปอีกขั้น”

ผลลัพธ์ของระบบ “ดีพ สปีช” ได้ถูกเผยแพร่ในงานวิจัยชื่อ Deep Speech: Scaling Up End-to-End Speech Recognition

เกี่ยวกับไป่ตู้ รีเสิร์ซ
ไป่ตู้ รีเสิร์ช ตั้งอยู่ในซิลิคอนวัลเลย์และในกรุงปักกิ่ง ภายใต้การบริหารโดย หัวหน้าคณะนักวิทยาศาสตร์ ดร.แอนดรูว์ อึง ไป่ตู้ รีเสิร์ช ประกอบไปด้วยห้องทดลองสามแห่งที่ทำงานร่วมกัน คือ Silicon Valley AI Lab, Institute of Deep Learning และ Big Data Lab ซึ่งบริหารโดย ดร.อดัม โคเทส, ดร.ไค ยู และดร.ตง จาง ตามลำดับ ไป่ตู้ รีเสิร์ช รวบรวมเอานักวิจัยชั้นนำผู้มีพรสวรรค์จากทั่วโลกมาร่วมทำงานในด้านเทคโนโลยีพื้นฐานต่างๆ เช่น การจดจำรูปภาพและการค้นหาด้วยภาพ, การจดจำเสียง, การประมวลผลภาษาธรรมชาติ และปัญญาประดิษฐ์ในการตีความหมาย (http://research.baidu.com)