IOLA, นวัตกรรมการรู้จำเสียงพูด…เลือกโมเดล ASR ที่ดีที่สุดโดยอัตโนมัติตามบริบท

TechubNews

บริษัทสตาร์ทอัพด้านปัญญาประดิษฐ์ aiOla เปิดตัวโซลูชันใหม่ที่สามารถปฏิวัติความแม่นยำในการรู้จำเสียงพูด ระบบ “เกตเวย์อัจฉริยะเสียงพูด” ที่พัฒนาขึ้นสามารถวิเคราะห์เสียงพูดของผู้ใช้แบบเรียลไทม์และเชื่อมต่อโดยอัตโนมัติไปยังโมเดลรู้จำเสียงพูดที่เหมาะสมที่สุด ระบบนี้เลือกโมเดลที่ให้ความแม่นยำสูงสุดโดยอิงจากการวิเคราะห์ลักษณะเสียงพูดที่ซับซ้อน

เมื่อปีที่แล้ว aiOla เปิดตัว “DRAX” ซึ่งเป็นโมเดล AI สำหรับเสียงพูดที่เอาชนะข้อจำกัดของการรู้จำเสียงพูดแบบดั้งเดิมด้วยเทคนิคการเรียนรู้แบบกระแสคู่ขนาน DRAX สามารถประมวลผลประโยคทั้งหมดพร้อมกันและแสดงประสิทธิภาพที่แข็งแกร่งเมื่อเผชิญกับเสียงรบกวน สายเสียง และตัวแปรในสภาพแวดล้อมจริง ด้วยเทคโนโลยีนี้ เทคโนโลยีใหม่ “QUASAR” ที่เปิดตัวในครั้งนี้สามารถวิเคราะห์คุณสมบัติของเสียงพูด น้ำเสียงของผู้พูด การมีอยู่ของเสียงรบกวน และบริบทต่าง ๆ เพื่อเลือกโมเดลรู้จำเสียงพูดอัตโนมัติที่เหมาะสมที่สุดจากหลาย ๆ เอนจิน

แม้ตลาด AI เสียงพูดในปัจจุบันจะมีผู้ให้บริการ ASR หลายรายที่แข่งขันกันในด้านการปรับแต่งให้เหมาะสมกับเสียงรบกวนหรือสายเสียง เช่น Whisper ของ OpenAI Transcribe ของ Amazon Qwen2 ของ Alibaba และ Deepgram แต่บริษัทส่วนใหญ่มักใช้โมเดลเดียวที่ทำงานได้ดีที่สุดในการประเมินมาตรฐานเท่านั้น ซึ่งส่งผลให้เกิดข้อผิดพลาดในการรู้จำบ่อยครั้งในสภาพแวดล้อมจริงและประสบการณ์ผู้ใช้ลดลงอย่างมาก การวิพากษ์วิจารณ์ในเรื่องนี้ยังคงดำเนินต่อไป

อามีร์ ฮารามาติ ผู้ร่วมก่อตั้งและประธานของ aiOla ชี้ให้เห็นว่าสถานการณ์ที่บริษัทต้องทนรับข้อบกพร่องของโมเดล ASR เฉพาะเจาะจงว่า “บางโมเดลทำงานได้ดีเยี่ยมกับภาษาอังกฤษแบบอเมริกัน แต่เมื่อเจอสายเสียงแบบอังกฤษหรือเสียงรบกวนก็อาจล้มเหลว” เขาย้ำว่า “QUASAR เป็นระบบแรกที่มองว่าการรู้จำเสียงพูดเป็นปัญหาเชิงพลวัต ไม่ใช่เทคโนโลยีคงที่”

ในระหว่างการทดสอบภายในของ aiOla ระบบนี้ถูกนำไปใช้กับสภาพแวดล้อมเสียงพูดจริงหลายแบบ รวมถึงสายเสียงและเสียงรบกวนในบริบทเฉพาะ ผลลัพธ์แสดงให้เห็นว่าสามารถเลือกเอนจิน ASR ที่ดีที่สุดเพื่อเพิ่มความแม่นยำได้ใน 88.8% ของคำขอที่ได้รับการตอบสนอง คาดว่าเทคโนโลยีนี้จะช่วยยกระดับความเข้าใจในการสนทนาแบบมนุษย์กับ AI ในด้านต่าง ๆ เช่น การสนับสนุนลูกค้า การบันทึกการประชุม และระบบตอบรับอัตโนมัติ

ฮารามาติกล่าวว่า “เมื่อการรู้จำเสียงพูดกลายเป็นพื้นฐานเชื่อมต่อระหว่างมนุษย์กับ AI การเกิดข้อผิดพลาดในการรู้จำจึงเป็นสิ่งที่ไม่สามารถยอมรับได้” เขายังเรียก QUASAR ว่าเป็น “เทคโนโลยีที่เปลี่ยน ASR ให้กลายเป็นโครงสร้างพื้นฐานที่มีชีวิต” และเสริมว่า “นี่ไม่ใช่แค่ความก้าวหน้าทางเทคโนโลยี แต่เป็นการปฏิวัติที่สามารถส่งผลกระทบตั้งแต่ศูนย์บริการโทรศัพท์นับพันล้านสาย ไปจนถึงนักพัฒนาที่สร้างฟีเจอร์คำบรรยาย”

aiOla วางแผนที่จะใช้เทคโนโลยีนี้เพื่อยกระดับความใช้งานและความน่าเชื่อถือของอินเทอร์เฟซ AI เสียงพูดอย่างมาก เพื่อสร้างจุดเปลี่ยนเชิงโครงสร้างในระบบนิเวศ AI เสียงพูดทั้งหมด

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น