Google เปิดตัว Gemini 3.1 Flash TTS พร้อมการแสดงอารมณ์ที่ดีขึ้นและความสามารถหลายผู้พูด

ข้อความจาก Gate News วันที่ 17 เมษายน — Google เปิดตัว Gemini 3.1 Flash TTS ซึ่งเป็นโมเดลแปลงข้อความเป็นเสียงขั้นสูง พร้อมฟีเจอร์การแสดงอารมณ์และการควบคุมที่ได้รับการปรับปรุง เมื่อวันที่ 15 เมษายน โมเดลใหม่นี้จะทยอยเปิดให้ใช้งานผ่าน API สำหรับนักพัฒนา Vertex AI ระดับองค์กร และเครื่องมือสำหรับการทำงานร่วมกัน

ความสามารถหลักของโมเดล ได้แก่ แท็กเสียงที่อิงตามภาษาธรรมชาติสำหรับการปรับแต่งความเร็ว อินโทเนชัน และอารมณ์ รวมถึง “Director Mode” สำหรับการระบุฉากและบทบาทตัวละครเพื่อสร้างผลลัพธ์เสียงที่มีความละเมียดมากขึ้น ฟีเจอร์หลายผู้พูดช่วยให้สร้างบทสนทนาแบบพร้อมกัน ทำให้การไหลของการสนทนามีความเป็นธรรมชาติมากขึ้น เหมาะสำหรับพอดแคสต์ คอนเทนต์เสียง และผู้ช่วย AI โมเดลรองรับมากกว่า 70 ภาษาและภาษาถิ่น สะท้อนสำเนียงและสำนวนตามภูมิภาคเพื่อประสบการณ์เสียงที่ปรับให้เข้ากับท้องถิ่นทั่วโลก

Google เน้นทั้งประสิทธิภาพและความคุ้มค่าด้านต้นทุน โดยทำคะแนนได้สูงในเกณฑ์ประเมินของมนุษย์แบบไม่ระบุว่าเป็นใคร ในขณะเดียวกันก็ลดค่าใช้จ่ายด้านการคำนวณผ่านสถาปัตยกรรมแบบ Flash ซึ่งออกแบบมาเพื่อการนำไปใช้ในองค์กรขนาดใหญ่เชิงระบบ เสียงที่สร้างขึ้นมาพร้อมการฝังลายน้ำ SynthID เพื่อระบุคอนเทนต์ที่สร้างโดย AI และต่อสู้กับข้อมูลที่บิดเบือน

ความเคลื่อนไหวนี้สะท้อนการแข่งขันที่เข้มข้นขึ้นในส่วนต่อประสานเสียง OpenAI กำลังผสานฟีเจอร์เสียงแบบเรียลไทม์เข้ากับ AI เชิงสนทนาเพื่อการมีปฏิสัมพันธ์ที่เหมือนมนุษย์ ขณะที่ Meta กำลังขยายการลงทุนในตัวละคร AI พร้อมประสบการณ์ทางสังคมที่ขับเคลื่อนด้วยเสียง ผู้สังเกตการณ์ในอุตสาหกรรมมองว่าแม้งานแสดงและงานสร้างสรรค์ระดับสูงอาจยังคงขับเคลื่อนโดยมนุษย์ในตอนนี้ แต่ตลาดการผลิตที่ซ้ำๆ และขนาดใหญ่ อาจเห็นการนำ AI ไปใช้แบบค่อยเป็นค่อยไปในด้านพากย์โฆษณา การโฆษณา และหมวดสำนักพิมพ์เสียง (audiobook)

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น