Google、感情表現を強化しマルチ話者に対応したGemini 3.1 Flash TTSを発表

Gate News記事、4月17日 — Googleは4月15日、感情表現と制御機能が強化された先進のテキスト読み上げモデルGemini 3.1 Flash TTSを公開しました。新モデルは、開発者API、エンタープライズ向けのVertex AI、そしてコラボレーションツールを通じて、段階的に展開されます。

モデルの中核機能には、微調整のための音声タグを自然言語ベースで指定して速度、イントネーション、感情を調整できることに加え、シーンやキャラクターの役割を指定してよりニュアンスのある音声出力を生成するための「Director Mode」が含まれます。マルチ話者機能により対話の同時生成が可能となり、ポッドキャスト、音声コンテンツ、AIアシスタントに適した、より自然な会話の流れを実現します。モデルは70以上の言語と方言に対応しており、地域ごとの訛りや表現を反映して、世界中でローカライズされた音声体験を提供することを示しています。

Googleは、パフォーマンスとコスト効率を強調し、Flashアーキテクチャによって計算コストを抑えつつ、ブラインドの人間評価ベンチマークで高いスコアを達成しました。生成される音声には、AI生成コンテンツを識別し誤情報と戦うためのSynthIDウォーターマーキングが含まれます。

この動きは、音声インターフェース分野での競争がいっそう激化していることを反映しています。OpenAIは、リアルタイムの音声機能を会話型AIと組み合わせ、人間らしいインタラクションを実現しようとしています。一方、Metaは、音声を使ったソーシャル体験を通じてAIキャラクターへの投資を拡大しています。業界の観測者は、現時点では高度な演技や創作といった領域は人が主導し続ける可能性があるものの、反復的で大規模な制作市場では、吹き替え、広告、オーディオブックの分野でAIの導入が段階的に進む可能性があると指摘しています。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。
コメント
0/400
コメントなし