Gate News記事、4月17日 — Googleは4月15日、感情表現と制御機能が強化された先進のテキスト読み上げモデルGemini 3.1 Flash TTSを公開しました。新モデルは、開発者API、エンタープライズ向けのVertex AI、そしてコラボレーションツールを通じて、段階的に展開されます。
モデルの中核機能には、微調整のための音声タグを自然言語ベースで指定して速度、イントネーション、感情を調整できることに加え、シーンやキャラクターの役割を指定してよりニュアンスのある音声出力を生成するための「Director Mode」が含まれます。マルチ話者機能により対話の同時生成が可能となり、ポッドキャスト、音声コンテンツ、AIアシスタントに適した、より自然な会話の流れを実現します。モデルは70以上の言語と方言に対応しており、地域ごとの訛りや表現を反映して、世界中でローカライズされた音声体験を提供することを示しています。
Googleは、パフォーマンスとコスト効率を強調し、Flashアーキテクチャによって計算コストを抑えつつ、ブラインドの人間評価ベンチマークで高いスコアを達成しました。生成される音声には、AI生成コンテンツを識別し誤情報と戦うためのSynthIDウォーターマーキングが含まれます。
この動きは、音声インターフェース分野での競争がいっそう激化していることを反映しています。OpenAIは、リアルタイムの音声機能を会話型AIと組み合わせ、人間らしいインタラクションを実現しようとしています。一方、Metaは、音声を使ったソーシャル体験を通じてAIキャラクターへの投資を拡大しています。業界の観測者は、現時点では高度な演技や創作といった領域は人が主導し続ける可能性があるものの、反復的で大規模な制作市場では、吹き替え、広告、オーディオブックの分野でAIの導入が段階的に進む可能性があると指摘しています。
Related News