Gate News 消息,4 月 17 日——Google 于 4 月 15 日公布 Gemini 3.1 Flash TTS,这是一款先进的文本转语音模型,具备增强的情感表达与控制特性。新模型将通过开发者 API、企业 Vertex AI 以及协作工具逐步推出。
该模型的核心能力包括基于自然语言的音频标签,用于加快微调速度、控制语调与情感;另配备“导演模式”,可用于指定场景与角色身份,以生成更细腻的语音输出。多说话人功能可实现同时生成对话内容,使对话流程更自然,适用于播客、有声内容以及 AI 助手。该模型支持 70 多种语言和方言,体现了地区口音与表达方式,为全球本地化语音体验提供支持。
Google 强调性能与成本效率,在盲测的人类评估基准上取得了高分,同时通过其 Flash 架构降低了计算成本——该架构面向大规模企业采用进行了设计。生成的音频包含 SynthID 水印,用于识别 AI 生成内容并打击不实信息。
此举体现了语音交互领域竞争的进一步加剧。OpenAI 正将实时语音能力与对话式 AI 结合,以实现类似人类的交互,而 Meta 则在具有语音驱动的社交体验方面扩大对 AI 角色的投入。行业观察者指出,尽管高水平的表演和创意工作目前仍可能由人类主导,但重复性与大规模生产市场可能会在配音、广告和有声读物等领域逐步迎来 AI 采用。
免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见
声明。
相关文章
随着 AI 投资持续,Naver 和 Kakao 有望发布强劲的 2026 年第一季度业绩
Naver 和 Kakao 预计将因电商与广告带动而实现强劲的 2026 年第一季度业绩,尽管早期阶段的 AI 产品影响有限。两家公司都在显著加大 AI 基础设施投入,并调整策略以将 AI 融入现有服务。
GateNews5 分钟前
Anthropic Releases Claude Opus 4.7 With Weakened Cyber Capabilities
Anthropic released an upgraded version of its flagship model, Claude Opus 4.7, on April 16 (local time). Compared to the previous Opus 4.6 model, Opus 4.7 demonstrates "significant improvements" in advanced software engineering capabilities, particularly on difficult tasks, with enhanced rigor and c
Crypto Frontier12 分钟前
xAI 将为 Cursor 提供大规模 GPU 算力,用于训练 AI 代码模型
埃隆·马斯克的 xAI 将为编程初创公司 Cursor 提供算力支持,利用数千台 GPU 来训练其新的代码模型。此举强化了 xAI 在计算服务领域的角色,可能提升收入,并在持续亏损的情况下应对运营成本问题。
GateNews12 分钟前
Anthropic与TrendAI合作,将Claude模型集成到企业AI安全平台
TrendAI已与Anthropic合作,将Claude模型集成到其平台中,以增强威胁研究和AI安全运营。此次合作旨在在投产之前识别漏洞,反映了行业向AI安全转型的趋势。
GateNews35 分钟前
OpenAI 同意在三年内为 Cerebras 芯片支付超过 $20 十亿美元,并获得股权
OpenAI 已同意在三年内从 Cerebras 采购超过 $20 十亿美元的 AI 芯片,并获得该公司的股权,目标是在其扩展 AI 服务的同时降低计算成本。
GateNews36 分钟前
英国人工智能部长批评 OpenAI 暂停“星际之门”数据中心项目
英国的人工智能部长批评 OpenAI 决定暂停其英国数据中心项目,称其与融资问题有关,而非能源价格。微软计划在另一个地点租用产能,这将影响英国的人工智能投资目标。
GateNews46 分钟前