O Google lança o Gemini 3.1 Flash TTS: suporta 70 idiomas e cenários com diretores, a voz de IA fica mais natural

ChainNewsAbmedia

O responsável por relações com desenvolvedores de IA da Google, Logan Kilpatrick, anunciou em 15 de abril o lançamento do Gemini 3.1 Flash TTS — o modelo mais recente de texto para fala da Google. Este modelo oferece suporte a 70 idiomas, controle refinado no nível do diretor de cena (scene direction), do falante e marcações de áudio; no momento, já está disponível para uso no playground de áudio do Google AI Studio e na Gemini API.

Quatro recursos centrais

O Gemini 3.1 Flash TTS, em comparação com a geração anterior, traz quatro melhorias notáveis:

Diretor de cena (Scene Direction) — é possível definir contextos para a voz, como “falar baixinho em um café barulhento” ou “anunciar empolgado uma boa notícia”; o modelo ajusta o tom, a velocidade de fala e a emoção de acordo com o cenário

Controle no nível do falante (Speaker-Level Specificity) — em diálogos com múltiplos personagens, é possível definir características de voz diferentes para cada personagem

Marcações de áudio (Audio Tags) — suporta inserir comandos de efeitos sonoros no texto, controlando detalhes como pausas e variações de entonação

Suporte a 70 idiomas — amplia significativamente a cobertura multilíngue, incluindo chinês

Voz mais natural e expressiva

O Google destaca os avanços deste modelo em naturalidade de voz. Modelos tradicionais de TTS costumam ter sua saída criticada como “soando como IA”. O Gemini 3.1 Flash TTS tenta reduzir a distância em relação à fala humana por meio de variações de prosódia e expressões emocionais mais ricas. Kilpatrick apontou que o progresso do Gemini 2.5 para o 3.1 é “bem significativo”.

Como os desenvolvedores podem usar

Os desenvolvedores podem usar de duas maneiras:

Google AI Studio Audio Playground — testar e pré-visualizar diretamente na interface da web

Gemini API — integrar em aplicativos para casos como assistentes de voz, audiolivros, geração automática de Podcast, atendimento ao cliente multilíngue etc.

A linha de produtos Gemini continua se expandindo

O Flash TTS faz parte de uma fase recente de lançamentos intensivos da série Gemini 3.1. Antes disso, a Google já havia lançado o Gemini Robotics ER 1.6 (raciocínio visual de robôs), o Tab Tab Tab (complemento de prompt do Vibe Coding) e funções como pré-visualização de design. A Google está expandindo o Gemini de “modelo de chat” para uma plataforma de IA multimodal completa que engloba texto, voz, visão e robôs.

Este artigo “A Google lança o Gemini 3.1 Flash TTS: suporte a 70 idiomas e direção de cena, voz de IA mais natural” apareceu pela primeira vez em Cadeia News ABMedia.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

A ação da Meta sobe 1,73% enquanto a empresa planeja demitir 8.000 funcionários a partir de 20 de maio

A Meta Platforms planeja cortar cerca de 8.000 empregos, ou 10% de sua força de trabalho, a partir de 20 de maio, apesar da alta das cotações das ações. A empresa, com mais de $200 bilhões em receita, está focando investimentos em IA diante de uma reestruturação significativa, alinhando-se às tendências do setor de demissões.

GateNews3h atrás

O relatório anual do Google afirma que o Gemini realiza detecção em milissegundos, bloqueando 99% dos anúncios de golpes

O artigo discute como o Google, por meio de seu sistema de inteligência artificial generativa Gemini, fortalece a segurança de anúncios, e o relatório mostra que a velocidade com que ele intercepta anúncios em violação foi reduzida para milissegundos, com taxa de interceptação de 99%. No ano passado, o Google removeu 8,3 bilhões de anúncios e suspendeu 24,9 milhões de contas, indicando que a quantidade de anúncios fraudulentos aumentou significativamente. Especialistas apontam que se trata de um confronto entre inteligência artificial e inteligência artificial, e que, no futuro, ainda será necessário enfrentar os desafios das condutas legais e ilegais trazidas pela IA.

ChainNewsAbmedia5h atrás

Cofundador da Ethereum Lubin: a IA será um ponto de virada crítico para o cripto, mas o monopólio de gigantes de tecnologia traz risco sistêmico

O cofundador da Ethereum, Joseph Lubin, destacou o potencial transformador da IA para o setor de criptomoedas, ao mesmo tempo em que alertou sobre os riscos de centralização entre gigantes da tecnologia. Ele prevê transações autônomas impulsionadas por IA na blockchain e destaca a convergência entre as finanças tradicionais e a DeFi.

GateNews7h atrás

Elon Musk Defende Cheques de “Renda Universal Alta” como Solução Definitiva para o Desemprego na IA

Elon Musk defende uma Renda Universal de Alta Renda para combater o desemprego causado pela IA, vislumbrando um futuro com muitos bens e inflação zero. Em contraste, especialistas como Sam Altman levantam preocupações sobre perda de empregos e propõem medidas de proteção para os trabalhadores.

Coinpedia7h atrás

DeepSeek Supostamente Lança Primeira Rodada de Captação Externa, Mirando Avaliação de US$ 10B+ e US$ 300M+

DeepSeek, uma startup chinesa de IA, está negociando sua primeira rodada de financiamento externo, com o objetivo de levantar pelo menos $300 milhões em uma avaliação de $10 bilhões. Apesar de rejeições anteriores a ofertas de investimento, as discussões de captação agora supostamente estão em andamento.

GateNews8h atrás

Publicidade do ChatGPT avança para Austrália e Nova Zelândia: Free e usuários do Go primeiro, planos pagos mantêm sem anúncios

A OpenAI, em 17 de abril de 2023, expandiu os anúncios do ChatGPT para a Austrália, Nova Zelândia e Canadá, para usuários do Free e do Go, enquanto os usuários pagantes não veem anúncios. Essa iniciativa marca o segundo caminho para a comercialização da IA e, ao considerar riscos comerciais e regulatórios, a exibição de anúncios pode promover conversões pagas.

ChainNewsAbmedia10h atrás
Comentário
0/400
Sem comentários