O responsável por relações com desenvolvedores de IA da Google, Logan Kilpatrick, anunciou em 15 de abril o lançamento do Gemini 3.1 Flash TTS — o modelo mais recente de texto para fala da Google. Este modelo oferece suporte a 70 idiomas, controle refinado no nível do diretor de cena (scene direction), do falante e marcações de áudio; no momento, já está disponível para uso no playground de áudio do Google AI Studio e na Gemini API.
Quatro recursos centrais
O Gemini 3.1 Flash TTS, em comparação com a geração anterior, traz quatro melhorias notáveis:
Diretor de cena (Scene Direction) — é possível definir contextos para a voz, como “falar baixinho em um café barulhento” ou “anunciar empolgado uma boa notícia”; o modelo ajusta o tom, a velocidade de fala e a emoção de acordo com o cenário
Controle no nível do falante (Speaker-Level Specificity) — em diálogos com múltiplos personagens, é possível definir características de voz diferentes para cada personagem
Marcações de áudio (Audio Tags) — suporta inserir comandos de efeitos sonoros no texto, controlando detalhes como pausas e variações de entonação
Suporte a 70 idiomas — amplia significativamente a cobertura multilíngue, incluindo chinês
Voz mais natural e expressiva
O Google destaca os avanços deste modelo em naturalidade de voz. Modelos tradicionais de TTS costumam ter sua saída criticada como “soando como IA”. O Gemini 3.1 Flash TTS tenta reduzir a distância em relação à fala humana por meio de variações de prosódia e expressões emocionais mais ricas. Kilpatrick apontou que o progresso do Gemini 2.5 para o 3.1 é “bem significativo”.
Como os desenvolvedores podem usar
Os desenvolvedores podem usar de duas maneiras:
Google AI Studio Audio Playground — testar e pré-visualizar diretamente na interface da web
Gemini API — integrar em aplicativos para casos como assistentes de voz, audiolivros, geração automática de Podcast, atendimento ao cliente multilíngue etc.
A linha de produtos Gemini continua se expandindo
O Flash TTS faz parte de uma fase recente de lançamentos intensivos da série Gemini 3.1. Antes disso, a Google já havia lançado o Gemini Robotics ER 1.6 (raciocínio visual de robôs), o Tab Tab Tab (complemento de prompt do Vibe Coding) e funções como pré-visualização de design. A Google está expandindo o Gemini de “modelo de chat” para uma plataforma de IA multimodal completa que engloba texto, voz, visão e robôs.
Este artigo “A Google lança o Gemini 3.1 Flash TTS: suporte a 70 idiomas e direção de cena, voz de IA mais natural” apareceu pela primeira vez em Cadeia News ABMedia.
Related Articles
A ação da Meta sobe 1,73% enquanto a empresa planeja demitir 8.000 funcionários a partir de 20 de maio
O relatório anual do Google afirma que o Gemini realiza detecção em milissegundos, bloqueando 99% dos anúncios de golpes
Cofundador da Ethereum Lubin: a IA será um ponto de virada crítico para o cripto, mas o monopólio de gigantes de tecnologia traz risco sistêmico
Elon Musk Defende Cheques de “Renda Universal Alta” como Solução Definitiva para o Desemprego na IA
DeepSeek Supostamente Lança Primeira Rodada de Captação Externa, Mirando Avaliação de US$ 10B+ e US$ 300M+
Publicidade do ChatGPT avança para Austrália e Nova Zelândia: Free e usuários do Go primeiro, planos pagos mantêm sem anúncios