Mensagem do Gate News, 17 de abril — O Google revelou o Gemini 3.1 Flash TTS, um modelo avançado de texto para fala com recursos de expressão emocional e controle aprimorados, em 15 de abril. O novo modelo será disponibilizado gradualmente por meio de APIs para desenvolvedores, Vertex AI corporativo e ferramentas de colaboração.
As principais capacidades do modelo incluem tags de áudio baseadas em linguagem natural para ajustar a velocidade, a entonação e a emoção, além de um “Director Mode” para especificar cenas e papéis de personagens e gerar saídas de voz mais nuances. Um recurso de múltiplos locutores permite gerar diálogos simultâneos, possibilitando fluxos de conversa mais naturais, adequados para podcasts, conteúdos de áudio e assistentes de IA. O modelo suporta mais de 70 idiomas e dialetos, refletindo sotaques e expressões regionais para experiências de voz localizadas globalmente.
O Google destacou desempenho e eficiência de custos, alcançando altas pontuações em benchmarks de avaliação humana cega, enquanto reduzia custos computacionais com sua arquitetura Flash — projetada para adoção empresarial em larga escala. O áudio gerado inclui marca d’água SynthID para identificar conteúdo gerado por IA e combater a desinformação.
A iniciativa reflete a intensificação da concorrência em interfaces de voz. A OpenAI está combinando recursos de voz em tempo real com IA conversacional para interações semelhantes às humanas, enquanto a Meta está expandindo investimentos em personagens de IA com experiências sociais baseadas em voz. Observadores da indústria apontam que, embora atuação em alto nível e trabalhos criativos possam continuar sendo impulsionados por humanos por enquanto, mercados de produção repetitiva e em larga escala podem ver uma adoção gradual de IA em dublagem, publicidade e setores de audiobooks.
Related News