Google lança Gemini 3.1 Flash TTS com expressão emocional aprimorada e recursos de múltiplos locutores

Mensagem do Gate News, 17 de abril — O Google revelou o Gemini 3.1 Flash TTS, um modelo avançado de texto para fala com recursos de expressão emocional e controle aprimorados, em 15 de abril. O novo modelo será disponibilizado gradualmente por meio de APIs para desenvolvedores, Vertex AI corporativo e ferramentas de colaboração.

As principais capacidades do modelo incluem tags de áudio baseadas em linguagem natural para ajustar a velocidade, a entonação e a emoção, além de um “Director Mode” para especificar cenas e papéis de personagens e gerar saídas de voz mais nuances. Um recurso de múltiplos locutores permite gerar diálogos simultâneos, possibilitando fluxos de conversa mais naturais, adequados para podcasts, conteúdos de áudio e assistentes de IA. O modelo suporta mais de 70 idiomas e dialetos, refletindo sotaques e expressões regionais para experiências de voz localizadas globalmente.

O Google destacou desempenho e eficiência de custos, alcançando altas pontuações em benchmarks de avaliação humana cega, enquanto reduzia custos computacionais com sua arquitetura Flash — projetada para adoção empresarial em larga escala. O áudio gerado inclui marca d’água SynthID para identificar conteúdo gerado por IA e combater a desinformação.

A iniciativa reflete a intensificação da concorrência em interfaces de voz. A OpenAI está combinando recursos de voz em tempo real com IA conversacional para interações semelhantes às humanas, enquanto a Meta está expandindo investimentos em personagens de IA com experiências sociais baseadas em voz. Observadores da indústria apontam que, embora atuação em alto nível e trabalhos criativos possam continuar sendo impulsionados por humanos por enquanto, mercados de produção repetitiva e em larga escala podem ver uma adoção gradual de IA em dublagem, publicidade e setores de audiobooks.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.
Comentário
0/400
Sem comentários