Google lanza Gemini 3.1 Flash TTS con mayor expresión emocional y capacidades de múltiples hablantes

Mensaje de Gate News, 17 de abril — Google presentó Gemini 3.1 Flash TTS, un modelo avanzado de texto a voz con funciones de expresión emocional y control mejoradas, el 15 de abril. El nuevo modelo se irá implementando de forma progresiva mediante APIs para desarrolladores, Vertex AI empresarial y herramientas de colaboración.

Las capacidades principales del modelo incluyen etiquetas de audio basadas en lenguaje natural para ajustar la velocidad, la entonación y la emoción, además de un “Modo Director” para especificar escenas y funciones de los personajes y generar salidas de voz más matizadas. Una función de múltiples hablantes permite generar diálogos simultáneos, posibilitando flujos de conversación más naturales adecuados para podcasts, contenido de audio y asistentes de IA. El modelo admite más de 70 idiomas y dialectos, reflejando acentos y expresiones regionales para experiencias de voz localizadas en todo el mundo.

Google enfatizó el rendimiento y la eficiencia en costos, logrando puntuaciones altas en puntos de referencia de evaluación humana a ciegas mientras reducía los costos computacionales mediante su arquitectura Flash, diseñada para la adopción a gran escala en empresas. El audio generado incluye marcas de agua SynthID para identificar contenido generado por IA y combatir la desinformación.

El movimiento refleja una competencia cada vez más intensa en interfaces de voz. OpenAI combina funciones de voz en tiempo real con IA conversacional para interacciones similares a las humanas, mientras que Meta amplía sus inversiones en personajes de IA con experiencias sociales basadas en voz. Los observadores de la industria señalan que, si bien por ahora el alto nivel de actuación y el trabajo creativo pueden seguir estando impulsados por humanos, los mercados de producción repetitiva y a gran escala podrían ver una adopción gradual de IA en doblaje, publicidad y sectores de audiolibros.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.
Comentar
0/400
Sin comentarios