XAI Grok introduce voces personalizadas: clonación de 2 minutos, verificación de identidad en dos fases

xAI 2 de mayo presentó en su blog oficial la función Grok Custom Voices. Los usuarios solo necesitan grabar aproximadamente 1 minuto de voz natural en la consola de xAI y el sistema la procesará en 2 minutos para producir un modelo de voz personalizado que puede usarse tanto para la API de TTS como para la Voice Agent API. En la misma actualización también se lanzó el modelo Grok 4.3, junto con la interfaz Voice Library, que recopila todos los recursos de voz. Custom Voices además incorpora un mecanismo de verificación de identidad en dos etapas para evitar clonar la voz de otras personas.

Función: grabación de 1 minuto, generación de 2 minutos e integración con TTS y Voice Agent API

Los usuarios graban aproximadamente 1 minuto de voz natural en la consola de xAI; el proceso en segundo plano completa secuencialmente: (1) verificación de identidad, (2) procesamiento de voz y (3) generación del modelo. En total, en menos de 2 minutos se obtiene un modelo de voz utilizable. Custom Voices hereda todas las capacidades de TTS, incluyendo speech tags (etiquetas de voz), salida multilingüe y streaming mediante REST y WebSocket; se puede combinar directamente con los endpoints de TTS de xAI o con la Voice Agent API para mantener conversaciones en tiempo real con un agente.

La Voice Library lanzada en paralelo es una interfaz en la consola de xAI para la gestión unificada de recursos de voz: permite navegar, previsualizar y administrar toda la voz personalizada de los usuarios y la voz preconstruida, evitando la dispersión en múltiples interfaces. La biblioteca preconstruida incluye más de 80 tipos de voces y admite 28 idiomas.

Verificación de identidad en dos etapas: para evitar clonar voces ajenas

Antes de generar la voz, Custom Voices establece dos etapas de verificación: primero, el usuario lee una frase de verificación y el sistema transcribe inmediatamente ese fragmento de voz; segundo, el sistema calcula por separado el speaker embedding (vector de características del hablante) a partir de la frase de verificación y de la grabación completa, y compara si corresponden a la misma persona. Solo si se superan ambas etapas, se ingresa al flujo de generación del modelo de voz.

xAI declara de forma explícita: los usuarios no pueden clonar la voz usando archivos de audio existentes, ni tampoco clonar la voz de otras personas. Este diseño elimina el escenario de “obtener grabaciones de discursos públicos ajenos y copiarlas directamente” y acota el rango de clonación a un único punto de entrada: “grabación en tiempo real por parte del propio usuario”. Para observadores preocupados por el mal uso de la generación de voz de IA (como estafas telefónicas o doblajes sin autorización), este mecanismo es una respuesta concreta de xAI ante el tema de la falsificación.

Observación posterior: lanzamiento junto con Grok 4.3 y ampliación del ritmo de la Voice Library

Custom Voices y el modelo Grok 4.3 se lanzaron el mismo día; xAI ató “la actualización del modelo + la completa integración de herramientas de voz” en la misma ola de anuncios. El siguiente punto a observar es el ritmo con el que la Voice Library amplíe la biblioteca preconstruida más allá de 80 voces, y si el mapa de 28 idiomas puede cubrir aún más idiomas minoritarios como el chino tradicional; otro punto es que se publiquen casos concretos de adopción de la Voice Agent API, especialmente ejemplos de integración en escenarios como automatización de atención al cliente, grabación de podcasts y servicios de atención multilingüe.

Este artículo “xAI Grok lanza Custom Voices: clonación en 2 minutos y verificación de identidad en dos etapas” apareció primero en 鏈新聞 ABMedia.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.
Comentar
0/400
Sin comentarios