StepFun's StepAudio 2.5 en tiempo real supera cinco benchmarks de IA de voz y vence a GPT Realtime 1.5

El laboratorio de IA con sede en Shanghái StepFun lanzó esta semana StepAudio 2.5 Realtime, un modelo de voz en tiempo real de extremo a extremo que admite chino e inglés. El modelo encabezó los cinco benchmarks de voz con IA probados en abril de 2026, superando a GPT Realtime 1.5 de OpenAI y a Gemini Live de Google, según las pruebas de StepFun.

En el benchmark de comprensión paralingüística—que mide la percepción de rasgos acústicos como la emoción y la velocidad al hablar en una escala de 0–100—StepAudio obtuvo 82,18 frente a 80,46 de GPT Realtime 1.5 y 58,05 de Gemini Live. En pruebas de evaluación humana, StepAudio logró 80,41 frente a 68,01 para GPT Realtime 1.5 y 67,16 para Gemini Live. StepFun entrenó el modelo con un conjunto de datos de personalidades a escala de un millón, con aprendizaje por refuerzo específico para roleplay para mantener la coherencia del personaje durante conversaciones prolongadas.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios