O laboratório de IA StepFun, com sede em Xangai, lançou nesta semana o StepAudio 2.5 Realtime, um modelo de voz em tempo real ponta a ponta que oferece suporte a chinês e inglês. O modelo ficou no topo de todos os cinco benchmarks de IA de voz testados em abril de 2026, superando o GPT Realtime 1.5 da OpenAI e o Gemini Live do Google, de acordo com os testes da StepFun.
No benchmark de compreensão paralinguística — que mede a percepção de recursos acústicos como emoção e ritmo de fala em uma escala de 0–100 — o StepAudio obteve 82,18 versus 80,46 do GPT Realtime 1.5 e 58,05 do Gemini Live. Nos testes de avaliação humana, o StepAudio alcançou 80,41, enquanto o GPT Realtime 1.5 ficou em 68,01 e o Gemini Live em 67,16. A StepFun treinou o modelo em um conjunto de dados de personas em escala de mil, com aprendizado por reforço específico para roleplay para manter a consistência do personagem durante conversas longas.