Thinking Machines lanza un modelo de interacción con una respuesta de 200 ms, superando a GPT-Realtime-2.0

Según Beating, Thinking Machines, el laboratorio fundado por la ex CTO de OpenAI Mira Murati, lanzó una vista previa de investigación de su modelo de Interacción, con procesamiento nativo de audio y video en tiempo real y respuestas de micro-turn de 200 milisegundos. El modelo permite escuchar, ver y hablar de forma simultánea, mientras admite interrupciones en tiempo real por parte del usuario.

El modelo TML-Interaction-Small utiliza una arquitectura MoE de 276 mil millones de parámetros, con 12 mil millones de parámetros activados por inferencia. Los datos oficiales muestran una latencia de cambio de turno de voz de 0,40 segundos y una puntuación FD-bench V1.5 de 77,8, ambas superando a GPT-Realtime-2.0 y a Gemini 3.1 Flash Live. Se planea un acceso limitado a la vista previa para los próximos meses.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.
Comentar
0/400
Sin comentarios