IOLA, innovación en reconocimiento de voz… selecciona automáticamente el modelo ASR óptimo según el contexto

robot
Generación de resúmenes en curso

La startup de inteligencia artificial aiOla ha lanzado una solución que puede revolucionar la precisión del reconocimiento de voz. El sistema “Puerta de enlace inteligente de voz” que la compañía ha desarrollado puede analizar en tiempo real la voz del usuario y conectarse automáticamente al modelo de reconocimiento de voz más adecuado. Este sistema selecciona el modelo que ofrece la mejor precisión tras evaluar dinámicamente las características complejas del lenguaje.

El año pasado, aiOla hizo público “DRAX”, un modelo de IA de voz que supera las limitaciones del reconocimiento de voz tradicional mediante tecnología de aprendizaje en flujo paralelo. DRAX puede procesar todas las frases simultáneamente y muestra un rendimiento robusto frente a variables reales como ruido ambiental y entonación. Basándose en esta tecnología, la nueva innovación “QUASAR” analiza características de la voz, entonación del hablante, presencia de ruido, contexto y otra información para seleccionar automáticamente el motor de reconocimiento de voz más adecuado entre múltiples motores de reconocimiento automático de voz.

Aunque en el mercado actual de IA de voz existen varios proveedores de servicios ASR que compiten en la optimización para entornos con ruido o diferentes entonaciones, como Whisper de OpenAI, Transcribe de Amazon, Qwen2 de Alibaba y Deepgram, la mayoría de las empresas todavía utilizan un solo modelo que muestra el mejor rendimiento en evaluaciones estándar. Esto provoca errores frecuentes en entornos reales, lo que genera críticas por una experiencia de usuario deficiente.

El cofundador y presidente de aiOla, Amir Haramaty, señaló la situación en la que las empresas deben soportar las limitaciones de modelos ASR específicos: “Algunos modelos funcionan excelentemente con inglés americano, pero se quedan cortos en entonaciones británicas o en ambientes con ruido.” Enfatizó: “QUASAR es el primer sistema que considera el reconocimiento de voz como un problema dinámico en lugar de una tecnología estática.”

En pruebas internas, aiOla aplicó este sistema en diversos entornos con diferentes entonaciones, ruidos de fondo y contenidos especializados. Los resultados mostraron que en el 88.8% de las solicitudes de respuesta, el sistema podía seleccionar dinámicamente el motor ASR más óptimo para mejorar la precisión. Se espera que esta tecnología mejore significativamente la comprensión en áreas como soporte al cliente, transcripción de reuniones y sistemas de respuesta automática.

Haramaty afirmó: “A medida que el reconocimiento de voz se convierte en la interfaz básica que conecta a los humanos con la IA, los errores de reconocimiento se vuelven inaceptables.” Lo llamó “una tecnología que transforma el ASR en una infraestructura viva” y añadió: “No solo es un avance tecnológico, sino una transformación que puede afectar desde centros de llamadas globales que manejan miles de millones de llamadas hasta desarrolladores independientes que crean funciones de subtítulos.”

aiOla planea utilizar esta tecnología para mejorar significativamente la utilidad y fiabilidad de las interfaces de IA de voz, creando un punto de inflexión estructural en todo el ecosistema de IA de voz.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado

Opera con criptomonedas en cualquier momento y lugar
qrCode
Escanea para descargar la aplicación de Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)