IOLA, inovação em reconhecimento de voz… seleciona automaticamente o modelo ASR mais adequado com base no contexto

robot
Geração de resumo em curso

A startup de inteligência artificial aiOla lançou uma nova solução que pode revolucionar a precisão do reconhecimento de voz. O sistema “Gateway de Inteligência de Voz” lançado pela empresa analisa em tempo real a voz do utilizador e conecta automaticamente ao modelo de reconhecimento de voz mais adequado. Este sistema, após avaliar dinamicamente as características complexas da linguagem, escolhe o modelo que oferece a melhor precisão para processamento.

O ano passado, a aiOla revelou o “DRAX”, um modelo de IA de voz que supera as limitações do reconhecimento de voz tradicional através de tecnologia de aprendizagem de fluxo paralelo. O DRAX consegue processar todas as frases simultaneamente, demonstrando forte desempenho em ambientes com ruído, variações de tom, entre outros fatores do mundo real. Com base nesta tecnologia, a nova inovação “QUASAR” analisa características de voz, entonação do falante, presença de ruído, contexto, entre outros fatores, para selecionar automaticamente o motor de reconhecimento de voz mais adequado entre várias opções.

Embora o mercado de IA de voz atualmente conte com vários fornecedores de ASR (Reconhecimento Automático de Fala) que competem otimizando para ambientes ruidosos ou variações de tom, incluindo Whisper da OpenAI, Transcribe da Amazon, Qwen2 da Alibaba e Deepgram, a maioria das empresas ainda utiliza um único modelo que apresenta melhor desempenho em avaliações padrão. Isso resulta em erros frequentes de reconhecimento em ambientes reais, levando a críticas constantes sobre a experiência do utilizador.

O cofundador e presidente da aiOla, Amir Haramati, destacou a situação em que as empresas se veem obrigadas a aceitar as limitações de um modelo de ASR específico: “Alguns modelos têm desempenho excelente ao lidar com inglês americano, mas muitas vezes ficam impotentes em ambientes com sotaque britânico ou ruído.” Ele enfatizou: “QUASAR é o primeiro sistema a tratar o reconhecimento de voz como uma questão dinâmica, e não uma tecnologia estática.”

Nos testes internos de benchmark, a aiOla aplicou o sistema a diversos ambientes com diferentes entonações, ruídos de fundo e conteúdos especializados. Os resultados mostraram que, em 88,8% das solicitações, o sistema consegue selecionar dinamicamente o motor de ASR mais adequado para melhorar a precisão. Espera-se que essa tecnologia aumente significativamente a compreensão em áreas como suporte ao cliente, registros de reuniões, sistemas de resposta automática, entre outros.

Haramati afirmou: “À medida que o reconhecimento de voz se torna a interface fundamental que conecta humanos e IA, erros de reconhecimento tornaram-se inaceitáveis.” Ele chamou o QUASAR de “uma tecnologia que transforma o ASR em uma infraestrutura viva” e acrescentou: “Não é apenas uma inovação tecnológica, mas uma mudança que pode impactar desde centros de chamadas globais que lidam com bilhões de chamadas até desenvolvedores independentes criando legendas.”

A aiOla planeja usar essa tecnologia para aumentar drasticamente a utilidade e confiabilidade das interfaces de IA de voz, criando um ponto de inflexão estrutural em todo o ecossistema de IA de voz.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)