O custo de tokenização do idioma chinês do Claude é 65% maior do que o do inglês; a OpenAI é apenas 15% maior

Mensagem do Gate News, 29 de abril — a pesquisadora de IA Aran Komatsuzaki realizou uma análise comparativa da eficiência de tokenização em seis dos principais modelos de IA traduzindo o artigo seminal de Rich Sutton “The Bitter Lesson” para nove idiomas e processando-os por meio dos tokenizadores da OpenAI, Gemini, Qwen, DeepSeek, Kimi e Claude. Usando a contagem de tokens da versão em inglês na OpenAI como base (1x), o estudo revelou disparidades significativas: processar o mesmo conteúdo em chinês exigiu 1,65x tokens no Claude, em comparação com apenas 1,15x na OpenAI. O hindi mostrou um resultado ainda mais extremo no Claude, excedendo a base em mais de 3x. A Anthropic ficou na última posição entre os seis modelos testados.

Ponto crítico: quando o mesmo texto em chinês foi processado em diferentes modelos—todos medidos contra a mesma base em inglês—os resultados divergem dramaticamente: a Kimi consumiu apenas 0,81x tokens (menos do que o inglês), o Qwen 0,85x, enquanto o Claude exigiu 1,65x. Essa diferença revela um problema puro de eficiência de tokenização, não uma questão inerente de idioma. Os modelos de chinês demonstraram eficiência superior no processamento do chinês, sugerindo que a disparidade decorre da otimização do tokenizador e não do idioma em si.

As implicações práticas para os usuários são substanciais: o aumento do consumo de tokens eleva diretamente os custos da API, amplia a latência de resposta dos modelos e esgota as janelas de contexto com mais rapidez. A eficiência de tokenização depende da composição linguística dos dados de treinamento de um modelo—modelos treinados predominantemente em inglês comprimem o texto em inglês de forma mais eficiente, enquanto idiomas com menor representação em dados são tokenizados em fragmentos menores e menos eficientes.

A conclusão de Komatsuzaki ressalta um princípio fundamental: o tamanho do mercado determina a eficiência de tokenização. Mercados maiores recebem melhor otimização, enquanto idiomas com menor representação enfrentam custos de token significativamente mais altos.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

Reid Hoffman: NFTs podem voltar à medida que os agentes de IA precisam de confiança cripto

Reid Hoffman, sócio da Greylock e cofundador do LinkedIn, disse que agentes autônomos precisarão de sistemas de confiança baseados em cripto para fazer transações pela internet aberta, sugerindo que NFTs podem voltar a ter força, de acordo com sua declaração. Agentes de IA e infraestrutura de confiança As observações de Hoffman apontam para um possível

CryptoFrontier25m atrás

Scale AI recebe $500M contrato do Pentágono para processamento de dados de IA

De acordo com a ChainCatcher, o Departamento de Defesa dos EUA concedeu à Scale AI, apoiada pela Meta Platforms, um contrato de US$ 500 milhões para ajudar a processar dados e apoiar a tomada de decisões militares. A premiação é cinco vezes maior do que o contrato de US$ 100 milhões que a empresa sediada em São Francisco recebeu em

GateNews1h atrás

xAI, de Elon Musk, vai rebrandizar como SpaceXAI à medida que o status de empresa independente chega ao fim

De acordo com a Odaily, Elon Musk anunciou que a xAI será rebatizada como SpaceXAI, já que a empresa não vai mais operar como uma entidade independente.

GateNews1h atrás

IBM amplia sua suíte de IA corporativa com novas ferramentas baseadas em agentes na Think 2026

Segundo a IBM, a empresa anunciou uma expansão de suas capacidades de IA corporativa na conferência Think 2026, em Boston, lançando novas ferramentas baseadas em agentes para ajudar organizações a incorporar inteligência artificial nas operações do dia a dia. O Context Studio, agora disponível de forma geral, permite que empresas

GateNews1h atrás

Ações da Hut 8 Disparam 30% com contrato de locação de data center de IA no valor de US$ 9,8 bilhões

A Hut 8 viu suas ações dispararem mais de 30% após a notícia de um acordo de locação de dados de IA no valor de US$ 9,8 bilhões. A mineradora de Bitcoin está expandindo para a infraestrutura de IA com um contrato de hiperescalabilidade de longo prazo localizado no Texas. Expansão da Infraestrutura de IA O contrato inclui opções que poderiam aumentar o total

CryptoFrontier1h atrás
Comentário
0/400
Sem comentários