El investigador de IA Aran Komatsuzaki publicó recientemente en la plataforma X un análisis experimental que revela un grave problema de “impuesto por no hablar inglés (non-English tax)” en los tokenizadores de los principales modelos de lenguaje (LLM). En particular, el modelo Claude de Anthropic llega a requerir para materiales de los idiomas chino, japonés y coreano un consumo de tokens de hasta cerca de 3 veces, lo que ha desatado el debate en la comunidad.
Método del experimento: usar un artículo clásico para cuantificar la diferencia del costo lingüístico
Komatsuzaki tomó como material el artículo clásico 《The Bitter Lesson》, lo tradujo al chino, hindi, árabe, coreano, japonés, entre otros idiomas, y luego lo introdujo por separado en los tokenizadores de varios modelos para calcular la cantidad de tokens consumidos. El experimento usó como referencia la versión en inglés de OpenAI (1,0×) y comparó, mediante multiplicadores estandarizados, la eficiencia de cada modelo al procesar distintos idiomas.
La cantidad de tokens determina directamente el costo de uso de la API y la latencia de respuesta: a más tokens, mayor costo y más lentitud. Por lo tanto, la diferencia de eficiencia del tokenizador, en la práctica, es la diferencia en el bolsillo del usuario y en la experiencia de uso.
Komatsuzaki también adjuntó un sitio web que él mismo diseñó para calcular el uso de tokens:
¿La IA también tiene discriminación racial? Claude tiene el “impuesto” lingüístico más alto; el hindi sale primero
Gráfico de barras del multiplicador de consumo de tokens por idioma: OpenAI vs. Anthropic
Los datos muestran que el multiplicador de tokens de OpenAI para distintos idiomas suele mantenerse dentro de 1,4×, mientras que la diferencia en Anthropic (Claude) es extremadamente marcada:
Hindi: 3,24× (Claude) vs. 1,37× (OpenAI)
Árabe: 2,86× (Claude) vs. 1,31× (OpenAI)
Ruso: 2,04× (Claude) vs. 1,31× (OpenAI)
Chino: 1,71× (Claude) vs. 1,15× (OpenAI)
En otras palabras, si un desarrollador indio usa la API de Claude para procesar contenido en hindi, podría pagar realmente más del triple del costo de una tarea equivalente en inglés, y además la velocidad de respuesta también disminuiría de forma notable por el aumento del tamaño en tokens.
Comparación horizontal de seis modelos: los modelos locales de China superan; Gemini es el mejor
Mapa de calor del multiplicador de consumo de tokens entre idiomas de seis modelos
El post publicado posteriormente por Komatsuzaki amplió aún más el alcance al incluir modelos como Gemini 3.1, Qwen 3.6, DeepSeek V4, Kimi K2.6, etc. Los resultados mostraron:
Gemini 3.1: 1,22× (el más amable para usuarios no angloparlantes)
Qwen 3.6: 1,23×
OpenAI: 1,33×
DeepSeek V4: 1,49×
Kimi K2.6: 1,76×
Anthropic: 2,07× (el menos amable para usuarios no angloparlantes)
Los datos dejan ver que el consumo de tokens en chino en Qwen (0,85×), DeepSeek (0,87×) y Kimi (0,81×) es menor que el estándar en inglés, lo que indica que los modelos locales de China ya han sido optimizados en profundidad para el chino. El propio Komatsuzaki, en su respuesta, reconoció con franqueza: “No pensé que Claude fuera tan malo y tan desbalanceado”.
La preocupación de la comunidad: “la brecha de costos” es un problema grave en el proceso de masificación de la IA
Los resultados del experimento resonaron con fuerza en la comunidad de X. Muchos desarrolladores no angloparlantes afirman que, en el uso real, procesar los mismos documentos en chino o coreano con Claude cuesta efectivamente mucho más que con Gemini.
El debate también se extendió a las causas técnicas subyacentes: las diferencias de eficiencia del tokenizador provienen principalmente de que los datos de entrenamiento se componen mayormente de contenido en inglés y caracteres latinos, lo que hace que el modelo comprenda con menor profundidad otros sistemas de escritura; así, cada carácter o vocabulario necesita consumir más tokens. Aunque en todo el mundo hay cientos de millones de usuarios de hindi, la relativa escasez de material de entrenamiento de alta calidad, sumada a la complejidad morfológica de su estructura de escritura, convierte al hindi en el grupo con los costos más altos para usar IA.
Algunos usuarios también creen que el público principal de Anthropic está más orientado a empresas de habla inglesa y escenarios de desarrollo de código, por lo que no hay suficiente motivación para optimizar múltiples idiomas. En cambio, OpenAI, en su opinión, se desempeña mejor con contenido lingüístico: “La IA debería ser una tecnología igualitaria y democratizadora, pero los usuarios no angloparlantes terminan pagando por la discriminación lingüística”.
Hoy, esta controversia en torno al diseño del tokenizador ya no es solo un problema técnico, sino que refleja el desbalance que enfrenta la industria de la IA en su expansión global.
¿Este artículo fue sobre que Claude cobra el “impuesto” por el lenguaje? El estudio revela que los contenidos en chino, japonés y coreano consumen los tokens más, llegando a casi 3 veces; apareció por primera vez en Cadena Noticias ABMedia.
Artículos relacionados
Claw Intelligence se asocia con Block Sec Arena para reforzar la seguridad de BNB Chain
NTT anuncia la iniciativa AI x OWN y planea triplicar la capacidad de energía en Japón a 1 GW para 2033
La plataforma de IA Certifyde completa una ronda semilla de 2 millones de dólares el 1 de mayo, respaldada por el CEO de Ripple, Brad Garlinghouse
Subsecretario de tecnología del Pentágono: Anthropic sigue en la lista negra, excepciones para Mythos
137 Ventures cierra $700M en nuevos fondos; AUM alcanza 15.000 millones de USD
Reddit se dispara un 16% con una sólida perspectiva para el 2T; Apple enfrenta un déficit de Mac mientras la demanda de IA supera el suministro