AI-дослідник Аран Комацузаки нещодавно опублікував на X експериментальний аналіз, який викриває серйозну проблему «неангломовного податку (non-English tax)» у токенізаторах провідних великих мовних моделей (LLM). Зокрема, моделі Claude від Anthropic для матеріалів китайською, японською та корейською мовами навіть потребують витрати майже втричі більше токенів, що спричинило дискусії в спільноті.
Методика експерименту: вимірювання різниці мовних витрат на основі класичної статті
Комацузаки використав як матеріал класичну роботу «The Bitter Lesson», переклав її китайською, хінді, арабською, корейською, японською та іншими мовами, а потім відправив тексти в токенізатори різних моделей, щоб порахувати кількість спожитих токенів. У досліді за базу взято англомовну версію OpenAI (1,0×), а порівняння ефективності різних моделей для різних мов виконано через стандартизовані коефіцієнти.
Кількість токенів напряму визначає плату за API та затримку відповіді: що більше токенів — то вищі витрати й повільніша швидкість. Тому різниця в ефективності токенізатора фактично означає різницю у витратах і в користувацькому досвіді.
Комацузаки також додав власноруч розроблений сайт, який може підраховувати кількість токенів:
AI теж має расову дискримінацію? У Claude найвищий мовний податок, хінді — перша мішень
OpenAI vs. Anthropic коефіцієнт споживання Token для кожної мови гістограма
Дані показують, що коефіцієнти токенів для різних мов в OpenAI загалом тримаються в межах 1,4×, тоді як відмінності в Anthropic (Claude) надзвичайно разючі:
Хінді: 3,24× (Claude) проти 1,37× (OpenAI)
Арабська: 2,86× (Claude) проти 1,31× (OpenAI)
Російська: 2,04× (Claude) проти 1,31× (OpenAI)
Чинська: 1,71× (Claude) проти 1,15× (OpenAI)
Інакше кажучи, якщо індійський розробник використовує API Claude для обробки хіндійського контенту, фактичні витрати можуть становити щонайменше втричі більше, ніж за таке саме завдання англійською, а швидкість відповіді також помітно падає через роздування кількості токенів.
Порівняння шести моделей по горизонталі: китайські локальні моделі обійшли, а Gemini — найкраще
Теплокарта коефіцієнтів споживання Token між мовами для шести моделей
Після цього Комацузаки опублікував ще один пост, який розширив охоплення, додавши моделі Gemini 3.1, Qwen 3.6, DeepSeek V4, Kimi K2.6 тощо. Результати показали:
Gemini 3.1: 1,22× (найдружніший для неангломовних користувачів)
Qwen 3.6: 1,23×
OpenAI: 1,33×
DeepSeek V4: 1,49×
Kimi K2.6: 1,76×
Anthropic: 2,07× (найнедружніший для неангломовних користувачів)
З даних видно, що токеноспоживання для китайської мови в Qwen (0,85×), DeepSeek (0,87×) і Kimi (0,81×) нижче, ніж у англомовному базовому варіанті, що свідчить: китайські локальні моделі вже глибоко оптимізували роботу з китайською. Сам Комацузаки у відповіді зізнався: «Я не думав, що Claude настільки поганий і незбалансований».
Занепокоєння в спільноті: «розрив у вартості» — серйозна проблема під час поширення AI
Експериментальні результати в X викликали сильний відгук: багато неангломовних розробників заявляють, що в реальному використанні однакові китайські або корейські документи, оброблені Claude, справді коштують значно дорожче, ніж Gemini.
Обговорення також торкнулося технічних першопричин: різниця в ефективності токенізатора здебільшого пов’язана з тим, що під час навчання домінують англомовний контент і латинська абетка, через що моделі гірше розуміють інші системи письма. У результаті кожен символ або лексема потребує більше токенів. Навіть якщо глобальна аудиторія користувачів хінді налічує до сотень мільйонів людей, відносно рідкісні якісні навчальні матеріали та складна морфологія письма роблять цю мовну групу найвитратнішою для використання AI.
Частина користувачів вважає, що основна клієнтура Anthropic — це англомовні бізнес-користувачі та сценарії розробки програмного коду, тож у компанії немає мотивації активно оптимізувати багатомовність. Натомість OpenAI, як кажуть, краще працює з мовним контентом, і прямо заявляють: «AI мав би бути рівноправною технологією демократизації, але неангломовні користувачі фактично платять за мовну дискримінацію».
Тепер ця суперечка навколо дизайну токенізатора — це вже не лише технічне питання, а й відображення дисбалансу, який виникає в процесі глобального розширення AI-індустрії.
Ця стаття про те, чи Claude бере «мовний податок», уперше з’явилася в 鏈新聞 ABMedia: дослідження виявило, що переклад матеріалів китайською, японською та корейською мовами споживає найбільше токенів — майже втричі більше.
Related News
BioMysteryBench: Mythos розв’язання — експерт не може розв’язати, безвихідне завдання 29,6%
Оксфордський інститут інтернету: дружнє навчання змушує ШІ підвищувати рівень помилок на 7,43 відсоткового пункту
Віцепрезидент із глибокого навчання в Nvidia вважає, що витрати на обчислення для ШІ перевищують витрати на зарплати людському персоналу
Напівпровідникові аналітики налаштовані оптимістично щодо ринку AI «принаймні ще на три роки»: передове складання є вузьким місцем галузі
Легендарний трейдер хедж-фонду розповідає про P/E індексу S&P 500 у США: людям, які купуватимуть широкий ринок у найближчі кілька років, буде дуже складно заробити