Claude стягуватиме мовний податок? Дослідження: переклад китайського, японського та корейського контенту споживає найбільше токенів — майже втричі більше

AI-дослідник Аран Комацузаки нещодавно опублікував на X експериментальний аналіз, який викриває серйозну проблему «неангломовного податку (non-English tax)» у токенізаторах провідних великих мовних моделей (LLM). Зокрема, моделі Claude від Anthropic для матеріалів китайською, японською та корейською мовами навіть потребують витрати майже втричі більше токенів, що спричинило дискусії в спільноті.

Методика експерименту: вимірювання різниці мовних витрат на основі класичної статті

Комацузаки використав як матеріал класичну роботу «The Bitter Lesson», переклав її китайською, хінді, арабською, корейською, японською та іншими мовами, а потім відправив тексти в токенізатори різних моделей, щоб порахувати кількість спожитих токенів. У досліді за базу взято англомовну версію OpenAI (1,0×), а порівняння ефективності різних моделей для різних мов виконано через стандартизовані коефіцієнти.

Кількість токенів напряму визначає плату за API та затримку відповіді: що більше токенів — то вищі витрати й повільніша швидкість. Тому різниця в ефективності токенізатора фактично означає різницю у витратах і в користувацькому досвіді.

Комацузаки також додав власноруч розроблений сайт, який може підраховувати кількість токенів:

AI теж має расову дискримінацію? У Claude найвищий мовний податок, хінді — перша мішень

OpenAI vs. Anthropic коефіцієнт споживання Token для кожної мови гістограма

Дані показують, що коефіцієнти токенів для різних мов в OpenAI загалом тримаються в межах 1,4×, тоді як відмінності в Anthropic (Claude) надзвичайно разючі:

Хінді: 3,24× (Claude) проти 1,37× (OpenAI)

Арабська: 2,86× (Claude) проти 1,31× (OpenAI)

Російська: 2,04× (Claude) проти 1,31× (OpenAI)

Чинська: 1,71× (Claude) проти 1,15× (OpenAI)

Інакше кажучи, якщо індійський розробник використовує API Claude для обробки хіндійського контенту, фактичні витрати можуть становити щонайменше втричі більше, ніж за таке саме завдання англійською, а швидкість відповіді також помітно падає через роздування кількості токенів.

Порівняння шести моделей по горизонталі: китайські локальні моделі обійшли, а Gemini — найкраще

Теплокарта коефіцієнтів споживання Token між мовами для шести моделей

Після цього Комацузаки опублікував ще один пост, який розширив охоплення, додавши моделі Gemini 3.1, Qwen 3.6, DeepSeek V4, Kimi K2.6 тощо. Результати показали:

Gemini 3.1: 1,22× (найдружніший для неангломовних користувачів)

Qwen 3.6: 1,23×

OpenAI: 1,33×

DeepSeek V4: 1,49×

Kimi K2.6: 1,76×

Anthropic: 2,07× (найнедружніший для неангломовних користувачів)

З даних видно, що токеноспоживання для китайської мови в Qwen (0,85×), DeepSeek (0,87×) і Kimi (0,81×) нижче, ніж у англомовному базовому варіанті, що свідчить: китайські локальні моделі вже глибоко оптимізували роботу з китайською. Сам Комацузаки у відповіді зізнався: «Я не думав, що Claude настільки поганий і незбалансований».

Занепокоєння в спільноті: «розрив у вартості» — серйозна проблема під час поширення AI

Експериментальні результати в X викликали сильний відгук: багато неангломовних розробників заявляють, що в реальному використанні однакові китайські або корейські документи, оброблені Claude, справді коштують значно дорожче, ніж Gemini.

Обговорення також торкнулося технічних першопричин: різниця в ефективності токенізатора здебільшого пов’язана з тим, що під час навчання домінують англомовний контент і латинська абетка, через що моделі гірше розуміють інші системи письма. У результаті кожен символ або лексема потребує більше токенів. Навіть якщо глобальна аудиторія користувачів хінді налічує до сотень мільйонів людей, відносно рідкісні якісні навчальні матеріали та складна морфологія письма роблять цю мовну групу найвитратнішою для використання AI.

Частина користувачів вважає, що основна клієнтура Anthropic — це англомовні бізнес-користувачі та сценарії розробки програмного коду, тож у компанії немає мотивації активно оптимізувати багатомовність. Натомість OpenAI, як кажуть, краще працює з мовним контентом, і прямо заявляють: «AI мав би бути рівноправною технологією демократизації, але неангломовні користувачі фактично платять за мовну дискримінацію».

Тепер ця суперечка навколо дизайну токенізатора — це вже не лише технічне питання, а й відображення дисбалансу, який виникає в процесі глобального розширення AI-індустрії.

Ця стаття про те, чи Claude бере «мовний податок», уперше з’явилася в 鏈新聞 ABMedia: дослідження виявило, що переклад матеріалів китайською, японською та корейською мовами споживає найбільше токенів — майже втричі більше.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.
Прокоментувати
0/400
Немає коментарів