Gate News 消息,4 月 29 日——AI 研究员 Aran Komatsuzaki 通过将 Rich Sutton 的奠基论文《The Bitter Lesson》翻译成九种语言,并将其分别通过 OpenAI、Gemini、Qwen、DeepSeek、Kimi 和 Claude 的分词器(tokenizers)处理,对六个主要 AI 模型的分词效率进行了对比分析。以 OpenAI 上英文版本的分词(token)数量作为基准 (1x),研究揭示了显著差异:在 Claude 上处理相同内容的中文需要 1.65x 个分词(tokens),而在 OpenAI 上仅需 1.15x。印地语在 Claude 上的结果更为极端,相比基准超过了 3x。Anthropic 在测试的六个模型中排名最低。
关键在于,当相同的中文文本在不同模型中被处理——且全部都以相同的英文基准进行衡量——结果出现了巨大的分歧:Kimi 只消耗了 0.81x 个分词 (甚至少于英文),Qwen 为 0.85x,而 Claude 则需要 1.65x。这个差距表明这是纯粹的分词效率问题,而非语言本身的问题。中文模型在处理中文时表现出更高的效率,这表明差异源于分词器优化,而不是语言本身。
对用户的实际影响十分可观:分词消耗的增加会直接推高 API 成本,延长模型响应延迟,并更快耗尽上下文窗口。分词效率取决于模型训练数据的语言构成——主要用英语训练的模型会更高效地压缩英文文本,而数据占比更低的语言会被切分成更小、效率更低的片段。
Komatsuzaki 的结论强调了一个基本原则:市场规模决定分词效率。更大的市场获得更好的优化,而在代表性不足的语言上将面临显著更高的分词成本。