Nhà nghiên cứu AI Aran Komatsuzaki mới đây đã đăng tải một phân tích thử nghiệm trên nền tảng X, vạch ra rằng tokenizer (bộ tách từ) của các mô hình ngôn ngữ lớn (LLM) phổ biến đang tồn tại một vấn đề nghiêm trọng về “thuế phi ngôn ngữ tiếng Anh (non-English tax)”. Trong đó, mô hình Claude thuộc hệ sinh thái Anthropic khi xử lý các ngôn ngữ tiếng Trung, tiếng Nhật và tiếng Hàn thậm chí còn phải tiêu tốn lượng token cao tới gần 3 lần, khiến cộng đồng dấy lên tranh luận.
Phương pháp thử nghiệm: dùng một bài báo kinh điển để định lượng chênh lệch chi phí ngôn ngữ
Komatsuzaki dùng bài viết kinh điển “The Bitter Lesson” làm dữ liệu, rồi dịch sang nhiều ngôn ngữ như tiếng Trung, tiếng Hindi, tiếng Ả Rập, tiếng Hàn, tiếng Nhật… Sau đó lần lượt đưa vào tokenizer của từng mô hình lớn để tính số lượng token tiêu thụ. Thử nghiệm lấy phiên bản tiếng Anh của OpenAI làm chuẩn (1,0×), và so sánh hiệu suất xử lý của các mô hình đối với từng ngôn ngữ thông qua hệ số nhân được chuẩn hóa.
Số lượng token quyết định trực tiếp chi phí sử dụng API và độ trễ phản hồi; token càng nhiều thì chi phí càng cao, tốc độ càng chậm. Vì vậy, sự khác biệt hiệu suất tokenizer trên thực tế chính là chênh lệch về hầu bao và trải nghiệm người dùng.
Komatsuzaki cũng kèm theo một trang web do chính anh thiết kế, có thể tính lượng token:
AI cũng có nạn phân biệt chủng tộc? Claude “đánh thuế ngôn ngữ” cao nhất, tiếng Hindi chịu thiệt đầu tiên
OpenAI vs. Anthropic Biểu đồ thanh hệ số tiêu hao Token theo từng ngôn ngữ
Dữ liệu cho thấy, hệ số token của OpenAI ở các ngôn ngữ nhìn chung được giữ trong phạm vi không quá 1,4×, trong khi mức chênh lệch ở Anthropic (Claude) thì vô cùng rõ rệt:
Tiếng Hindi: 3,24× (Claude) so với 1,37× (OpenAI)
Tiếng Ả Rập: 2,86× (Claude) so với 1,31× (OpenAI)
Tiếng Nga: 2,04× (Claude) so với 1,31× (OpenAI)
Tiếng Trung: 1,71× (Claude) so với 1,15× (OpenAI)
Nói cách khác, nếu một nhà phát triển Ấn Độ dùng API của Claude để xử lý nội dung tiếng Hindi, chi phí thực tế có thể cao hơn hơn 3 lần so với một tác vụ tiếng Anh tương đương, và tốc độ phản hồi cũng sẽ giảm đáng kể do số token bị phình to.
So sánh ngang 6 mô hình: mô hình nội địa Trung Quốc vượt lên, Gemini thể hiện tốt nhất
Biểu đồ nhiệt hệ số tiêu hao Token theo đa ngôn ngữ của 6 mô hình
Komatsuzaki sau đó tiếp tục mở rộng phạm vi so sánh trên bài đăng, đưa thêm các mô hình như Gemini 3.1, Qwen 3.6, DeepSeek V4, Kimi K2.6… Kết quả cho thấy:
Gemini 3.1: 1,22× (thân thiện nhất với người dùng không phải tiếng Anh)
Qwen 3.6: 1,23×
OpenAI: 1,33×
DeepSeek V4: 1,49×
Kimi K2.6: 1,76×
Anthropic: 2,07× (ít thân thiện nhất với người dùng không phải tiếng Anh)
Dữ liệu cũng chỉ ra rằng, lượng token tiêu hao cho tiếng Trung thấp hơn so với mốc tiếng Anh ở Qwen (0,85×), DeepSeek (0,87×) và Kimi (0,81×), cho thấy các mô hình nội địa Trung Quốc đã được tối ưu hóa chuyên sâu cho tiếng Trung. Bản thân Komatsuzaki trong phần phản hồi cũng thừa nhận: “Tôi không ngờ Claude lại tệ đến vậy và thiếu cân bằng.”
Cộng đồng lo ngại: “chênh lệch chi phí” là vấn đề nghiêm trọng trong quá trình phổ cập AI
Kết quả thử nghiệm trên cộng đồng X đã tạo tiếng vang mạnh mẽ; nhiều nhà phát triển không phải tiếng Anh cho biết rằng, trong sử dụng thực tế, cùng một tài liệu tiếng Trung hoặc tiếng Hàn khi đưa cho Claude xử lý thì chi phí đúng là cao hơn đáng kể so với Gemini.
Thảo luận cũng mở rộng ra các nguyên nhân kỹ thuật: sự chênh lệch hiệu quả tokenizer chủ yếu đến từ dữ liệu huấn luyện thiên về nội dung tiếng Anh và chữ cái Latin, khiến mô hình hiểu kém hơn các hệ thống chữ khác. Do đó, mỗi ký tự hoặc từ ngữ cần tiêu tốn nhiều token hơn. Dù người dùng tiếng Hindi trên toàn cầu lên tới hàng trăm triệu người, nhưng do nguồn dữ liệu huấn luyện chất lượng cao tương đối hiếm, cộng thêm cấu trúc chữ viết phức tạp, khiến đây trở thành nhóm có chi phí sử dụng AI cao nhất.
Một số người dùng mạng lại cho rằng, khách hàng chính của Anthropic nghiêng về các doanh nghiệp nói tiếng Anh và bối cảnh phát triển mã nguồn, nên thiếu động lực để tối ưu cho đa ngôn ngữ. Ngược lại, OpenAI lại được xem là giỏi hơn trong việc xử lý nội dung ngôn ngữ; họ thẳng thắn: “AI lẽ ra phải là công nghệ bình đẳng cho mọi người, nhưng người dùng không phải tiếng Anh lại đang phải trả tiền cho sự phân biệt ngôn ngữ.”
Giờ đây, tranh cãi xoay quanh thiết kế tokenizer không còn chỉ là vấn đề kỹ thuật; nó còn phản ánh sự mất cân đối trong quá trình mở rộng toàn cầu của ngành AI.
Bài viết này Claude có “thu thuế ngôn ngữ” không? Nghiên cứu cho thấy khi dịch nội dung Trung-Nhật-Hàn tiêu tốn token nhiều nhất, gần 3 lần xuất hiện đầu tiên trên 鏈新聞 ABMedia.
Related News
BioMysteryBench: Mythos giải chuyên gia không có lời giải 29,6%
Oxford Internet Institute: Huấn luyện thân thiện làm tỷ lệ sai sót của AI tăng 7,43 điểm phần trăm
Giám đốc Phó phụ trách Học máy sâu của Nvidia tin rằng chi phí vận hành AI vượt quá chi phí tiền lương nhân sự
Nhà phân tích ngành bán dẫn lạc quan về xu hướng AI “ít nhất còn đi thêm 3 năm”: đóng gói tiên tiến mới là nút thắt của ngành
Nhà giao dịch quỹ phòng hộ huyền thoại chia sẻ về P/E của cổ phiếu Mỹ: Trong vài năm tới, những người mua toàn bộ thị trường sẽ rất khó để thu được lợi nhuận