英語より中国語の言語トークン化コストはClaudeが65%高い。OpenAIはわずか15%増にとどまる

ゲートニュース、4月29日 — AI研究者の嵐 小松崎(Aran Komatsuzaki)が、リッチ・サットンの先駆的論文『The Bitter Lesson』を9つの言語に翻訳し、それらをOpenAI、Gemini、Qwen、DeepSeek、Kimi、そしてClaudeのトークナイザーで処理して、6つの主要なAIモデル間でトークン化効率を比較分析を行いました。OpenAIにおける英語版のトークン数をベースラインとして (1x) としたところ、この研究では大きな差異が明らかになりました。中国語で同じコンテンツを処理すると、OpenAIの1.15xに対してClaudeでは1.65xのトークンが必要でした。ヒンディー語はClaudeでさらに極端な結果となり、ベースラインを3倍以上上回りました。Anthropicは、試験した6モデルの中で最も低い順位でした。

重要なのは、同一の中国語テキストを異なるモデル間で処理したとき(すべて同じ英語ベースラインに対して測定)結果が劇的に分岐したことです。Kimiは英語より (さらに少ない) 0.81xのトークン消費にとどまり、Qwenは0.85xでしたが、Claudeは1.65xが必要でした。このギャップは、言語そのものではなく純粋なトークン化効率の問題を示しています。中国語モデルは中国語の処理でより高い効率を示しており、その差は言語自体ではなくトークナイザーの最適化に起因する可能性を示唆しています。

ユーザーにとっての実務的な影響は大きく、トークン消費の増加はAPIコストを直接押し上げ、モデルの応答遅延を延ばし、コンテキストウィンドウをより急速に消耗させます。トークン化効率は、モデルの学習データの言語構成に依存します。英語が主に学習されたモデルは英語テキストをより効率よく圧縮しますが、データ表現が少ない言語は、より小さく効率の悪い断片としてトークン化されます。

小松崎(Komatsuzaki)の結論は、根本的な原則を裏付けています。市場規模がトークン化効率を決定するのです。より大きな市場はより良い最適化を受けられ、十分に表現されていない言語はトークンコストが大幅に高くなります。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

関連記事

コインベースのエンジニア:AIエージェントはウェブ広告のモデルを混乱させ得る

Coinbaseのエンジニアであるエリック・レッペルは、人工知能エージェントがインターネットの広告依存のビジネスモデルを根本的に損なう可能性があると述べました。レッペルによれば、ウェブ経済は人間のユーザーから生み出される広告収益に大きく依存していますが、AIエージェントはその仕組みを迂回します

CryptoFrontier10分前

xAI、Anthropicと提携してColossusコンピューティングへのアクセスを提供

xAIとAnthropicの公式発表によれば、この2社は新しい計算(コンピューティング)の提携を確立した。SpaceXのxAIは、AnthropicがColossusの計算リソースにアクセスできるようにする契約に署名した。Anthropicは、この追加の計算能力を活用する予定で、

GateNews30分前

OpenAI が MRC スーパコンピュータ ネットワーク プロトコルを公開!NVIDIA、AMD、Microsoft と協力して Stargate の基盤インフラを構築

OpenAI は、AI スーパーコンピュータ・ネットワーク・プロトコル MRC を公開し、AMD、Microsoft、NVIDIA などと連携して OCP でオープンソース化しました。MRC はデータを分割しつつ複数の経路を同時に通し、マイクロ秒レベルで回避を行うことで輻輳を減らし、GPU の同期を維持して、大規模な学習用クラスタの転送ボトルネックを解決します。Stargate のテキサス州 Abilene などの拠点では、すでに 800Gb/s のインターフェースが導入され、実際の訓練にも投入されています。

ChainNewsAbmedia56分前

AI採用プラットフォームのEthosが5月6日にa16z主導でシリーズAの資金調達2,275万ドルを完了

BlockBeatsによると、ロンドン拠点のAI採用プラットフォームEthosは5月6日に、Andreessen Horowitz(a16z)が主導しGeneral Catalystが参加した形で、シリーズAラウンド2,275万ドルの資金調達を完了した。同プラットフォームはAIを使って候補者を面接し、分析する。

GateNews1時間前

OpenAI、AMD、Intel、NVIDIAとともにMRCネットワークプロトコルを発表。10万基以上のGPUに対応

5月6日のOpenAIの発表によると、同社はAMD、Broadcom、Intel、Microsoft、そしてNVIDIAと提携して、大規模なAIトレーニング・クラスターのGPU相互接続のためのオープンなネットワーク・プロトコルであるMultipath Reliable Connection(MRC)を立ち上げました。このプロトコルは、単一のデータ伝送を分割します。

GateNews2時間前

Hut 8の株が34%急騰、98億ドルのAIデータセンターリース案件で躍進

The Blockによると、Hut 8 Corp.の株は、同社がテキサス州ヌエセス郡でNVIDIAの計算アーキテクチャ向けに設計された人工知能データセンター・キャンパスのために98億ドル規模のリース契約を締結したことを受け、本日時間外取引で34%上昇し、107.87ドルとなった。取引はHuの最初のフェーズを表している

GateNews3時間前
コメント
0/400
コメントなし