皆は何年もGPU供給に夢中だったが、静かに、CPUがAIインフラの本当の制約になりつつある。
この変化は、多くが気づくよりも早く進行している。

先月、GoogleとIntelはこのCPUボトルネックに対処するための長期にわたる巨大な契約を発表した。
Intelのメッセージは明確だった：AIはGPUだけで動くわけではない—CPUとシステムのオーケストレーションが今や制限要因だ。
その一方で、サーバー用CPUの価格は昨年第4四半期に約30%上昇し、成熟市場では異常な事態だ。
AMDの出荷時間は8週間から10週間超に伸び、一部の部品は6ヶ月の遅延に直面している。
これは誇張ではなく、実際の供給圧力だ。

皮肉なことに、AIラボにはGPUが余っているが、高性能なCPUが足りず、それを実際に動かせない状況だ。
TSMCの3nm生産能力はGPUの注文に押されて圧迫されており、CPUのウェハ割り当ても再配分され続けている。
さらには、イーロン・マスクもCPUの世界に参入し、テキサスのTerafabプロジェクト用にIntelにカスタムチップ設計を依頼した。
これほど逼迫しているということだ。

なぜ突然この変化が起きたのか？
それはエージェントのワークロードが従来の推論と全く異なるからだ。
チャットボットは主にGPUに計算をオフロードしているが、エージェントは違う。
APIのオーケストレーション、データベースの管理、コードの実行、結果の調整—これらはすべてCPU集約型のタスクだ。
ジョージア工科大学の研究者は、エージェントシステムにおいてCPU側の作業が全遅延の50〜90%を占めることを発見した。
GPUは待機状態にあるのに対し、CPUはツール呼び出しを処理し続けている。

コンテキストウィンドウの爆発的拡大も問題だ。
モデルは100万以上のトークンをサポートし、KVキャッシュだけで約200GBに達している—これはH100一台の容量をはるかに超える。
CPUはこのメモリをオフロードし管理しなければならず、もはや単なるオーケストレーションだけではなく、データ管理も本格的に行っている。

メーカーの対応を見てみよう。
AMDのCEOリサ・スーはこれについてかなり率直だ：
エージェントのワークロードが従来のCPUにタスクを戻しており、それが彼らの成長を促している。
AMDのデータセンター収益は第4四半期に54億ドルに達し、前年比39%増、EPYC CPUがその牽引役だ。
AMDのサーバーCPU市場シェアは初めて40%を超えた。
しかし、AMDはNVIDIAのNVLinkによる緊密なCPU-GPUインターコネクト能力にはまだ及ばない。

一方、NVIDIAは異なるアプローチを取った。
彼らのGrace CPUはコア数が72で、AMDの128やIntelの一般的な構成に比べ少ない。
コア数を追い求めるのではなく、協調を最適化した。
NVLink C2Cは帯域幅を1.8TB/sに押し上げ、CPUがGPUメモリに直接アクセスできるようにしている。
彼らはGraceをスタンドアロン製品として販売し始め、MetaはGPUとペアリングせずに「純粋なGrace展開」を行った。
これは大きなシグナルだ。

Intelは両面で動いている—
Xeonプロセッサをハイパースケーラーのパートナーシップに深く浸透させつつ、
SambaNovaと協力してGPUを使わないエージェント推論のハイブリッドソリューションも進めている。
18AプロセスやXeon 6 Granite Rapidsのロードマップは彼らにとって重要だ。

全体像を見てみよう。
Amazonの$38B OpenAIとの提携は、「何千万ものCPUを展開する」と明示している。
これは「何十万ものGPU」からの大きなシフトだ。
バンク・オブ・アメリカは、CPU市場が$27B から$60B まで2030年までに倍増する可能性を予測しており、ほぼAIによるものだ。

我々が実際に目にしているのは、インフラの完全な再構築だ。
企業はもはやGPUだけを拡張しているのではなく、AIエージェント向けに特化したCPUオーケストレーションの層を同時に構築している。
計算資源が豊富になると、システムレベルの効率性が差別化要因となる。
次のAIの勝者は、純粋なGPUの数ではなく、CPUのボトルネックをいち早く解決した者になるだろう。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。