半導体投資の専門家:Google TPU が一時的に優勢だが、NVIDIA GPU が長期的な優位性を持つ

美晶片投資專家 Gavin Baker は最新のインタビューで、NVIDIA GPU (Hopper、Blackwell) と Google TPU の違いを技術、性能、コスト、協調動作の観点から深く分析しました。彼は、短期的には Google TPU が一時的に優位に立っているものの、長期的には NVIDIA の GPU エコシステムがより強い独占力を持つと指摘しています。

GPU はフルスタックプラットフォームであり、TPU は単一点 ASIC

Baker は、AIアクセラレーターの違いは最も底層の設計理念から既に現れていると述べました。NVIDIA の GPU は、Hopper、Blackwell から将来の Rubin まで、フルスタックプラットフォームを強調し、GPU 本体、GPU 双方向接続技術 NVLink、ネットワークカード、スイッチから CUDA、TensorRT などのソフトウェア層まで、すべてを NVIDIA が一手に管理しています。企業が GPU を購入すると、訓練と推論に直接投入できる完全な環境を得られるため、ネットワークの自作やソフトウェアの書き直しは不要です。

これに対し、Google TPU (v4、v5e、v6、v7) は、本質的に特殊用途の集積回路 ASIC であり、特定の AI 演算のために作られたアクセラレーターです。Google はフロントエンドの論理設計を担当しますが、バックエンドは Broadcom (Broadcom) が製造し、その後 TSMC (TSMC) により生産されます。TPU の他に不可欠な部品、例えばスイッチやネットワークカード、ソフトウェアエコシステムは Google 自身が統合する必要があり、サプライチェーンの協力は GPU よりも複雑です。

全体として、GPU の優位性は単一チップの性能ではなく、プラットフォームとエコシステムの完全性にあります。これが両者の競争格差がますます明確になる起点です。

Blackwell の性能大幅向上、TPU v6/v7 はより大きな圧力に直面

Baker は、2024~2025年にかけて、GPU と TPU の性能差はますます明らかになると指摘しています。Blackwell の GB200 から GB300 へのアップグレードは、大きなアーキテクチャの飛躍であり、液冷設計に切り替えられ、単一ラックの消費電力は 130kW に達し、全体の複雑さは前例のないものです。大量展開は今から三、四ヶ月以内であり、非常に新しい段階にあります。

次世代の GB300 は、直接 GB200 のラックに挿入可能であり、企業の拡張速度はより速くなると見られます。特に xAI は、データセンターの構築速度が最も速いため、Blackwell の性能を最大限に発揮できる最初の顧客と見なされています。Baker は比喩を用いて次のように例えました。

「Hopper を第二次世界大戦末期の最先端飛行機に例えると、TPU v6/v7 は F-4 Phantom のようなもので、さらに後の二世代の飛行機です。一方、Blackwell は F-35 であり、全く異なる性能レベルです。」

これにより、TPU v6/v7 と Blackwell のハードウェアレベルの違いが明示されており、現在の Google Gemini 3 は TPU v6/v7 を使用していること、Blackwell 等級の装置ではないことも示しています。Google は TPU v6/v7 の状態で Gemini 3 のような高水準モデルの訓練が可能ですが、Blackwell シリーズの大規模展開に伴い、二つのアーキテクチャ間の性能差はますます顕著になるでしょう。

TPU はかつて最低コストの王だったが、GB300 が局面を書き換える

Baker は、過去の TPU の最大の強みは、世界最低の訓練コストを持っていたことだと述べています。そして、Google はこの強みを活かし、競合他社の資金調達と運用の余地を圧縮してきました。

しかし、Baker は、もし GB300 が大規模展開されれば、市場で最もコスト効率の良い訓練プラットフォームは、GB300 を採用する企業、特に垂直統合能力を持ち自社データセンターを構築するチーム、XAI などになると指摘しています。OpenAI も将来的に計算能力のボトルネックを突破できれば、自社ハードウェアの構築能力を持ち、GB300 の陣営に加わる可能性もあります。

これは、Google がコスト優位性を失った場合、従来の低価格戦略は維持できなくなることを意味します。訓練コストの主導権は長期的に TPU から GB300 に再び移ることになるでしょう。

GPU の拡張協調はより高速、TPU の統合負担は重く

大規模モデルの進展が早まるほど、大規模 GPU 協調動作の需要は高まり、これが近年 GPU が TPU より優位に立つ重要な要因の一つです。Baker は、GPU クラスターは NVLink を通じて協調規模を 20 万から 30 万 GPU へと拡大でき、より大きな訓練予算を持つ大規模モデルの訓練を可能にすると述べています。XAI が迅速に構築した大規模データセンターは、NVIDIA に早期の最適化ソリューションをリリースさせ、GPU エコシステムの進化を加速させています。

一方、TPU は Google がスイッチやネットワークを自社で統合し、Broadcom や TSMC のサプライチェーンを調整する必要があるため、全体のエンジニアリングの複雑さは GPU よりも高いです。

GPU は一年ごとにモデルを更新、TPU のイテレーションはサプライチェーンの制約

Baker は、ASIC の競争圧力に対応して、NVIDIA と AMD は更新頻度を高めており、GPU は「一年一世代」へと進んでいます。これにより、大規模モデル時代では非常に有利なリズムとなっており、モデル規模の拡大はほぼ中断されません。

一方、TPU のイテレーション速度は制約を受けています。v1 から v4、さらに v6 まで、各世代の成熟には数年を要しました。将来の v8、v9 も、Google、Broadcom、TSMC などのサプライヤーの関与により、開発とイテレーションの速度は GPU ほど速くはありません。したがって、今後3年間は、GPU のイテレーション速度における優位性がますます明らかになるでしょう。

(NVIDIA GPU と Google TPU の技術差と今後の市場動向)

三大巨頭は NVIDIA に明らかに近づきつつあり、Google は TPU に孤立

現在、世界の4大先端モデル企業は OpenAI、Gemini (Google)、Anthropic、xAI ですが、全体の傾向として NVIDIA にかなり傾いています。

Baker は、Anthropic は 50 億ドルの NVIDIA 長期調達契約を締結し、GPU 陣営と正式に結びついたと述べています。xAI は Blackwell の最大の早期顧客であり、多くの GPU データセンター投資を行っています。OpenAI は外部から計算資源を借りるためにコストが上昇しており、長期的な計算能力のボトルネック解消を目的として Stargate 計画に期待しています。

この4社の中で、Google は唯一 TPU を大量に使用する陣営ですが、TPU のコスト競争力の低下やイテレーション速度の遅さの課題に直面しています。全体として、「三一対一」の計算力格局が形成されており、OpenAI、Anthropic、XAI は GPU 陣営に集まっています。一方、Google は TPU 陣営で孤立しています。

(NVIDIA 財務報告は好調:AIデータセンター事業が爆発的に拡大、黄仁勳氏:「Blackwell は売り切れ状態」)

この記事は「美晶片投資專家:Google TPU 暫居上風,但 NVIDIA GPU 更具長期優勢」が最初に掲載されたのは鏈新聞 ABMedia。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
  • ピン