DeAIは中央集権型AIとどのように競争するのか：利点、応用、資金

PANews

2025-11-29 06:35:32

著者: 0xJeff, Crypto KOL

コンパイル:Felix、PANews

現在、誰もが何かを販売しています。食べ物、住居、百科事典、電子製品、アプリケーション、そして最近のAIなどです。

過去はマズローのニーズ階層の低いレベルを満たす実用的な物品を売っていましたが、今は夢と希望を売り、それを華やかな外見で包んでいます。特に暗号化AIの分野で。

暗号化 AI プロダクトとインフラはしばしば理解しにくいため、チームはコミュニケーションで専門用語を多く使いすぎて、ユーザーを引きつけることができません。

さらに、本当のAIラボ（単なるパッケージではなく）を立ち上げるには、人材、貢献者、計算リソース、その他の必要なリソースを資金提供するために大量の資金が必要です。

先進的企業向け AI ラボの年間コストは数百万ドルに達します。最先端の AI モデルの研究、トレーニング、最適化を行っている場合、コストは数億ドルに達する可能性があります。H100 モデルの GPU の価格は 2.5 万ドルから 4 万ドルの間で、より新しい Blackwell B200 および GB200 モデルの GPU の価格は 3 万ドルから 7 万ドルの間です。最先端のモデルをトレーニングするには、数千個のこのような GPU が必要になることがあります。

分散型AI(DeAI)の###つの利点:小さなモデル+強化学習

分散型システムを選択することは、世界中で計算リソースを調整して単一のモデルを訓練することを意味し、理論的にはGPUのコストを大幅に削減できる（30%から90%の節約）可能性があります。なぜなら、世界中の未使用のGPUネットワークを利用できるからです。しかし実際には、これらのGPUを調整し、すべてが高品質に機能することを保証するのは非常に困難です。そのため、現在、分散型AIラボは分散型訓練の課題を克服できていません。

しかし、未来には希望があります。なぜなら、少数の実験室が分散型強化学習において励みになる成果を上げているからです。この自己対戦、自己学習のプロセスが、小型モデルを非常に賢くすることができるのです。

すべての状況で大規模言語モデル（LLM）が必要なわけではありません。特定の分野のモデルを訓練し、強化学習（RL）を使用してそれらのスキルを洗練し向上させることは、企業向けAIソリューションを提供する最も経済的で効果的な方法です。なぜなら、結局のところ、顧客が求めているのは結果（コンプライアンス、安全性、コスト効率が高く、生産性を向上させる）だからです。

2019年、OpenAI Fiveは『Dota 2』で当時の世界チャンピオンOGチームを打ち負かしました。これは偶然ではなく、徹底的な圧倒で、OGチームに2連勝しました。

あなたはそれがどのように行われるのか気になるかもしれません。

《Dota 2》は非常に複雑なマルチプレイヤーオンラインバトルアリーナゲームであり、5人のプレイヤーが互いに対抗し、さまざまな目標を達成し、相手の基地を破壊します。

AIがトッププレーヤーと対抗できるように、以下のステップに従いました：

ゼロからの自己対戦：基礎知識を学び、数百万回の自己対戦を行います。勝てば、良い操作をしていることを示し、負ければ、良くない操作をしていることを示します（つまり、大規模な試行錯誤）。
報酬システム（ポイント）を設定し、勝利の期待値（EV）が正の行動（防御タワーの破壊やヒーローのキルなど）を奨励し、期待値が負の行動には減点を行います。
訓練方法は「PPO」と呼ばれる強化学習アルゴリズムを採用しており、AIは試合中に特定の操作を試み、PPOはその結果をフィードバックとして扱います。結果が良ければ多く行い、結果が悪ければ少なく行います。この方法はAIを徐々に正しい方向へ導きます。
数百の GPU がほぼ1年間 AI を訓練し、AI はゲームのバージョン更新や変動に継続的に学習し適応しています。
一定の時間が経つと、それは複雑な戦略（兵士のラインを犠牲にする、適切なタイミングで保守的または攻撃的なプレイスタイルを採用する、大規模攻撃のタイミングを見極めるなど）を自ら探求し始め、人間のプレイヤーと対戦して勝利するようになります。

OpenAI Fiveはすでに引退しましたが、それは特定の分野のタスクにおいて小型モデルが非常に効果的であることを示唆しています（OpenAI Fiveのパラメータ量はわずか58MBです）。

OpenAIのような大規模なAI実験室がこれを実現できるのは、強化学習モデルを訓練するための資金とリソースを持っているからです。企業が詐欺検出、工場ロボット、自動運転車、または金融市場取引のために自社のOpenAI Fiveを持ちたい場合、実現するためにはかなりの資金が必要です。

去中心化の強化学習はこの問題を解決しました。だからこそ、Nous Research、Pluralis、gensyn、Prime Intellect、Gradientのような去中心化AIラボが、企業向け特定分野AIのインフラを提供するために、世界的なGPUネットワークを構築し、強化学習モデルを共同で訓練しています。

いくつかの研究所は、強化学習モデルのトレーニングに H100 の代わりに RTX 5090/4090 を使用するなど、コストをさらに削減する方法を研究しています。また、大規模基盤モデルの知能レベルを向上させるために強化学習を使用することに焦点を当てている研究所もあります。

研究の重点がどこにあっても、去中心化したAIは最も有望な発展方向の一つとなるでしょう。もし去中心化された強化学習のソリューションが商業的に大規模に適用されれば、企業の顧客はAIに大量の資金を投入し、より多くの去中心化AIチームが8桁から9桁の年収を実現するのを見ることになるでしょう。

DeAIに資金を提供し、スケールの拡大を実現するために調整レイヤーを通じて

しかし、毎年8桁から9桁の収入を達成する前に、彼らは持続的に研究、実施、そして商業的に実現可能な強化学習ソリューションへの移行を行う必要があり、これには大量の資金が必要です。

Bittensorのような調整層を通じて資金を調達することは、最良の方法の一つです。毎日数百万ドルのTAOインセンティブがサブネット（スタートアップやAIラボ）に配布され、同時に貢献者（AI人材）が彼らが興味を持つサブネットに貢献し、インセンティブの一部を得ています。

Bittensor は、貢献者が AI の開発に参加できるようにし、投資家が DeAI 技術に貢献する AI ラボに投資できるようにします。

現在、Bittensor エコシステムには、量子コンピューティング、分散トレーニング、AI エージェント、予測システムを含むいくつかの重要な DeAI セグメントが際立っています（強化学習はまだその中には含まれていませんが、3 つ以上のサブネットが分散強化学習に積極的に注目しています）。

現在の分散型強化学習の進展はどうですか？

強化学習は大規模に適用できることが証明されていますが、未だ産業化には至っていません。良いニュースは、実際のフィードバックから学ぶことができる AI エージェントに対する企業の需要が急速に増加していることです。例えば、現実の環境や販売、顧客サービスの電話から学習できるエージェントや、市場の変化に適応する取引モデルなどです。これらの自己学習システムは、企業に数百万ドルの価値を生み出したり、節約したりすることができます。

プライバシー技術も台頭しています。信頼できる実行環境（TEE）、TEE 内の暗号化埋め込み、差分プライバシーなどの技術は、フィードバックループでの応用がプライベート情報の暗号化と保護に寄与し、医療、金融、法律などの敏感な業界が強力な特定分野の自己学習 AI エージェントを持ちながらコンプライアンスを維持するのに役立ちます。