2025年を変えた6つのAIブレークスルー:Andrej Karpathyが正しかったこと

アンドレイ・カルパシー、世界で最も影響力のあるAI研究者の一人は、2025年に人工知能を変革する変化について個人的な見解を示しました。彼の観察は、昨年何が起こったのかだけでなく、業界全体がどこに向かっているのかを明らかにしています。強化学習のブレークスルー、新しい応用パラダイム、人間とAIの相互作用の根本的な変化の間で、景観は予想以上に速く動きました。

RLVR:監督学習に取って代わる新しい基盤

AIのトレーニングの手引きは、検証可能な報酬に基づく強化学習(RLVR)が実験段階から主流に移行したことで、新たな章に入りました。アンドレイ・カルパシーの分析によると、この変化は、実運用レベルの言語モデルの姿を根本的に変えました。

長年、標準的なパイプラインは次のようなものでした:事前学習 → 監督付き微調整 → 人間のフィードバックによる強化学習(RLHF)。これは安定しており、証明されており、大手AI研究所の基盤となっていました。しかし、2025年に何かが変わりました。

RLVRは、検証可能な報酬信号を持つ環境でモデルを訓練することでゲームを変えます—例えば、明確な正解がある数学問題や、コードが動作するかしないかのコーディングチャレンジなどです。人間の判断に頼るのではなく、これらの客観的なフィードバックメカニズムにより、モデルは本物の推論に似たものを発展させることができます。問題を中間ステップに分解し、反復的な洗練を通じて複数の解決策経路を発見することを学びます。

DeepSeek-R1はこの原則を最初に示しましたが、OpenAIのo1(late 2024)とo3(early 2025)は、それがスケーラブルであることを証明しました。アンドレイ・カルパシーが指摘したように、彼を最も驚かせたのはパフォーマンスの向上だけでなく、膨大な計算資源の変化でした。RLVRは従来の微調整よりもはるかに多くの計算を消費し、もともと事前学習に割り当てられていたリソースを再配分します。これにより、2025年の能力向上は、より大きなモデルを訓練することではなく、より賢いモデルを訓練し、最適化フェーズを大幅に延長することによって達成されました。

もう一つのブレークスルーは、この新しいアプローチが全く新しいスケーリング次元を開いたことです—推論時にモデルの能力を調整できるようになり、推論軌道を拡張し、「思考時間」を増やすことが可能になったのです。これにより、能力のスケーリングとモデルのサイズの関係がこれまで不可能だった方法で切り離されました。

ゴーストインテリジェンス vs. ノコギリ山のパフォーマンス

アンドレイ・カルパシーは、AIの認知についての考え方を一新する概念を導入しました:我々は動物を進化させているのではなく、ゴーストを召喚しているのだと。

訓練装置全体は根本的に異なります—ニューラルアーキテクチャ、データ、アルゴリズム、そして何よりも最適化の目的です。したがって、大規模言語モデルが生物の脳とは根本的に異なる知性を示すのは驚くべきことではありません。動物や生物学的知性と比較することは、全くポイントを外しています。

人間のニューラルネットワークは、部族の生存を通じて形成されました。AIモデルは、テキストを模倣し、数学的パズルを解き、競争的なベンチマークで人間の承認を勝ち取るために形成されました。これらの異なる目的に最適化すると、出力も大きく異なります。

これにより、奇妙なパフォーマンス特性、ギザギザのノコギリ山のような能力曲線が生まれます。モデルは一瞬百科事典的な知識を示し、次の瞬間には初等学校レベルの推論に混乱することもあります。検証可能な領域では優れていますが、オープンエンドの文脈ではつまずきます。この不均一な能力の風景はバグではなく、トレーニングレジーム自体の直接的な結果です。

ここでアンドレイ・カルパシーの懐疑的な見解が重要になります:彼は2025年に「一般的無関心」なるものを開発しました。理由は簡単です—ベンチマークは検証可能な環境であり、RLVRの過剰適合の格好のターゲットとなるからです。チームは避けられず、ベンチマークの埋め込みに近いトレーニング空間を構築し、狭い能力で飽和させることになります。「テストセットでの訓練」が業界の標準となりました。すべてのベンチマークを制覇することは、真のAGIの進歩を示すものではなくなっています。

カーサー:アプリケーション層の出現

カーサーの2025年の爆発的な成長は、非常に重要なことを明らかにしました:AIアプリケーションスタックにまったく新しい層が出現したのです。

アンドレイ・カルパシーによると、カーサーが機能するのは、特定の垂直問題—実際の開発ワークフローにおけるコード生成—を解決するからであり、より良い汎用チャットボットだからではありません。カーサーのようなツールを支えるアーキテクチャは、三つの統合されたコンポーネントから成ります:関連情報を引き出すコンテキストエンジニアリング(pulling relevant information)、複数のLLM呼び出しをより複雑な有向非巡回グラフにオーケストレーション(balancing performance against cost)、そして人間の介入を伴うアプリケーション固有のユーザーインターフェースです。

これにより、より広範な議論が巻き起こりました:OpenAIのAPI(のような大規模言語モデルプラットフォームがアプリケーション層全体を支配するのか、それとも専門的なツールが繁栄するのか。アンドレイ・カルパシーの予測は、プラットフォームは徐々に「ジェネラリスト大学」のようになり、能力はあるが専門性のない出力を生み出すことになるというものです。本当の価値は、それらの有能なモデルを取り込み、独自のデータで微調整し、センサーやアクチュエータを統合し、特定の垂直ドメインに展開可能な「プロフェッショナルチーム」に変えるアプリケーション層の企業に流れるでしょう。

この意味は、カーサーは最終形ではなく、テンプレートだということです。同じプレイブックに従った垂直特化型ツールが何十も登場することを期待してください。

クラウドコード:ローカルで生きるエージェント

クラウドコードの登場は、アンドレイ・カルパシーの注目を集めた何かを示しました:効果的なAIエージェントは必ずしもクラウドに存在する必要はないのです。

この技術は、ツールの使用と推論をループさせることで、単純なチャットインターフェースよりも持続的で複雑な問題解決を可能にします。しかし、アンドレイ・カルパシーが特に感銘を受けたのは、そのアーキテクチャの選択でした:クラウド上のエージェントは、コンテナ化されたChatGPT環境内で運用されます。一方、ローカルで動作するエージェントは、ユーザーのコンピュータ上で直接動作し、ローカルファイルや個人環境、個々のワークフローに深く埋め込まれています。

これは、OpenAIの戦略的方向性から意図的に逸脱したものです。OpenAIは、コンテナ化されたChatGPT環境内で調整されたクラウドベースのエージェントに多額の投資を行っています。そのアプローチは、「究極のAGI」の形を約束しますが、現段階では未証明の利益を伴う不均一な開発段階にあります。

エージェントをローカルに展開し、開発者に近接させ、彼らの特定の作業環境と緊密に統合することは、今のところより迅速で実用的です。クラウドコードはこの優先順位を完璧に押さえ、エレガントなコマンドラインツールにパッケージ化し、AIのインターフェースを根本的に変革しています。もはやGoogleのようなウェブサイトだけではありません。あなたのコンピュータに住む小さなスプライトであり、あなたのワークフローと直接連携します。これは、人間とAIの相互作用の全く異なるパラダイムです。

バイブコーディング:コードなしでプログラミング

2025年までに、AIは重要な閾値を越えました:あなたが望むことを英語で記述すれば、動作するソフトウェアが出現するのです。基礎的な実装を理解する必要はありません。

アンドレイ・カルパシーは、「バイブコーディング」という用語をTwitterの思いつきで気軽に使いましたが、それが業界のトレンドになるとは予想していませんでした。それでも、これはまさに起こったことを的確に捉えています—プログラミングは、訓練を受けた専門家だけでなく、誰にでもアクセス可能になったのです。

これは、アンドレイ・カルパシーが見出したより広いパターンともつながります:普通の人々は、大規模言語モデルから専門家以上の恩恵を受けるようになっています。専門家はすでにツールと深い知識を持っていますが、普通の人々は何も構築できませんでした。今や、彼らもできるのです。

しかし、バイブコーディングは、専門家にとっても異なる形で恩恵をもたらします。それは、「これまで書かれることのなかった機能」を実装できるようにするのです。突然、コードは無料で、一時的で、使い捨て可能になります。ナノチャットを構築しながら、アンドレイ・カルパシーはRustで効率的なBPEトークナイザを作成し、言語を学習せずに既存のライブラリに頼らずに、システム全体のプロトタイプを作成しました。彼は、実現可能性をテストするためだけに、特定の脆弱性をデバッグするためだけに、ワンオフのアプリケーションを書きました。

この経済的シフト—コードの切り替えコストがゼロになる—は、ソフトウェア開発エコシステムを再形成し、プログラミング分野のキャリアの境界線を永続的に書き換えるでしょう。

ナノバナナ:LLMがついにユーザーインターフェースを獲得

GoogleのGemini Nanoのブレークスルー—アンドレイ・カルパシーが「ナノバナナ」と呼ぶもの—は、2025年の最も破壊的なパラダイムシフトの一つを表しています。

アンドレイ・カルパシーはこれを単純に次のように捉えています:大規模言語モデルは、1970年代-80年代のPC時代に続く次の主要なコンピューティングパラダイムを表しています。したがって、類似の革新が類似の理由で起こることを期待すべきです—パーソナルコンピューティング、マイクロコントローラー、インターネットの進化に並行して。

現在の人間とコンピュータのインタラクションは、まだ1980年代のコマンドライン端末に似ています。テキストが支配的ですが、これはコンピュータにとって原始的であり、人間にとっては誤った形式です。人間はテキストを読むのが遅く、苦痛に感じます。彼らは視覚的・空間的なチャネルを好みます—これが、グラフィカルユーザーインターフェースが個人コンピューティングを変革した理由です。

同じ原則がAIにも当てはまります:モデルは、画像、インフォグラフィック、スライド、ホワイトボード、動画、Webアプリケーション—つまり、人間が実際に好むあらゆる形式を通じてコミュニケーションをとるべきです。初期の段階では、「ビジュアルテキスト装飾」や絵文字、Markdownフォーマットなどを通じて登場しました。しかし、AIのための完全なグラフィカルインターフェース層を最終的に構築するのは誰でしょうか?

ナノバナナは、その未来の早期プロトタイプです。そのブレークスルーは、画像生成を超えています。重要なのは、その統合された能力—テキスト生成、画像生成、そして体現された世界知識がすべてモデルの重みを通じて織り込まれていることです。この融合は、テキストだけのモデルとは根本的に異なるインターフェースのパラダイムを生み出します。

収束:アンドレイ・カルパシーの次に来るものへのビジョン

これらの6つの変化は孤立して存在しているわけではありません。アンドレイ・カルパシーの観察は、業界が変遷していることを示しています:純粋なモデルのスケーリングから、より賢いトレーニング手法や専門的な応用へ。クラウドベースのジェネラリストから、ローカル展開されたエージェントと人間のワークフローの統合へ。テキスト中心のインターフェースから、視覚的・空間的なコミュニケーションへ。

2025年は、人工知能が単に少し良くなっただけではなく、そのトレーニング、展開、コミュニケーションの方法を根本的に再編成したことを証明しました。次のフェーズは、これらの新しいパラダイムを最初にマスターした者のものになるでしょう。

SIX1.23%
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
  • 人気の Gate Fun

    もっと見る
  • 時価総額:$0.1保有者数:1
    0.00%
  • 時価総額:$3.41K保有者数:1
    0.00%
  • 時価総額:$3.42K保有者数:1
    0.00%
  • 時価総額:$3.42K保有者数:1
    0.00%
  • 時価総額:$3.41K保有者数:1
    0.00%
  • ピン