ゲートニュース(4月29日)— OpenAIの研究者セバスチャン・ビュベックとアーネスト・リューは、AIシステムは2年以内にほとんどの人間の研究業務を遂行できる可能性があると述べており、数学をAIの進歩を測る明確な指標として提示しています。曖昧なパフォーマンステストとは異なり、数学の問題は正確な検証を可能にします:答えは正しいか誤りかのどちらかで、曖昧さの余地はありません。
ビュベックは、真のAIの思考には、長い推論の連鎖を生き残ることが必要だと指摘しました。多段階の議論における単一の誤りが証明全体を崩壊させるため、高度なモデルにとって、プロセスの途中で誤りを検出し訂正することが最終目標になります。OpenAIの社内ラボでは、トップクラスの組合せ論ジャーナルに掲載可能な、完全に新しい定理をすでに10本以上創出しており、AIが既存論文を単に組み合わせ直すだけでなく、独自で画期的な研究を本当に生み出していることを示しています。
しかし、持続的な科学的ブレークスルーには、テストを行う数週間にわたって着実に集中することが求められます。現在のシステムは依然として、人間が厳密に監督して、進む方向の各切り替えを導き検証する必要があります。ビュベックは「AGI time」で、モデルが人間の思考を独力でどれくらいの期間模倣できるかを測ります。現在のシステムはおおむね数日から1週間程度で動作しており、業界の目標は、生物学のような分野で自律的に作業できるようにするために、数週間または数か月です。
長期記憶は、この未来において決定的に重要です。標準的なチャットウィンドウは深さを制限します――複雑な数学的証明はしばしば50ページを超えます――一方で、コードリポジトリは、作業セッションを長くすることで問題解決をより深くできることを示しています。AIが自律性と記憶を獲得するにつれ、人間の専門性はむしろ減るのではなく、より価値を持つようになります。働く人々は、機械の回答に挑み、検証できるように、深い基礎知識を保持しなければなりません。そして、AI支援による研究が洪水のように押し寄せる中で信頼を維持するためには、組織は新しい自動フィルタと評判(レピュテーション)システムを必要とするでしょう。
Related News