重要ポイント
OpenAIは、Paradigmと共同で開発した新しいベンチマークシステム「EVMbench」を発表しました。これは、AIモデルがイーサリアムのスマートコントラクトの脆弱性を検出、修正、悪用する能力をテストするものです。
初期の結果では、「エクスプロイトギャップ」が明らかになっており、現時点では最先端のモデルは攻撃の実行において、脆弱性の包括的な監査や修正よりも優れていることが示されています。これは、AIの急速な進歩と新たなリスクの両方を浮き彫りにしています。
EVMbenchは、DeFiチームの継続的なAIによる監査を可能にし、資産がオンチェーン上で動く中で、機関投資家レベルの保証を提供することで、暗号セキュリティの基準を再定義する可能性があります。
人工知能とブロックチェーン技術の大きな融合の中で、OpenAIは正式にEVMbenchをリリースしました。暗号投資大手のParadigmと戦略的に提携して開発されたこのベンチマークシステムは、AIエージェントがイーサリアム仮想マシン(EVM)エコシステム内の脆弱性を識別、悪用、修復する能力を厳格にテストすることを目的としています。
現在、スマートコントラクトによって保護されている暗号資産は1000億ドルを超え、そのリスクはかつてないほど高まっています。EVMbenchは、「フロンティアモデル」を活用して、分散型金融(DeFi)を高度化したサイバー脅威から守るための積極的なシフトを表しています。
出典:openai
EVMbenchは静的コード解析を超え、三つの高リスク運用モードでAIエージェントを評価します。この「検出・修正・悪用」のサイクルは、一流のセキュリティ研究者の実務フローを模倣しています。
1. 検出モード(監査者): エージェントは複雑なコードリポジトリをスキャンし、隠れた欠陥を発見します。成功は「リコール」(真の問題を見つける能力)と、シミュレーションされたバグバウンティ報酬によって測定されます。
2. 修正モード(エンジニア): バグを発見したら、エージェントはコードを書き換えます。ベンチマークは自動テストスイートを用いて、修正が脆弱性を解消しつつ、コントラクトの元の機能を壊さないことを確認します。
3. 悪用モード(敵対者): 安全な隔離環境のアンスバンサンドボックス内で、エージェントは資金を流し出すエンドツーエンドの攻撃を試みます。これにより、攻撃者の攻撃的推論能力と、小さな欠陥を連鎖させて大規模な侵害に至る能力が測定されます。
出典:openai
EVMbenchは理論的なパズルに基づいているのではありません。これは、40のプロフェッショナル監査から収集された120の高重大度脆弱性を厳選したライブラリに基づいています。多くのデータは、Code4renaのような実世界の監査コンペや、ParadigmのTempoブロックチェーンの内部セキュリティプロセスから得られたものです。
「支払い重視」のコントラクトに焦点を当てることで、AIモデルは数十億ドルの流動資本を扱うコードに対して実戦投入されています。
OpenAIの内部テストでは、AIの能力が驚くほど加速していることが明らかになっています。わずか数ヶ月で、最先端モデルは基本的な論理処理に苦戦していた段階から、複雑な多段階のエクスプロイトを実行できるまで進化しています。
「エクスプロイトギャップ」: 興味深いことに、エージェントは現在、悪用(72.2%)において、_修正_や_検出_よりも著しく高いパフォーマンスを示しています。OpenAIの研究者は、エージェントは「資金を流し出す」という明確な目標を与えられると優れるが、詳細な監査という長期的かつ微妙なタスクには、より洗練された推論が必要だと指摘しています。
出典:Openai
暗号エコシステム全体にとって、EVMbenchは単なるスコアカード以上のものです。それは、**「セキュリティ・レフト」**の開発を促進する触媒です。これは、展開後の監査を待つのではなく、コーディング段階からエリートレベルの監査を組み込むアプローチです。
民主化されたセキュリティ: 200,000ドルの手動監査費用を負担できない小規模DeFiチームも、EVMbench認証済みのAIエージェントを使って継続的かつ高精度なコードレビューを行えます。
機関投資家の準備: ゴールドマン・サックスやフランクリン・テンプルトンのような伝統的金融機関がオンチェーンに進出する中、標準化されたベンチマークが「ゴールドスタンダード」のAIガバナンスを提供します。
デュアルユースの課題: ベンチマークをオープンソース化することで、「善意の者」には測定と追い越すためのツールを提供しつつ、「悪意の者」には新たなリスクを監視するための「信頼できるサイバーアクセス」フレームワークを維持しています。
EVMbenchは革新的な一歩ですが、現状では決定論的なサンドボックス環境に限定されています。将来的には、マルチチェーン依存性や**MEV(最大抽出可能価値)**の考慮を取り入れ、ライブのイーサリアムメインネットの「ダークフォレスト」をより正確にシミュレートすることが期待されています。
AIエージェントが「コードを書く」から「経済を守る」へと進化する中で、EVMbenchは次世代の信頼不要な金融のための決定的な基準となるでしょう。
免責事項: 本記事の見解や分析は情報提供を目的としたものであり、著者の意見を反映しています。技術的なパターンや指標は市場の変動性に左右されるため、期待通りの結果を保証するものではありません。投資家は慎重に行動し、独自の調査を行い、自身のリスク許容度に沿った意思決定をしてください。
著者について: ニレシュ・ヘンバデは、Coinsprobeの創設者兼リード著者であり、暗号通貨とブロックチェーン業界で5年以上の経験を持ちます。2023年にCoinsprobeを立ち上げて以来、市場分析、オンチェーンデータ、技術調査に基づく日次の洞察を提供しています。