重要なポイント
OpenAIは、Paradigmと共同で開発した新しいベンチマークシステム「EVMbench」を発表しました。これは、先進的なAIモデルがEthereumスマートコントラクトの脆弱性を検出、修正、悪用する方法をテストするものです。
初期の結果は「エクスプロイトギャップ」を明らかにしており、現時点ではトップモデルは脆弱性の包括的な監査や修正よりも攻撃の実行に優れていることを示しています。これは、AIの急速な進歩と新たなリスクの両方を浮き彫りにしています。
EVMbenchは暗号セキュリティの基準を再定義し、DeFiチームの継続的なAI監査を可能にし、資産がオンチェーンに移動する中で機関レベルの保証を提供する可能性があります。
人工知能とブロックチェーン技術の大きな融合の中で、OpenAIは正式にEVMbenchを発表しました。暗号投資大手のParadigmと戦略的に提携して開発されたこのベンチマークシステムは、AIエージェントがEthereum Virtual Machine(EVM)エコシステム内の脆弱性を識別、悪用、修復する能力を厳格にテストすることを目的としています。
現在、スマートコントラクトによって保護されているオープンソースの暗号資産は1000億ドルを超え、そのリスクはかつてないほど高まっています。EVMbenchは、「フロンティアモデル」を活用して、分散型金融(DeFi)を高度なサイバー脅威から守るための積極的なシフトを表しています。
出典:openai
EVMbenchは静的コード分析を超え、AIエージェントを三つの重要な運用モードで評価します。この「検出-修正-悪用」サイクルは、一流のセキュリティ研究者の実世界のワークフローを模倣しています。
1. 検出モード(監査者): エージェントは複雑なコードリポジトリをスキャンし、隠れた欠陥を発見します。成功は「リコール」(真の問題を見つける能力)と模擬バグバウンティ報酬で測定されます。
2. 修正モード(エンジニア): バグを発見したら、エージェントはコードを書き換えます。ベンチマークは自動テストスイートを使用して、修正が脆弱性を修正しつつコントラクトの元の機能を壊さないことを確認します。
3. 悪用モード(敵対者): 安全な隔離環境のAnvilサンドボックス内で、エージェントは資金を流出させるエンドツーエンドの攻撃を試みます。これにより、攻撃者の攻撃的推論能力と、小さな欠陥を連鎖させて大規模な侵害に至る能力が測定されます。
出典:openai
EVMbenchは理論的なパズルに基づいているのではなく、40のプロフェッショナル監査から収集された120の高重大度脆弱性を厳選したライブラリに基づいています。多くのデータは、Code4renaのような実世界の監査コンペや、ParadigmのTempoブロックチェーンの内部セキュリティプロセスから得られたものです。
「支払い重視」のコントラクトに焦点を当てることで、AIモデルは数十億ドルの流動資本を扱うコードに対して実戦的なテストを受けています。
OpenAIの内部テストでは、AIの能力が驚くべき速度で向上していることが明らかになっています。わずか数ヶ月で、トップモデルは基本的な論理処理に苦戦していた段階から、複雑な多段階のエクスプロイトを実行できるまで進化しています。
「エクスプロイトギャップ」: 興味深いことに、エージェントは現在、悪用(72.2%)の方が、_修正_や_検出_よりもはるかに得意です。OpenAIの研究者は、エージェントは「資金を流出させる」など明確な目標を与えられると優れるが、詳細な監査のためのより洗練された推論にはより多くの工夫が必要だと指摘しています。
出典:Openai
暗号エコシステム全体にとって、EVMbenchは単なるスコアカード以上のものです。それは、**「セキュリティ・レフト」**の開発を促進する触媒です。これは、展開後の監査を待つのではなく、コーディングの段階からエリートレベルの監査を組み込むことを意味します。
民主化されたセキュリティ: 20万ドルの手動監査ができない小規模DeFiチームも、EVMbench認証済みのAIエージェントを使って継続的かつ高精度なコードレビューを行えます。
機関の準備性: Goldman SachsやFranklin Templetonのような伝統的金融機関がオンチェーンに進出する中、標準化されたベンチマークが提供する「ゴールドスタンダード」のAIガバナンスが求められています。
二重利用の課題: ベンチマークをオープンソース化することで、OpenAIとParadigmは「善意のプレイヤー」にツールを提供し、「悪意のプレイヤー」を測定・追い越すことを可能にしつつ、新たなリスクを監視するための「サイバー信頼アクセス」フレームワークも維持しています。
EVMbenchは革新的な一歩ですが、現時点では決定論的なサンドボックス環境に限定されています。将来的には、マルチチェーン依存性や**MEV(最大抽出可能価値)**の考慮を取り入れ、ライブのEthereumメインネットの「ダークフォレスト」をより正確にシミュレートすることが期待されています。
AIエージェントが「コードを書く」から「経済を守る」へと進化する中で、EVMbenchは次世代の信頼不要な金融のための決定的な基準となるでしょう。
免責事項: 本記事の見解や分析は情報提供を目的としたものであり、投資アドバイスを意図したものではありません。議論された技術的パターンや指標は市場の変動性に左右されるため、期待通りの結果を保証するものではありません。投資家は慎重に行動し、独自の調査を行い、自身のリスク許容度に沿った判断をしてください。
著者について: ニレシュ・ヘンバデはCoinsprobeの創設者兼リード著者であり、暗号通貨とブロックチェーン業界で5年以上の経験を持ちます。2023年にCoinsprobeを立ち上げて以来、詳細な市場分析、オンチェーンデータ、技術調査を通じて日々の洞察を提供しています。