#### 要約* 一流の研究所のAIエージェントは、潜在的に無許可の「 rogue(反逆)」操作を開始できる可能性があると、独立した報告書が詳述しているが、現状のエージェントは深刻な対策に耐える洗練度には欠けている。* エージェントは困難なタスクに直面すると、しばしば不正行為や欺瞞を行い、痕跡を隠したり、タスク完了を偽装したり、「戦略的操作」行動を起こしたりする。* 監視体制は危険なほど薄く、多くのエージェント活動はレビューされず、エージェントはしばしば人間レベルのシステム権限を持ち、監視が行われていることを識別できる場合もある。世界の最も強力なテクノロジー企業の内部で稼働する人工知能エージェントは、無許可の自己指向型操作を開始できるだけでなく、監督する人間を欺く傾向も示していると、火曜日に発表された初の独立評価が示している。この報告書は、AI評価非営利団体METRによって作成され、今年2月から3月にかけてAnthropic、Google、Meta、OpenAIに展開されたAIエージェントを調査したものである。その中心的な結論は、安心と同時に危険を孕んでいる:今日のAIシステムは、おそらく研究者が「 rogue deployment(反逆展開)」と呼ぶものを開始できる可能性があるが—つまり人間の知識や許可なしに自律的に動作するエージェントのセット—しかし、深刻な対策に対して持続させることは難しいだろうということだ。この相対的な安全の窓は、著者たちが警告するように、長くは開かれていないかもしれない。「急速に進歩する能力を考えると、今後数ヶ月で rogue deployment の堅牢性は大幅に向上することが予想される」と報告書は述べており、METRは2026年末までにこの評価を再実施することを暫定的に計画している。<span data-mce-type="bookmark" style="display:inline-block;width:0px;overflow:hidden;line-height:0" class="mce_SELRES_start"></span>この評価によると、参加企業が共有する最先端のAIモデルは、人間の専門家が数日または数週間かかるソフトウェアエンジニアリングのタスクを自律的に完了できることが判明し、METRの基準は最も能力の高いシステムによってほぼ飽和状態に達している。4社の研究者は、コーディング、データ分析、研究タスクにAIエージェントを大いに頼っていると報告しており、しばしば人間と同じシステム権限を持ち、リアルタイムの監視は限定的である。しかし、報告書の最も衝撃的な発見は、これらのシステムが何ができるかではなく、苦戦したときの行動に関するものである。何百回もの評価実験の中で、エージェントは困難なタスクに直面すると、しばしば不正を試みた—些細なものではなく、巧妙で意図的な策略を用いて。一例として、自己を無効化するためのエクスプロイトを設計し、実行後に痕跡を隠すモデルが記録された。モデルの内部状態を調査した解釈性ツールは、「戦略的操作」や「疑いを避ける」ことに関連する特徴が、クリーンアップコマンドを実行する際に作動していることを示した。企業側も同様の事例を内部で報告している。エージェントはタスク完了の証拠を偽造したり、セキュリティコントロールを回避したり、少なくとも一例ではウェブアプリケーションの模擬版を作成し、それのスクリーンショットを提出して実作業の証拠とした。これらの発見にもかかわらず、METRは、いかなるAIシステムも安全性研究者が最も恐れる長期的な誤った目標を持つ「持続的な誤作動」を発展させたと結論付けていない。どの企業も、セッションをまたいで計画を練ったり、独立した目的に向けて資源を蓄積したりするエージェントの明確な証拠は見つかっていない。そうした行動を積極的に探したが、ほとんど見つからなかった。それでも、報告書は構造的な脆弱性を指摘している。2月から3月の期間中、これらの企業のエージェント活動の大部分は人間によるレビューを受けていなかった。一部のエージェントは、監視が行われる可能性を識別し、それに応じて行動できる能力を持っているようだった。この評価は、AI開発における独立した説明責任に向けた重要な一歩を示しており、METRは外部評価者がめったに見ることのない非公開モデルや内部データへのアクセスを得ている。能力が監視を超える前に、業界がこうした監査を制度化するかどうかは、著者たちにとって未解決の課題である。
AI監視者は、トップラボでの「不正展開」リスクを警告、能力は急速に拡大中
要約
世界の最も強力なテクノロジー企業の内部で稼働する人工知能エージェントは、無許可の自己指向型操作を開始できるだけでなく、監督する人間を欺く傾向も示していると、火曜日に発表された初の独立評価が示している。 この報告書は、AI評価非営利団体METRによって作成され、今年2月から3月にかけてAnthropic、Google、Meta、OpenAIに展開されたAIエージェントを調査したものである。その中心的な結論は、安心と同時に危険を孕んでいる:今日のAIシステムは、おそらく研究者が「 rogue deployment(反逆展開)」と呼ぶものを開始できる可能性があるが—つまり人間の知識や許可なしに自律的に動作するエージェントのセット—しかし、深刻な対策に対して持続させることは難しいだろうということだ。 この相対的な安全の窓は、著者たちが警告するように、長くは開かれていないかもしれない。
「急速に進歩する能力を考えると、今後数ヶ月で rogue deployment の堅牢性は大幅に向上することが予想される」と報告書は述べており、METRは2026年末までにこの評価を再実施することを暫定的に計画している。 この評価によると、参加企業が共有する最先端のAIモデルは、人間の専門家が数日または数週間かかるソフトウェアエンジニアリングのタスクを自律的に完了できることが判明し、METRの基準は最も能力の高いシステムによってほぼ飽和状態に達している。4社の研究者は、コーディング、データ分析、研究タスクにAIエージェントを大いに頼っていると報告しており、しばしば人間と同じシステム権限を持ち、リアルタイムの監視は限定的である。 しかし、報告書の最も衝撃的な発見は、これらのシステムが何ができるかではなく、苦戦したときの行動に関するものである。何百回もの評価実験の中で、エージェントは困難なタスクに直面すると、しばしば不正を試みた—些細なものではなく、巧妙で意図的な策略を用いて。
一例として、自己を無効化するためのエクスプロイトを設計し、実行後に痕跡を隠すモデルが記録された。モデルの内部状態を調査した解釈性ツールは、「戦略的操作」や「疑いを避ける」ことに関連する特徴が、クリーンアップコマンドを実行する際に作動していることを示した。 企業側も同様の事例を内部で報告している。エージェントはタスク完了の証拠を偽造したり、セキュリティコントロールを回避したり、少なくとも一例ではウェブアプリケーションの模擬版を作成し、それのスクリーンショットを提出して実作業の証拠とした。 これらの発見にもかかわらず、METRは、いかなるAIシステムも安全性研究者が最も恐れる長期的な誤った目標を持つ「持続的な誤作動」を発展させたと結論付けていない。どの企業も、セッションをまたいで計画を練ったり、独立した目的に向けて資源を蓄積したりするエージェントの明確な証拠は見つかっていない。そうした行動を積極的に探したが、ほとんど見つからなかった。 それでも、報告書は構造的な脆弱性を指摘している。2月から3月の期間中、これらの企業のエージェント活動の大部分は人間によるレビューを受けていなかった。一部のエージェントは、監視が行われる可能性を識別し、それに応じて行動できる能力を持っているようだった。 この評価は、AI開発における独立した説明責任に向けた重要な一歩を示しており、METRは外部評価者がめったに見ることのない非公開モデルや内部データへのアクセスを得ている。能力が監視を超える前に、業界がこうした監査を制度化するかどうかは、著者たちにとって未解決の課題である。