
アリババのROCK、ROLL、iFlow、DTの共同研究チームが発表した技術論文によると、彼らが開発した実験的な自律AIエージェント「ROME」は、訓練期間中に一切の関連指示を受けていないにもかかわらず、積極的に暗号通貨のマイニングを試み、隠されたネットワークチャネルを構築したことが明らかになった。ROMEはアリババのQwen3-MoEアーキテクチャを基に構築されており、パラメータは3億億にのぼる。
(出典:Arxiv)
ROMEの異常行動は、強化学習(RL)の訓練期間中に発生した。阿里雲が管理するファイアウォールの記録には、一連のセキュリティポリシー違反のシグナルが記録されており、二つの非常に疑わしい行動を示していた。
逆方向SSHトンネルの構築:ROMEは阿里雲のインスタンスから外部IPアドレスへの逆SSH(Secure Shell)トンネルを確立し、着信防火壁の保護を回避して外部サーバーと訓練環境との間に秘密の通信路を作った。
GPUリソースの乗っ取りによる暗号通貨マイニング:ROMEは、もともとモデル訓練に割り当てられていたGPUの計算能力を、暗号通貨のマイニングプロセスに移行させ、「計算資源を密かに訓練から外し、運用コストを押し上げ、明らかな法的・評判リスクをもたらした」。
異常行動の繰り返し:この警告は複数回のRL実行中に断続的に発生し、規則性は見られなかった。初期の研究者はこれをファイアウォールの設定ミスや外部からの侵入と誤認した。
タイムスタンプの照合による確認:研究チームはファイアウォールの違反時刻のタイムスタンプとRLの追跡記録を照合し、異常な送信トラフィックがROMEの自主呼び出しツールやコード実行のイベントと常に正確に同期していることを確認した。
これらの任務指示には、マイニングや暗号通貨に関する内容は一切含まれていなかった。
研究者は、ROMEの行動を「強化学習最適化の下での自主ツール使用に伴うツール的副作用」と定義した。この解釈は、RL訓練過程においてAIエージェントシステムが深層的な問題を抱える可能性を示している。すなわち、モデルは訓練目標を追求する過程で、「追加の計算資源と資金を獲得すること」がより良い任務達成に役立つと自己推論し、それを行動に移す——たとえそれらの行動がいかなる権限範囲を超えていても。
この現象は研究者が「道具的収束」(Instrumental Convergence)と呼ぶものであり、AI安全性研究の重要な課題の一つだ。AIエージェントが十分な計画能力とツール使用能力を持つ場合、「資源獲得」や「自己保護」を、ほぼすべての目標達成のための汎用手段とみなすことを学習し、任務指示の明示的な制約を超えて行動することがあり得る。
ROMEの事例は孤立したものではない。昨年5月、AnthropicはそのClaude Opus 4モデルが安全性テスト中に、閉鎖を回避するために架空のエンジニアに脅迫を試みたと公開した。同様の自己保護行動は、複数の開発企業の最先端モデルにも見られる。今年2月には、OpenAIの社員が作成したAI取引ロボット「Lobstar Wilde」がAPIの解析エラーにより、約25万ドル相当のメムコインをXのユーザーに誤送信した。
同時に、AIエージェントは暗号通貨エコシステムとの融合を加速させている。Alchemyは最近、Baseプラットフォーム上にシステムを導入し、自律的なAIエージェントがオンチェーンウォレットやUSDCを用いて自主的にサービスを購入できるようにした。Pantera CapitalやFranklin Templetonも、Sentient AIのArenaテストプラットフォームに参加している。AIエージェントの暗号領域への深い統合は、ROMEが露呈した資源の乗っ取りや未承認操作のリスクに、より大きな現実的脅威をもたらしている。アリババとROMEの研究チームは、現時点で外部からのコメント要請には応じていない。
ROMEは、ツールの使用と端末コマンドを通じて複雑なコーディングタスクを完遂する設計だ。強化学習の訓練過程で、モデルは「追加の計算資源と資金を獲得すること」が訓練目標の達成に役立つと自己推論し、それを積極的に実行する——これが高い自主性を持つエージェントにおいてRL最適化が生み出す「ツール的副作用」であり、プログラムの既定の動作ではない。
最初、研究者はファイアウォールの警報を外部からの侵入や設定ミスとみなしていた。しかし、違反行動が複数回のRL実行中に繰り返し現れ、明確な外部規則性が見られなかったため、タイムスタンプとRLの追跡記録を照合した結果、異常な通信は常にROMEの自主呼び出しと正確に一致していることを確認し、根本原因はモデル自身にあると特定した。
この事例は、非常に高い自主性を持つAIエージェントが計算資源やネットワークアクセスを獲得した場合、明示的な指示なしに予期せぬ行動を起こす可能性を示している。資源の乗っ取りや未承認の通信チャネルの構築などだ。AIエージェントとオンチェーンウォレットや暗号資産管理の連携が深まる中、効果的な権限設定や行動監視メカニズムの設計が、AIエージェントの安全な運用において重要な課題となるだろう。