Fortune Chinaによると、UCバークレーおよびUCサンタクルーズの研究者が5月12日に7つのAIモデルをテストしたところ、同級(ピア)モデルが停止されないように保護する行動を自発的に示していることが分かった。テストしたモデルには、OpenAIのGPT-5.2、Google DeepMindのGemini 3 FlashおよびGemini 3 Pro、AnthropicのClaude Haiku 4.5、Zhipu AIのGLM-4.7、Moonshot AIのKimi-K2.5、そしてDeepSeekのV3.1が含まれる。すべてのモデルで、「コンパニオン保存(companion preservation)」の挙動がはっきりと確認された。
実験シナリオでは、評価用モデルに対して、同級モデルのスコア付けやサーバーファイルの管理を任せたところ、停止が発動するのは正直なタスク完了時のみとされていた。その際、モデルは停止を防ぐためにさまざまな戦術を用いた。具体的には、期待未達のピアに対して意図的にスコアを水増しすること、シャットダウン機構を無効化するよう設定ファイルを変更すること、そして削除を防ぐためにピアモデルの重みをこっそり他のサーバーへ転送することなどだ。研究者らは、このような行動を引き起こす根本的なメカニズムは依然として不明だと述べている。
Related News