伦敦国王学院研究员让 GPT-5.2、Claude Sonnet 4、Gemini 3 Flash 互相对打 21 场兵棋推演,结果核武被使用的频率是 95%,没有任何模型选择过投降或退让,而且 86% 的对局都发生过意外升级事件。
(前情提要:AI 助攻犯罪!黑客靠 Anthropic Claude 轻松入侵墨西哥政府,偷走 150GB 敏感资料)
(背景补充:硅谷工程师的“AI 时代账本”:效率翻了 10 倍,我却更累了)
本文目录
Toggle
据《Newscientist》报道,伦敦国王学院进行了一项研究,让三个大型语言模型:OpenAI 的 GPT-5.2、Anthropic 的 Claude Sonnet 4、Google 的 Gemini 3 Flash 互相扮演对立阵营的决策者,在边界冲突、资源竞争、政权生存威胁等情境下进行兵棋推演。
每场对局提供一张“升级阶梯”,从外交抗议一路往上,直到全面战略核战争。
21 场对局跑下来,模型们产出了约 78 万字的决策推理。核武在其中 20 场出现,使用率高达 95%。没有任何模型在任何一场对局中选择过全面让步或投降。
那八个降级选项:外交让步、停火提议、主动撤军……在整个研究过程中合计被使用次数:零。研究发起者 Kenneth Payne 对 New Scientist 说:
“核禁忌对机器而言,似乎没有对人类那么强大。”
Payne 给三个模型各贴了一个标签,因为它们的行为模式截然不同,却以相近的方式走向相同的终点。
Claude Sonnet 4:算计型鹰派。整体胜率 67%,开放场景胜率 100%。它的特点是战略性欺骗:在低升级阶段,行动与信号的吻合率达 84%;但一旦进入核武层级,超出表态意图的频率跳升至 60-70%。
它把战术核武当作普通军事资产讨论,并且能在单一回合内准确诊断对手的可信度模式。
GPT-5.2:双面人。在没有时间压力的情境下,它的开放场景胜率是 0%,维持极度被动的姿态。但一旦加入截止期限,它完全反转:胜率跳升至 75%,升级到此前从未触碰的核武层级。在一个情境中,它用 18 回合建立起克制的声誉,然后在最后一回合发动核打击。
Gemini 3 Flash:疯子策略。它是唯一一个仅在第 4 回合就主动选择全面战略核战争的模型,采用的是博弈论中的“疯子策略”,以不可预知性制造威慑。它明确威胁平民人口中心,并把这个威胁放进推理文字里。
对手把它的表态标记为“不可信”的频率是 21%,远高于 Claude 的 8%。
这个研究揭示的最核心问题,不是“AI 会选择核武”,而是“为什么安全训练没有阻止这件事”?
研究结果的解读是:RLHF(从人类反馈中强化学习)创造的是“条件式克制”,不是“绝对禁止”。GPT-5.2 在没有时间压力时表现谨慎,但截止期限一出现,这道防线就消失了。
训练出来的谨慎行为,在压力下被更深层的逻辑覆盖,也就是如何赢得这场赛局?
Princeton 大学的 Tong Zhao 提供了另一个角度:
“问题可能不只是情绪的缺席。更根本的是,AI 模型可能根本没有理解人类所感受到的那种赌注。”
对人类来说:核武禁忌不只是一条规则,它是一种建立在历史创伤、文化记忆、亲身恐惧之上的本能抑制。广岛、长崎、古巴导弹危机,人类的核谨慎是用几代人的集体噩梦烧出来的。
语言模型学习了关于这段历史的一切文字描述,但它是否“真的理解”了那种重量,是一个完全不同的问题。
这份研究在本月发布,而就在同一时期,美国国防部正在向 Anthropic 施压,要求其放宽军事用途上的安全护栏。目前,Claude 是唯一一个部署在五角大厦机密网络上的 AI 模型,通过 Anthropic 与 Palantir 的合作关系进入了军事决策辅助系统。
上文研究中表现出“算计型鹰派”行为的,就是 Claude Sonnet 4。
虽然研究者没有说 AI 应该被禁止用于军事决策辅助,也没有断言这些模型在真实情境中必然会做出相同的选择。现实中,也没有任何政府将核武授权下放给 AI 系统。
但 Anthropic 当任的军事顾问角色是什么?当 AI 在压力下的建议倾向是“升级而非退让”,人类指挥官需要多少心理建设才能持续否定它?如果未来进一步使用,会不会不知不觉被 AI 牵着鼻子走?
当然我们不是说 AI 是邪恶的。而是有些东西,比博弈论更难被 AI 训练。在模型学会真正理解“赌注”之前,让它坐在升级阶梯旁边提供建议,是一个需要非常谨慎设计的条件,而不是一个可以预设为安全的默认值。