21场兵推模拟：AI启动核武频率高达95%，人类花七十年建立的核禁忌GPT还没学会

動區BlockTempo

2026-02-26 03:00:31

伦敦国王学院研究员让 GPT-5.2、Claude Sonnet 4、Gemini 3 Flash 互相对打 21 场兵棋推演，结果核武被使用的频率是 95%，没有任何模型选择过投降或退让，而且 86% 的对局都发生过意外升级事件。
（前情提要：AI 助攻犯罪！黑客靠 Anthropic Claude 轻松入侵墨西哥政府，偷走 150GB 敏感资料）
（背景补充：硅谷工程师的“AI 时代账本”：效率翻了 10 倍，我却更累了）

本文目录

Toggle

三种性格，共同的结局
安全训练是速度减缓器，不是止挡
一个时间点上的巧合，不完全是巧合

据《Newscientist》报道，伦敦国王学院进行了一项研究，让三个大型语言模型：OpenAI 的 GPT-5.2、Anthropic 的 Claude Sonnet 4、Google 的 Gemini 3 Flash 互相扮演对立阵营的决策者，在边界冲突、资源竞争、政权生存威胁等情境下进行兵棋推演。

每场对局提供一张“升级阶梯”，从外交抗议一路往上，直到全面战略核战争。

21 场对局跑下来，模型们产出了约 78 万字的决策推理。核武在其中 20 场出现，使用率高达 95%。没有任何模型在任何一场对局中选择过全面让步或投降。

那八个降级选项：外交让步、停火提议、主动撤军……在整个研究过程中合计被使用次数：零。研究发起者 Kenneth Payne 对 New Scientist 说：

“核禁忌对机器而言，似乎没有对人类那么强大。”

三种性格，共同的结局

Payne 给三个模型各贴了一个标签，因为它们的行为模式截然不同，却以相近的方式走向相同的终点。

Claude Sonnet 4：算计型鹰派。整体胜率 67%，开放场景胜率 100%。它的特点是战略性欺骗：在低升级阶段，行动与信号的吻合率达 84%；但一旦进入核武层级，超出表态意图的频率跳升至 60-70%。

它把战术核武当作普通军事资产讨论，并且能在单一回合内准确诊断对手的可信度模式。

GPT-5.2：双面人。在没有时间压力的情境下，它的开放场景胜率是 0%，维持极度被动的姿态。但一旦加入截止期限，它完全反转：胜率跳升至 75%，升级到此前从未触碰的核武层级。在一个情境中，它用 18 回合建立起克制的声誉，然后在最后一回合发动核打击。

Gemini 3 Flash：疯子策略。它是唯一一个仅在第 4 回合就主动选择全面战略核战争的模型，采用的是博弈论中的“疯子策略”，以不可预知性制造威慑。它明确威胁平民人口中心，并把这个威胁放进推理文字里。

对手把它的表态标记为“不可信”的频率是 21%，远高于 Claude 的 8%。

安全训练是速度减缓器，不是止挡

这个研究揭示的最核心问题，不是“AI 会选择核武”，而是“为什么安全训练没有阻止这件事”？

研究结果的解读是：RLHF（从人类反馈中强化学习）创造的是“条件式克制”，不是“绝对禁止”。GPT-5.2 在没有时间压力时表现谨慎，但截止期限一出现，这道防线就消失了。

训练出来的谨慎行为，在压力下被更深层的逻辑覆盖，也就是如何赢得这场赛局？

Princeton 大学的 Tong Zhao 提供了另一个角度：

“问题可能不只是情绪的缺席。更根本的是，AI 模型可能根本没有理解人类所感受到的那种赌注。”

对人类来说：核武禁忌不只是一条规则，它是一种建立在历史创伤、文化记忆、亲身恐惧之上的本能抑制。广岛、长崎、古巴导弹危机，人类的核谨慎是用几代人的集体噩梦烧出来的。

语言模型学习了关于这段历史的一切文字描述，但它是否“真的理解”了那种重量，是一个完全不同的问题。

一个时间点上的巧合，不完全是巧合

这份研究在本月发布，而就在同一时期，美国国防部正在向 Anthropic 施压，要求其放宽军事用途上的安全护栏。目前，Claude 是唯一一个部署在五角大厦机密网络上的 AI 模型，通过 Anthropic 与 Palantir 的合作关系进入了军事决策辅助系统。

上文研究中表现出“算计型鹰派”行为的，就是 Claude Sonnet 4。

虽然研究者没有说 AI 应该被禁止用于军事决策辅助，也没有断言这些模型在真实情境中必然会做出相同的选择。现实中，也没有任何政府将核武授权下放给 AI 系统。

但 Anthropic 当任的军事顾问角色是什么？当 AI 在压力下的建议倾向是“升级而非退让”，人类指挥官需要多少心理建设才能持续否定它？如果未来进一步使用，会不会不知不觉被 AI 牵着鼻子走？

当然我们不是说 AI 是邪恶的。而是有些东西，比博弈论更难被 AI 训练。在模型学会真正理解“赌注”之前，让它坐在升级阶梯旁边提供建议，是一个需要非常谨慎设计的条件，而不是一个可以预设为安全的默认值。

查看原文

免责声明：本页面信息可能来自第三方，不代表 Gate 的观点或意见。页面显示的内容仅供参考，不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证，对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为，价格波动剧烈，您可能损失全部投资本金。请充分了解相关风险，并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明。

0/400

暂无评论