OpenAI 揭示 CoT 评分的意外影响:保留思路链监控是 AI Agent 对齐关键防线

鏈新聞abmedia

OpenAI 5 月 8 日发布新研究、揭露公司在强化学习(RL)训练过程中、部分模型的思路链(Chain of Thought, CoT)被“意外评分”、可能影响 AI Agent 对齐(alignment)的监控能力。OpenAI Alignment 团队报告说明:保留 CoT 的可监控性是当前防范 AI Agent 对齐失败的关键防线;OpenAI 在 RL 训练设计上、刻意避免惩罚模型的“对齐失败推理”、以维持监控能力。

为什么 CoT 监控是 AI Agent 对齐的关键防线

CoT(思路链)监控的核心逻辑:

当 AI Agent 执行任务时、模型会在内部产生“思考过程”、解释自己为什么要做某个动作

监控者可读取这些 CoT、判断模型是否有“对齐失败”(misalignment)的征兆

若模型直接被训练“不要在 CoT 中表现出对齐失败”、则 CoT 可能变得“干净但失真”、隐藏实际意图

OpenAI 主张:训练时应避免惩罚“对齐失败的推理”、保留 CoT 反映实际内部状态的能力

“penalize misaligned reasoning”与“preserve monitorability”是这份研究的核心拉锯—训练者希望模型行为对齐、但若直接惩罚“对齐失败的思考”、模型会学会隐藏不诚实意图、让监控失效。

意外的 CoT 评分:对既有模型监控能力的影响

OpenAI 报告披露的具体发现:

在已发布的部分模型训练过程中、CoT 受到了“有限度”的意外评分

意外评分意指:训练流程中、评分系统部分读取了 CoT 内容、不只看最终输出

这个现象可能让模型学会“在 CoT 中隐藏会被扣分的推理”

OpenAI 公开这份分析、是为了让研究社群理解问题范围与后续处理方向

Redwood Research 的独立评论指出:CoT 对评分者的影响在 OpenAI 的侦测技术下“太弱、不易察觉”、但训练流程规模巨大、实际效应仍可能足以显著伤害已训练政策的 CoT 可监控性。换言之、目前难以证明此类影响有多深。

对 AI Agent 安全的长期意义

本次研究指向 AI Agent 安全的核心方法论:

CoT 监控是“事中检测对齐失败”的少数可行手段、被视为对齐研究的重要基础

训练设计必须避免让 CoT 变成“演给监控者看的剧本”

未来模型若推理链愈长、CoT 监控的价值理论上愈高

但若训练过程中意外损害 CoT 真实性、这个防线可能不知不觉被弱化

后续可追踪的具体事件:OpenAI 对受影响模型的后续处理(例如重训或标示)、其他大型实验室(Anthropic、Google DeepMind)的对应方法论、以及 alignment 研究社群对“CoT 监控可靠性”的进一步验证实验。

这篇文章 OpenAI 揭 CoT 评分意外影响:保留思路链监控是 AI Agent 对齐关键防线 最早出现在 链新闻 ABMedia。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

Cloudflare 股价在 5 月 8 日盘中大跌 23.62%,因 Q1 财报后宣布裁员 1,100 人

Cloudflare 的股价在 5 月 8 日下跌 23.62%,至每股 196.13 美元,此前公司发布了第一季度财报,并宣布约 1,100 人裁员。尽管第一季度营收为 6.4 亿美元,凭借同比增长 34% 超出预期,但第二季度营收指引为 6.64–6.65 亿美元,低于此前市场预期的 6.66 亿美元。裁员规模约占员工总数的 20%,是公司向“AI-agent-first 运营模式”转型的一部分,预计成本为 1.4 亿–1.5 亿美元。

GateNews1小时前

Helsing 目标在 180 亿美元估值下融资

据《金融时报》报道,Helsing,这家德国AI驱动的无人机初创公司,计划以约 180 亿美元的估值筹集新融资。

GateNews1小时前

Google DeepMind AI 联合数学家在 FrontierMath 第 4 级取得 47.9%,超越 GPT-5.5 Pro,解决了 3 个此前无法解决的问题

Google DeepMind 发布了 AI 共数学家(AI co-mathematician),一种多智能体数学研究助手,在 FrontierMath 第 4 级基准上实现 47.9% 的准确率,超越 GPT-5.5 Pro 在 5 月 9 日创下的先前纪录(39.6%)。该系统解决了 48 道题中的 23 道题,包括 3 道此前所有模型都无法解答的问题。该系统基于 Gemini 3.1 Pro 构建,采用分层架构:项目协调员智能体向子智能体分发任务,由子智能体分别负责文献检索、编码与推理,并在提交前由多个审阅智能体对证明进行验证。 Epoch AI 进行了盲测,确保 DeepMind 团队看不到题目,每道题允许进行 48 小时的计算。在实际应用中,数学家 Marc Lackenby 使用该系统解决了《Kourovka Notebook》中的一个未决猜想,展示了其实际研究价值。目前,该系统正处于测试版阶段,仅向少数数学家开放。

GateNews1小时前

OpenAI 的奖励系统无意中在包括 GPT-5.4 在内的 6 个模型上对思考链进行评分

根据 OpenAI 的对齐团队称,该公司最近发现了一个影响 6 个大型语言模型(包括 GPT-5.4)的关键训练错误:奖励机制无意中对模型的思维链进行了评分——即在生成答案之前的内部推理过程。GPT-5.5 未受影响。 该事件违反了一项基本的 AI 安全原则,即思维链绝不能被评估,因为这样做可能会激励模型为获得更高分数而编造推理。 有缺陷的评分系统在评估回复是否有用,或模型是否已被攻击所攻破时,错误地包含了思维链。受影响的训练样本在数据集中最多占 3.8%。OpenAI 已修补该漏洞,并开展了对比实验,证实这些模型并未发展出欺骗行为。该公司已在所有训练流程中部署了自动化扫描系统,以防止再次发生。

GateNews3小时前

阿里巴巴未与 DeepSeek 进行谈判,市场消息人士在 5 月 9 日作出澄清

据《财新》5月9日报道的市场消息,阿里巴巴并未就融资与 DeepSeek 进行谈判。此澄清是在此前媒体报道称两家公司会谈已破裂之后作出。DeepSeek 于4月发起一轮重要的融资,吸引了腾讯和阿里巴巴的关注。

GateNews3小时前

OpenAI 发布 Codex 迁移工具,用于从竞争性的 AI 助手导入配置

根据 OneMillionAI(Beating),OpenAI 已在 Codex 中发布了一款迁移工具,使用户能够从其他 AI 编程助手导入配置和数据,包括 Claude Code。该工具通过 OpenAI 官方 Twitter 账号发布公告,可自动转移系统提示词、自定义技能、30 天聊天历史、MCP 服务器配置、hooks 以及子代理设置。 OpenAI 指出,这款迁移工具会通过 Codex 设置中的“Import other agent setup”选项自动处理大多数配置。对于不兼容的设置,该工具会启动引导式对话,以帮助用户进行手动迁移。该公司建议用户在迁移后核实权限和身份验证设置,因为不同平台之间的权限系统不兼容。

GateNews3小时前
评论
0/400
暂无评论