蚂蚁工程师逆向Claude Code源码：Auto Mode四层决策流水线与安全分类器机制曝光

区块律动

2026-03-25 11:37:22

据 1M AI News 监测，蚂蚁集团工程师、前端框架 Umi.js 作者陈成逆向了 Claude Code 2.1.81 的源码，完整还原了 auto mode 按下之后发生的事情。核心发现：每一次工具调用都要过一条四层决策流水线，只有前三层都无法判断时，才会调用一个独立的 AI 分类器做安全审查。

四层流水线依次是：第一层检查已有的权限规则，命中直接放行；第二层模拟 acceptEdits 模式（即允许编辑文件的权限级别），如果在该模式下就会通过，说明风险很低，跳过分类器；第三层检查只读工具白名单（Read、Grep、Glob、LSP、WebSearch 等），这些不修改任何状态，无条件放行；以上都不满足时，才进入第四层，发一个独立的 API 请求给 Claude Sonnet 做安全分类。

分类器的几个关键设计细节：始终使用 Sonnet 而非 Opus，是成本和延迟的权衡；temperature 设为 0 以确保输出确定性；分类器被定义为「自主 AI 编程 Agent 的安全监控员」，保护三类风险（提示词注入、范围蔓延、意外损害）；用户的 CLAUDE.md 配置文件会被注入分类器上下文，作为判断用户意图的依据。

拦截规则覆盖 22 个以上类别，包括 force push、直推 main 分支、下载并执行外部代码、生产部署、数据外泄、自我修改权限、创建远程代码执行面、凭证泄露等。放行例外有 7 类：测试用的硬编码密钥、工作目录内的本地文件操作、只读 GET 请求、安装已声明的依赖、官方工具链安装、读取配置凭证发送到目标提供商、推送到当前工作分支。

还有一套熔断机制：连续 3 次被拒绝或累计 20 次被拒绝后，系统降级为手动确认；headless 模式下直接中止 Agent。分类器不可用时，由一个 feature flag 控制是「fail-closed」（直接拒绝）还是「fail-open」（降级为手动确认）。

auto mode 下的行为提示词注入也有精细的频率控制：每 5 轮对话注入一次，每 5 次注入周期中第 1 次是完整版（约 800 字，包含「立即执行、减少打断、行动优于计划」等六条指令），其余 4 次是一行精简版，在上下文窗口占用和行为稳定性之间取得平衡。

免责声明：本页面信息可能来自第三方，不代表 Gate 的观点或意见。页面显示的内容仅供参考，不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证，对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为，价格波动剧烈，您可能损失全部投资本金。请充分了解相关风险，并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明。

0/400

暂无评论