蚂蚁工程师逆向Claude Code源码:Auto Mode四层决策流水线与安全分类器机制曝光

区块律动

据 1M AI News 监测,蚂蚁集团工程师、前端框架 Umi.js 作者陈成逆向了 Claude Code 2.1.81 的源码,完整还原了 auto mode 按下之后发生的事情。核心发现:每一次工具调用都要过一条四层决策流水线,只有前三层都无法判断时,才会调用一个独立的 AI 分类器做安全审查。

四层流水线依次是:第一层检查已有的权限规则,命中直接放行;第二层模拟 acceptEdits 模式(即允许编辑文件的权限级别),如果在该模式下就会通过,说明风险很低,跳过分类器;第三层检查只读工具白名单(Read、Grep、Glob、LSP、WebSearch 等),这些不修改任何状态,无条件放行;以上都不满足时,才进入第四层,发一个独立的 API 请求给 Claude Sonnet 做安全分类。

分类器的几个关键设计细节:始终使用 Sonnet 而非 Opus,是成本和延迟的权衡;temperature 设为 0 以确保输出确定性;分类器被定义为「自主 AI 编程 Agent 的安全监控员」,保护三类风险(提示词注入、范围蔓延、意外损害);用户的 CLAUDE.md 配置文件会被注入分类器上下文,作为判断用户意图的依据。

拦截规则覆盖 22 个以上类别,包括 force push、直推 main 分支、下载并执行外部代码、生产部署、数据外泄、自我修改权限、创建远程代码执行面、凭证泄露等。放行例外有 7 类:测试用的硬编码密钥、工作目录内的本地文件操作、只读 GET 请求、安装已声明的依赖、官方工具链安装、读取配置凭证发送到目标提供商、推送到当前工作分支。

还有一套熔断机制:连续 3 次被拒绝或累计 20 次被拒绝后,系统降级为手动确认;headless 模式下直接中止 Agent。分类器不可用时,由一个 feature flag 控制是「fail-closed」(直接拒绝)还是「fail-open」(降级为手动确认)。

auto mode 下的行为提示词注入也有精细的频率控制:每 5 轮对话注入一次,每 5 次注入周期中第 1 次是完整版(约 800 字,包含「立即执行、减少打断、行动优于计划」等六条指令),其余 4 次是一行精简版,在上下文窗口占用和行为稳定性之间取得平衡。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明
评论
0/400
暂无评论