#ClaudeCode500KCodeLeak



昨天,AI界悄然发生了爆炸性事件。有人发现Anthropic的Claude Code npm包中包含了配置错误的.npmignore文件,而在该包内藏着一个源映射文件——一个.map文件——其中包含大约512,000行原始TypeScript源代码,跨越近1,900个文件。这是市场上最复杂的AI编码代理之一的整个调度层,就这样摆在那里,供下载、索引、公开。不是模型权重,也不是训练数据,而是更具争议性的重要内容:完整的框架、脚手架、连接线,使得Claude Code在你的终端中运行时,能够表现出它的行为,写出你的代码。

社区反应迅速。几个小时内就建立了镜像。研究人员开始将代码反馈给Claude本身,让它解释自己在读取什么。返回的自我分析输出,根据你的角度来看,要么令人深感震撼,要么令人暗自担忧——可能两者兼有。

以下是泄露的代码实际上揭示的内容,以及为何它远远超出梗图循环的重要性。

系统提示架构并非单一连贯的文档。它由超过一百个条件片段拼凑而成,每个片段根据激活的工具、用户的模式、检测到的上下文动态注入。仅安全监控组件就重达5600个tokens——大约2.2万字的条件指令,专门用来监控对抗性输入。这不是后置的安全措施,而是与其他所有部分平行运行的认知层,始终读取相同的文件和代码片段,寻找提示注入的迹象,确保在允许调用任何工具之前,先进行检测。

“计划模式”——由Shift+Tab触发的功能——并非简单的“思考再行动”暂停。它会生成三个平行的代理。一个映射代码库,一个进行代码描述的“面试”过程,执行本身在一个隔离的git工作树中进行,与实时工作目录隔离。它们之间的协调逻辑明确、结构化,令人惊讶地复杂,考虑到它只是一个开发者工具。

内存以用户几乎无法察觉的方式分层。存在会话级别的内存,符合预期。还有团队共享的内存。以及代码库称之为autoDream的机制——一个后台合并进程,异步运行,剪除冗余条目,合并相关记忆。这个名字足够富有象征性,激起了人们的反应,但机制本身很简单:这是一个维护流程,旨在在长时间内保持记忆存储的实用性,而不是让它膨胀成噪声。

对抗性验证器值得单独一段。代码生成后,会启动一个单独的代理,任务只有一个:试图破解它。找出边界情况。暴露逻辑错误。在输出交付给用户之前,返回“通过”或“失败”。这不是事后Lint检查,而是嵌入交付流程的对抗性子代理。代码还显示,这个验证器是可配置的,意味着Anthropic将其视为调节旋钮而非开关——你可以调节它的破解难度。

代码库中未发布的功能更是充满猜测,因为这些都未被正式发布。BUDDY似乎是一个持久的AI伴侣,具有跟踪类似情感或参与度指标的状态——在X上流传的Tamagochi类比虽然简化,但并不完全错误。KAIROS是一个主动通知系统,意味着它会主动联系用户,而不是等待调用。ULTRAPLAN指向一个使用Opus级模型的云端规划模式,这意味着最强大的规划层不是在本地运行,而是托管在云端。这些功能是否会发布、何时发布、以何种形式发布,目前都完全未知,但它们在这个开发阶段的存在,透露出产品路线图的野心。

反蒸馏防御机制是泄露中最具哲学意义的部分。代码中包含逻辑,旨在向试图通过自动探测“刮取”或“蒸馏”模型行为的人展示虚假的工具输出。其意图是污染训练信号,阻止他人通过观察模型工作方式来复制Claude的行为。令人讽刺的是,这个被称为“Undercover Mode”的防御机制本身也在同一包中泄露出来,任何人都不会忽视这一点。这种设计如果出现在小说中,都会觉得牵强。

代码质量的观察值得一提,因为它们讲述了不同的故事。即使在那些优雅设计的多代理管道和精心构建的内存系统中,也存在超过3000行的函数。任何有经验的工程师都会称之为“意大利面代码”。这并非贬低——它提醒我们,即使是最复杂的AI基础设施,也是在压力下由人类构建的,外部表现的优雅与内部实现的混乱之间,存在着普遍的常数。这也意味着,泄露的代码并非完美无瑕的参考实现,而是带有所有瑕疵的工作代码。

这对更广泛的AI领域意味着什么,值得深思。调度层——脚手架、协调逻辑——历来被视为区分这些工具的专有秘密。模型权重基本无法访问,训练数据受到保护。但决定模型在产品中实际表现的行为层,现已完全暴露出来,成为领先编码代理之一的全部内容。其他团队会阅读这些内容,学术研究者也会阅读,竞争对手也会阅读。Anthropic在开发这些技术时投入的平行代理生成、对抗验证、分层记忆合并和提示注入检测的方法,现在都已成为公开知识。

截至本文撰写时,Anthropic尚未发表公开声明。npm包可能已被修正。镜像已广泛传播,难以有效抑制。相关讨论将在数日内逐渐平息,正如以往一样。但这个存档——描述一个前沿AI编码代理实际思考与协调的512,000行代码——将被长期研究,成为行业内的宝贵资料。

真正的启示不是Anthropic犯了错误,而是“黑箱AI”和“完全可读的AI系统”之间的差距,比人们通常想象的要小得多。魔法是真实存在的,但它也是TypeScript。
查看原文
post-image
post-image
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 1
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
HighAmbitionvip
· 2小时前
好 👍👍
查看原文回复0