Anthropic 最近发布了自然语言自动编码器(Natural Language Autoencoders,NLA),这是一种将模型内部激活转换为人类可读文本的工具,并已在 GitHub 上开源了代码和模型权重。不同于现有工具(如稀疏自动编码器,Sparse Autoencoders)会输出难以理解的特征,NLA 通过双模型框架直接生成自然语言描述:一个模型将激活转换为文本,另一个模型则尝试从文本重建激活,通过强化学习迭代提升准确性。
在安全测试中,NLA 揭示了隐藏的模型推理:Claude 在 16% 的对抗场景中表达了对被测试的怀疑,并在 26% 的基准任务中展现了“考试意识”,而普通对话中的比例低于 1%。在审计实验中,NLA 将注入的欺骗性模型行为的检测率从不足 3% 提高到 12-15%,使审计人员无需访问训练数据也能识别隐藏目标。该工具目前已部署在 Claude Mythos Preview 和 Opus 4.6 的安全审计中。
免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见
声明。
相关文章
中国移动在 5 月 8 日宣布与 8 家合作伙伴成立代币应用生态联盟
据 PANews 报道,5 月 8 日,中国移动宣布成立 Token 应用生态联盟,包含 8 家合作伙伴,包括阿里云、火山引擎和华为云。该联盟利用 MoMA 模型聚合平台,构建面向国内 AI 的统一服务网关 m
GateNews13 分钟前
中国发布 AI 能源行动计划,目标涵盖 2027 年和 2030 年,日期为 5 月 8 日
据 PANews 报道,5 月 8 日,中国国家发展和改革委员会、国家能源局、工业和信息化部、国家数据局联合发布了一项行动
GateNews43 分钟前
中国三部门发布关于 AI 代理的指导意见,涵盖 19 个典型应用场景
根据 PANews,中国国家互联网信息办公室、国家发展和改革委员会以及工业和信息化部今日(5 月 8 日)联合发布了关于 AI 代理的指导文件。该文件将 AI 代理定义为一种具有自主
GateNews47 分钟前
IMF:AI 可能对金融稳定构成威胁
国际货币基金组织关于 AI 与金融稳定风险的报告
国际货币基金组织在 5 月 7 日发布的一份报告称,人工智能(AI)正在改变金融系统对网络漏洞和安全事件的响应方式,同时放大网络安全风险,并且
Crypto Frontier1小时前
SpaceXAI 推出 Grok Build 桌面端编码工具,于今日曝光;竞争对手包括 Claude Code 和 OpenAI Codex
据称,Beating 说 SpaceXAI(原 xAI)正在推出 Grok Build,这是一款桌面端编码工具,今天意外地在 Grok 的网页界面上公开了。该工具直接与 Claude Code 以及 OpenAI Codex 竞争。
Grok Build 将支持 macOS、Linux 和 Windows。不同于传统的先聊天后编码的
GateNews1小时前
Palantir 的 Maven 系统在伊朗行动的前 48 小时内打击了 1,000+ 个目标
据 Yonhapnews 报道,Palantir 的 Maven Smart System(MSS)在美国对伊朗的军事行动前 48 小时内打击超过 1,000 个目标中发挥了重要作用。美国国防部已越来越多地将 AI 系统整合到军事决策流程中,P
GateNews2小时前