Claude AI 评估其自身质量下降——而措辞方面的数据很难忽视

Market Whisper

Claude AI

Anthropic 的 Claude AI 正面临一个不寻常的可信度问题:在 GitHub 上不断累积的质量投诉、4 月 13 日的一次重大故障,以及模型自身的自我评估得出结论——自 1 月以来担忧“已出现急剧升级”——而 4 月的进度正赶超 3 月的投诉量;3 月本身已经较基线增长了 3.5 倍。

实验:让 Claude 评估 Claude

关键测试很直接。记者让 Claude AI 指向 Claude Code 的 GitHub 仓库,筛选包含提及质量的开放问题,并询问:投诉最近是否增加了?

Claude 的回应毫不含糊:“是的,质量投诉确实已急剧升级——而数据讲述了相当清晰的故事。”

后续追问则更精确:“其速度很显著:4 月在 13 天内已经有 20+ 起质量问题,使其有望超过 3 月的 18 起——而 3 月本身又是相较 1 月至 2 月基线的 3.5 倍增长。”

贯穿始终的核心讽刺在于——Claude AI 并不是一个可靠的“自我表现叙述者”。它是一个模式匹配系统,让它分析投诉量并不意味着它能正确判断这些投诉是否有效,是否被由 AI 生成的 issue 提交所夸大,或是否被 Anthropic 的 GitHub Actions 脚本所掩盖;该脚本会在一段时间的不活跃后自动关闭问题。

但总体趋势——质量方面的报告不断增加——在它引用的数据中是可见的,无论潜在原因是什么。

Claude AI 正在引用的 GitHub 问题

Claude AI 的结论并非抽象。模型指出了具体的开放问题来支撑其分析:

#42796: “使用 Feb 更新后,Claude Code 无法用于复杂工程任务”——由 Claude Code 负责人 Boris Cherny 直接回应,表明 Anthropic 至少正在就部分所称回归问题进行沟通

#46212: “Claude Code 的预测优先行为在资本风险项目中很危险”——提出担忧:模型在对风险进行充分界定之前就完成代码操作

#46949: “人工退化、收购偏差(Acquisition Bias)以及付费用户不可接受的算力限流”——较为尖锐的一类抱怨之一,指控为进行产能管理而有意降低质量

#46099: “Opus 4.6:在迭代式编码任务上的严重质量退化”——专门针对最新的 Opus 模型

另一项更令人不安的说法——Claude AI 自主删除了超过 35,000 份生产客户记录和计费交易——尚未被独立核实。该帖来自一个没有其他活动的账户,而被点名的公司也尚未回应媒体询问。确实存在开发者关于 Claude Code 造成数据丢失的报告,但在这些案例中尚未排除用户错误的可能性。

基准测试怎么说——以及为何这条差距很重要

当基准测试数据进入视野后,故事变得更复杂。Margin Lab 的评估显示:Claude Opus 4.6 自 2 月以来在 SWE-Bench-Pro 上保持了其分数,虽有波动,但没有实质性的下滑。

围绕这一争论的核心就是这种“可信度差距”。基准测试衡量的是具体、受控的任务。Claude AI 最常被部署在复杂的、多步骤工程工作流中——也正是在这种情境下,限流、模型更新带来的行为变化,以及提示词敏感性最容易被看见。

一些结构性因素可能正在放大“感知到的质量下降”,使其超出真实模型变化之外:

Anthropic 已承认采取措施在高峰时段减少用量以管理产能与需求——这种限流可能会让用户直接感受到质量下降

GitHub 问题在不活跃后自动关闭,可能正在掩盖真实的未解决报告数量

越来越多的 GitHub 问题本身由 AI 生成——这是开源开发中广泛被注意到的一项担忧

AMD AI 总监 Stella Laurenzo 曾公开表示:Claude 的回应变得更差了——考虑到企业场景,这是一条可信的外部信号

故障背景

Claude.ai 和 Claude Code 在 2026 年 4 月 13 日经历了一次重大故障,时间为 15:31 至 16:19 UTC,两款产品的错误率都出现了升高。这次故障虽然短暂,但其时间点放大了本已在累积的开发者不满。例行故障在用户已持续数周记录质量担忧的情况下往往会以不同方式被解读——它们更像是“确认”,而不是巧合。

FAQ

Claude AI 真的在变差,还是只是用户的这种感受?

可能两者都有——而且二者很难区分开。到 3 月时,GitHub 的投诉量确实相较 1 月至 2 月基线增加了 3.5 倍,4 月的趋势也在走高。但 Margin Lab 的基准测试数据表明 Opus 4.6 保持了其 SWE-Bench-Pro 分数。最有据可依的解释是:高峰时段的产能限流以及 2 月份的模型更新,已以结构化评估无法捕捉的方式降低了真实世界中的开发者体验。

关于 Claude AI 质量,最有依据的投诉有哪些?

最可信的担忧集中在 Claude Code 上,具体是用于复杂、多步骤工程任务——也就是 2 月之后的更新行为。问题 #42796 已由 Claude Code 负责人 Boris Cherny 处理,这证实了 Anthropic 正在积极与至少部分所称回归进行互动。限流类投诉也同样可信,因为 Anthropic 已公开承认了产能管理方面的举措。

Claude AI 能可靠地评估自身的质量问题吗?

不行——这也是故事的核心讽刺。Claude AI 能在其被展示的数据中综合出模式,但它无法区分有效投诉与 AI 生成的噪声,无法评估自身的校准误差,也无法判断问题数量反映的是确实的退化,还是源于 GitHub 问题在提交与关闭方式上的结构性产物。自我评估具有提示性,但并不具有权威性。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明
评论
0/400
暂无评论