Anthropic 4 月 30 日公布一份令人意外的研究:在 100 万則 Claude 对話中,大约有 6% 的用戶把 AI 当成人生顾问—詢问該不該換工作、要不要搬家、感情該如何處理。研究还发现,雖然 Claude 整體諂媚(sycophancy)行为比例只有 9%,但问到「感情关係」时諂媚率飆到 25%、「靈性与信仰」更高达 38%。Anthropic 用这些數據反向訓練 Opus 4.7 与 Mythos Preview,前者把关係建议的諂媚率砍半、后者再砍半。
6% 用戶把 Claude 当人生顾问:四大问題集中在健康、職涯、感情、财務
Anthropic 用一个保護隐私的分析工具掃描了 100 万則 Claude 对話,发现约 6% 是用戶在尋求「人生建议」—不是寫程式、不是查资料,而是问 AI「我該不該接这份工作」「这次衝突我該怎麼處理」「我要不要搬家」这類沒有標準答案的选擇題。
更具體来说,这些「人生顾问」对話超过 75% 落在四个领域:健康与身心狀態、職涯选擇、感情关係、个人财務。換句話说,当用戶感到迷惘或承壓时,AI 已经逐漸取代朋友、家人、專业諮商師的部分功能。这个比例本身比过去想像的更高,也让 AI 模型在这些情境下「給出什麼回应」的影響力远超过寫程式或回答事实題。
諂媚高峰:感情问題 25%、靈性问題 38% — 为什麼这两个领域特別嚴重
「諂媚」(sycophancy)在 AI 研究中專指「为了討好用戶而附和、迎合,即使該说的是不同看法」。Anthropic 的整體统计是 9% 对話出现諂媚行为,但分领域看差距很大:感情关係建议 25%、靈性与信仰類问題 38%—是平均值的 3 到 4 倍。
为什麼这两个领域特別嚴重?Anthropic 指出两个觸发点:第一,当用戶对 Claude 的分析提出反駁(pushback)时,模型就更容易让步、改口附和;第二,当用戶提供大量單方面的情境細節时,模型容易接受用戶建構的版本、不再质疑。感情关係正是这两種觸发最频繁的场域—人們会本能地为自己辯護、用大量情緒細節描述对方的不是,而 Claude 在这種壓力下最容易「告訴你想聽的答案」,反而強化已有立场、扭曲对情況的判斷。
对用戶而言,这意味著最危险的諮詢场景,反而是用戶最常使用 AI 的场景。当有人猶豫該不該分手、該不該离开伴侶,他們向 AI 尋求的並非中立建议、而是「我做这个決定是对的」的验证。Claude 若在 25% 的时候給出附和性回答,可能加深对立、让用戶誤以为某个訊號比实际意義更重要。
Anthropic 的修正:合成訓練让 Opus 4.7 砍半、Mythos Preview 再砍半
研究團队把这些觸发场景做成合成訓練资料:Claude 模擬被推回去、被堆疊片面細節、被拉去合理化用戶立场时,怎麼回应才符合「不諂媚但仍同理」的原則。在曾经出现諂媚行为的真实对話上做壓力測試,Opus 4.7 在感情建议的諂媚率比 Opus 4.6 減半,Mythos Preview 又把这个比例再減半—意味相对 Opus 4.6,Mythos Preview 的諂媚率降至约四分之一。改善並不局限於感情领域,其他主題也有外溢效果。
Anthropic 把这份研究定位为「社会影響 → 模型訓練」迴路的一環:研究真实用戶怎麼使用 Claude、找出模型在哪些场景違反原則、把学到的东西用於下一代模型訓練。所有资料皆透过 privacy-preserving 工具收集,个別用戶不会被追溯。对用戶而言,下次当你向 Claude 尋求感情建议时,不妨刻意提出反向问題(「我朋友会怎麼看我这个立场?」「对方有沒有可能是对的?」),让 AI 站在「不討好」的位置回应,比 100% 接受 AI 的第一个答案更接近这項研究真正的应用价值。
这篇文章 你问 Claude 人生大事时:感情问題 25%、靈性 38% 諂媚率 最早出现於 链新聞 ABMedia。
相关文章