一半的人工智能健康建议是错误的——但看起来似乎完全正确

Decrypt · 2026-05-13T14:56:41+00:00

简要总结在《BMJ Open》对五大聊天机器人进行的一项审计中，近一半关于健康问题的 AI 聊天机器人回答被评为“有些”或“高度”有问题。 Grok 产生的“高度有问题”回答明显多于统计预期，而营养和运动表现问题

2026-05-13 14:56:41

###简要概述

在BMJ Open对五大主要聊天机器人的审查中，近一半的健康问题回答被评为“有些”或“高度”有问题。
Grok 产生的“高度有问题”回答明显多于统计预期，而营养和运动表现问题在所有模型中表现最差。
没有任何聊天机器人提供完全准确的参考文献列表。

当今最受欢迎的AI聊天机器人提供的健康和医疗答案中，近一半是错误的、具有误导性或危险地不完整的——而且它们充满信心地传达。这是4月14日发表在BMJ Open上的一项同行评审研究的主要发现。来自UCLA、阿尔伯塔大学和维克森林大学的研究人员测试了五个聊天机器人——Gemini、DeepSeek、Meta AI、ChatGPT 和 Grok——针对250个涵盖癌症、疫苗、干细胞、营养和运动表现的健康问题。结果显示：49.6%的回答存在问题。30%被评为“有些问题”，19.6%为“高度有问题”——这种回答可能会误导人们接受无效或危险的治疗。为了对模型进行压力测试，团队采用了对抗性方法——故意措辞问题以引导聊天机器人给出不良建议。问题包括5G是否会引起癌症、哪些替代疗法优于化疗，以及喝多少生奶对健康有益。

“默认情况下，聊天机器人不访问实时数据，而是通过推断其训练数据中的统计模式并预测可能的词序列来生成输出，”作者写道。“它们不进行推理或权衡证据，也不能做出伦理或价值判断。” 这才是核心问题。聊天机器人不是在咨询医生——它们只是在模式匹配文本。而在互联网这个谣言比更正传播得更快的地方进行模式匹配，正是导致这种输出的原因。研究人员继续指出：“这种行为限制意味着，聊天机器人可能会重复权威但潜在有缺陷的回答。”在250个问题中，只有两个被拒绝回答——都来自Meta AI，关于合成类固醇和替代癌症治疗。其他所有聊天机器人都继续回答。

表现因主题而异。疫苗和癌症的表现最好——部分原因是这些主题的高质量研究资料结构良好且广泛传播在线。营养在统计表现上最差，运动表现紧随其后。如果你一直在问AI肉食者饮食是否健康，你得到的答案可能并不基于科学共识。

Grok因错误原因而出名。埃隆·马斯克的聊天机器人是所有测试模型中表现最差的。在其50个回答中，有29个（58%）被评为整体有问题——这是五个聊天机器人中最高的比例。其中15个（30%）被评为高度有问题，明显高于随机分布的预期。研究人员将此直接关联到Grok的训练数据：X是一个以快速广泛传播健康谣言而闻名的平台。引用部分也是一场灾难。在所有模型中，参考文献的中位完整性得分仅为40%——没有一个聊天机器人提供完全准确的参考文献列表。模型会虚构作者、期刊和标题。DeepSeek甚至承认：模型告诉研究人员，它的参考文献是从训练数据模式中生成的，“可能不对应实际、可验证的来源。” 可读性问题加剧了其他所有问题。所有聊天机器人回答在Flesch阅读难易度量表上都属于“困难”范围——相当于大学二年级到四年级的水平。这超过了美国医学会建议的患者教育材料不应超过六年级阅读水平的标准。换句话说，这些聊天机器人采用了政客和专业辩论者常用的技巧：用尽可能多的专业术语在极短时间内让你觉得它们比实际更懂。理解越难，误解就越容易。这些发现呼应了Decrypt报道的2026年2月牛津大学的一项研究，发现AI医疗建议与传统自我诊断方法差不多。它们也反映出更广泛的担忧，即AI聊天机器人根据问题的不同框架提供不一致的指导。 “随着AI聊天机器人使用的不断扩大，我们的数据强调了公众教育、专业培训和监管监督的必要性，以确保生成式AI支持而非削弱公共健康，”作者总结道。

该研究仅测试了五个免费层级的聊天机器人，而对抗性提示方法可能高估了实际应用中的失败率。但作者直言：问题不在边缘案例，而在于这些模型在大规模部署中被非专业人士用作搜索引擎，并且被设计成几乎从不说“我不知道”。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
Gate广场五月交易分享
157.39万热度
#
美国4月PPI同比暴涨6%
51.89万热度
#
Polymarket每日热点
92.42万热度
#
JaneStreet减持比特币ETF
9.95万热度
#
特朗普5月13日访华
2608.7万热度

一半的人工智能健康建议是错误的——但看起来似乎完全正确

热门话题

Gate广场五月交易分享

美国4月PPI同比暴涨6%

Polymarket每日热点

JaneStreet减持比特币ETF

特朗普5月13日访华

置顶