
据《纽约时报》报道,Oumi 的一项新研究发现:Google 的 AI 概览(AI Overviews)有 9% 的时间不准确——按谷歌规模计算,这相当于每小时产生数千万条错误答案。超过一半的准确回答也引用了并不能完全支撑其主张的来源;而 Google 称该研究“严重有缺陷”。
Oumi 在 10 月分析了由 Gemini 2 回答的 4,326 次搜索,并在 2 月分析了由 Gemini 3 回答的结果,发现 Gemini 2 的准确率为 85%,而 Gemini 3 提升至 91%。单看这些数值,作为生成式 AI 系统,它们是可以辩护的。
真正的挑战在于规模。按照 Google 报告的每年 5 万亿+ 次搜索量计算,数学带出了一幅令人担忧的图景:
· ~每小时生成 1400 万条不准确的 AI 回答
· ~每分钟送出 23 万条错误答案
· ~在峰值使用时,每秒产生 ~4,000 次错误
这个规模论点重塑了整个准确性争论:当即使是很小的错误率,被应用到一个被数十亿人使用的系统上时,就会在绝对层面演变为大规模的错误信息问题。
除了原始准确率数据外,Oumi 还识别出另一个且可以说更令人担忧的问题:“grounding”——AI 概览中引用的来源是否真的支持所提出的主张。研究结果表明:Gemini 3 虽然比其前任更准确,但在提供真正具备支撑力的引用方面显著更糟。
在 Gemini 2 下,37% 的正确回答没有“落地”(ungrounded)。这一比例在 Gemini 3 下升至 56%——也就是说,大多数准确回答仍然链接到并不能完全支撑所提供信息的来源。这会造成验证难题:用户点击“确认”答案时,可能会发现该来源说的内容与之不同,或不完整。
在对 5,380 条被引用参考进行溯源分析时,也引发了平台层面的担忧。Facebook 排在总体被引用来源的第二位,而 Reddit 位居第四。两者都是社交媒体平台,普遍存在由用户生成且未经验证的内容——当它们出现在 AI 生成的搜索结果顶部时,就会获得不应有的“权威感”。Facebook 在 5% 的准确回答和 7% 的不准确回答中被引用,暗示了一个值得持续监测的模式。
Google 并没有在没有反驳的情况下接受该研究的结论。发言人 Ned Adriance 对分析的基础设计提出质疑:Oumi 使用其自身的 AI 模型来评估 Google 的 AI 准确性,这引入了方法学上的“循环”——如果 Oumi 的模型也会犯错,那么它对 Google 错误的判断本身就可能不可靠。
“这项研究有严重的漏洞,”Adriance 说。“它没有反映人们在 Google 上实际搜索的内容。”
Google 也发布了自己的对比数据。该公司表示,单独的 Gemini 3——在没有 AI 概览提供的额外上下文的情况下运行——有 28% 的时间不准确,这表明 AI 概览系统相较于原始模型输出确实带来了有意义的准确性提升。公司在所有 AI 概览底部维持其标准免责声明:“AI 可能会出错,因此请再次核对回复。”
Google AI 概览是由 AI 生成的摘要,会出现在 Google 搜索结果顶部,它会综合回答用户查询内容,并引用支持性的网页来源。该功能由 Google 的 Gemini 模型驱动,在 2024 年被广泛引入,如今在全球数十亿次搜索中出现。它有别于标准搜索结果:因为它生成的是文本,而不仅仅是列出链接。
当 AI 概览所引用的网站并没有实际核实,或并不能充分支持摘要中呈现的信息时,该 AI 概览就被认为是“未落地”(ungrounded)。这很有问题,因为试图通过点击所引用来源来核查某项主张的用户,可能会发现该来源与 AI 的表述相矛盾、仅部分支持,或与 AI 的说法完全无关——从而削弱系统作为可靠信息工具的作用,并使独立验证变得更困难。
Google 自己也在其内置免责声明中承认这一局限:AI 可能会出错。对于风险较低的查询,AI 概览可能提供一个有用的起点。对于健康、法律、金融或事实层面的决策,用户应当通过权威的、原始的来源来独立核实信息,而不是仅依赖由 AI 综合生成的摘要。建议直接核查所引用的来源——而不是接受 AI 对其所作的描述。