谷歌AI搜索概览错误率引担忧海量数据下准确率仅九成

时间：2026-05-12 20:42

《纽约时报》近期的一篇深度报道，将谷歌搜索的AI概览功能推向了舆论的风口浪尖。数据显示，该功能的整体准确率约为90%。这个数字看似优秀，但结合谷歌每年处理超过5万亿次搜索的庞大体量来计算，潜在风险便暴露无遗——这意味着，AI概览功能每小时可能生成超过5700万条错误答案，平均每分钟流向用户的错误信息接近百万条。与此同时，初创公司Oumi的独立评估揭示了一个更值得警惕的趋势：尽管谷歌Gemini模型的准确率从去年10月的85%提升至今年2月的91%，但其答案与原始信息源的匹配率却不升反降。这一矛盾现象，无疑加剧了业界对AI驱动下虚假信息传播风险的普遍担忧。

数据从何而来？

这些引发广泛讨论的核心数据，来源于Oumi公司对谷歌搜索AI概览功能进行的一次系统性专项评估。测试采用了业界认可的SimpleQA基准，共分析了4326次搜索请求的返回结果。其评估方法与主要结论，也经过了《纽约时报》的交叉验证与援引，进一步增强了数据的可信度与参考价值。

90%的准确率，到底意味着什么？

对于普通搜索用户而言，90%的准确率听起来颇具吸引力，似乎已进入“可靠”甚至“高效”的范畴。然而，当这一百分比与谷歌全球性的、天文数字般的搜索请求量相乘时，问题的严重性便截然不同。那10%的误差率所对应的绝对错误数量是极其惊人的。具体换算下来，AI概览功能每小时可能产出超过5700万条不准确回答，相当于每分钟就有近百万条潜在的错误信息被直接呈现给用户。这种错误信息的生产与分发效率，远超传统搜索模式——在传统模式下，用户通常需要自行点击多个链接并交叉验证信息。

Oumi的测试报告还指出了一个关键发现：在模型整体准确率提升的背景下，**AI概览内容与所引用原始信息来源不符的比例，却从37%显著上升至56%**。这意味着，超过半数的错误答案下方，所附带的参考链接实际提供了与AI总结相矛盾的内容。这对于那些高度依赖AI概览摘要、而不再点击详情页进行核实的用户来说，构成了显著的误导与信息失真风险。

此外，需要指出的是，谷歌的AI系统针对同一搜索查询，有时会生成不同版本的概览答案，这种不确定性进一步增加了结果可靠性的判断难度。当然，我们也需客观看待，Oumi自身依赖AI工具进行评估的方法学，也可能存在一定的局限性或偏差，因此实际的误差规模或许存在一定的浮动区间。

AI搜索的共性挑战

AI概览功能是谷歌在2025年推出的核心搜索升级，旨在通过生成式AI技术，直接为用户提供整合后的、结构化的答案摘要，以节省手动筛选信息的时间与精力。目前，该功能已覆盖全球超过一百个国家和地区，被视为谷歌应对来自各方的生成式AI搜索产品竞争的关键战略产品。

而此次暴露的准确率与信源匹配率之间的脱节问题，实际上折射了整个AI搜索行业所面临的共性挑战：大语言模型固有的“幻觉”问题，在谷歌这样的超高频、全球化应用场景下被急剧放大。在此类平台上，每一个百分点的准确率提升，都意味着数千万乃至上亿用户能更可靠地获取知识；反之，每一个百分点的误差，也可能导致虚假或误导性信息的大规模、快速扩散。因此，如何在持续提升回答效率与用户体验的同时，不断压缩误差空间，并建立一套高效、透明的错误内容识别与快速修正机制，已成为所有布局AI搜索赛道的企业必须共同攻克的核心技术与管理课题。

来源：https://cxgn.cn/12098.html

AI搜索

上一篇微软Bing开源Harrier多语言嵌入模型支持超百种语言 下一篇配音演员集体抵制AI侵权张珈铭称单日仿声超700例

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

业界动态 · 2026-07-06

马斯克称Grok4.5内测性能比肩Opus 今年每月推新大模型

6月29日，马斯克在自家社交平台X上丢出一枚重磅冲击波——他正式宣布，最新一代大语言模型Grok 4 5已经在SpaceX和特斯拉内部启动了Beta测试，后续会逐步向更广泛的用户开放。马斯克倒是直言不讳：早期的评测结果来看，Grok 4 5的表现已经接近、甚至在某些方面超越了Anthropic的旗舰

业界动态 · 2026-07-06

王腾自曝买小米股票亏27%淡定加仓降成本

6月29日，一段关于小米前高管王腾的“炒股实录”在社交媒体上引发热议。事情源于一位网友在微博上晒出小米集团当日的实时股价截图，并艾特王腾，调侃式地问道：“现在亏成这样，是不是已经割肉跑了？” 没想到王腾的回应出人意料地硬气。他直接大方表态：不仅没跑，还加仓了一部分，用来摊薄持仓成本。顺便还提及自己当

业界动态 · 2026-07-06

腾讯推出TenPayGo境外人士在华一站式数字生活平台

2026年6月28日，腾讯悄然启动了一款名为TenPayGo的应用内测，目标用户是来华短期停留的境外人士。这款产品定位很明确——以移动支付为基础，整合数字生活服务，做成“一站式”的随身助手。目前TenPayGo已经在App Store上线，但还处于有限范围的测试阶段，并没有全面开放。换句话说，如果现