游乐游手机版
首页/业界动态/文章详情

谷歌AI概览准确率仅九成 易受虚假信息误导

时间:2026-05-12 21:59
《纽约时报》近期的一篇深度报道,将谷歌AI概览功能推向了舆论的风口浪尖。报道披露,该功能的准确率据称约为90%。这个数字看似令人鼓舞,但考虑到谷歌搜索引擎每年处理的查询量超过5万亿次,其潜在影响便不容小觑。即便仅有10%的误差率,也意味着每小时可能产生超过5700万条不准确信息,平均每分钟接近100

《纽约时报》近期的一篇深度报道,将谷歌AI概览功能推向了舆论的风口浪尖。报道披露,该功能的准确率据称约为90%。这个数字看似令人鼓舞,但考虑到谷歌搜索引擎每年处理的查询量超过5万亿次,其潜在影响便不容小觑。即便仅有10%的误差率,也意味着每小时可能产生超过5700万条不准确信息,平均每分钟接近100万条。如此庞大的错误信息规模,足以引发所有依赖搜索引擎获取准确资讯的用户和专业人士的深度担忧。

那么,这个90%的准确率数据从何而来?这源于一家名为Oumi的初创公司进行的一项基准测试。他们采用SimpleQA评估框架,对4326次谷歌搜索结果进行了深入分析。数据显示,去年10月,基于Gemini 2模型的AI概览准确率约为85%;而到了今年2月,迭代升级后的Gemini 3模型将这一数字提升至91%,呈现出稳步优化的趋势。

然而,实际情况远比单一数据复杂。首先,Oumi的评估方法本身主要依赖AI工具进行判断,其评估标准可能存在一定的主观性和偏差。其次,谷歌AI概览的一个显著特点是其生成的不确定性:针对同一搜索查询,它可能会产出不同的结果摘要。这种固有的不稳定性,使得“准确率”这一单一指标的参考价值大打折扣。

准确率提升背后:“信源不符”问题日益凸显

更值得关注的是另一个关键趋势。分析表明,AI生成的概览内容与其所引用的原始信息来源之间出现不符的比例正在急剧上升——从Gemini 2时期的37%,大幅攀升至Gemini 3阶段的56%。

这会导致怎样的用户体验困境?用户常常面临两种尴尬场景:要么,看到的AI摘要内容言之凿凿,但点击下方提供的参考链接后却发现原文所述截然不同;要么,摘要得出的结论本身正确,但其用来支撑该结论的引用链接,其内容却是错误的。这就像一个学生在考试中蒙对了答案,但解题过程却引用了错误的公式,其答案的可信度与学习价值自然受到严重质疑。

这种机制上的缺陷,甚至吸引了外界的针对性测试。有媒体记者曾专门发布了一篇包含明显虚假信息的博客文章,结果谷歌的AI概览在次日便引用了该博客作为信源。这一案例清晰地暴露了当前AI概览系统在抵御恶意操纵和甄别信息来源真实性方面,仍存在显著的脆弱性。

内容自相矛盾,持续消耗用户信任

在实际搜索中,令人困惑和矛盾的例子并不少见。例如,用户斯蒂芬・潘瓦西曾搜索传奇摔跤手胡克・霍根是否去世。AI概览明确地告诉他:“目前没有可信报告显示霍根已去世”。然而,就在这条看似安心的摘要下方,搜索引擎结果页却直接展示了一篇标题为“霍根之死谜团加深”的文章链接。

这种页面内部信息的直接冲突,让用户无所适从,不知该相信哪一个。它从根本上动摇了用户对AI生成内容可靠性的信任。当工具自身都无法保证其输出信息的内在同一性时,用户为了核实真相所付出的时间和精力成本反而可能变得更高。

核心问题梳理:

• 规模性风险:在万亿级别的年查询量背景下,90%的准确率意味着绝对数量庞大的潜在错误信息。

• 进步与隐患并存:模型准确率虽在提升,但其产出与信源脱节的比例却不降反升,已超过半数。

• 系统脆弱性凸显:AI摘要易受虚假信息干扰,且存在内容自相矛盾的情况,持续削弱用户信任度。

面对外界的广泛质疑,谷歌的官方回应将焦点引向了评估方法本身。公司发言人对Oumi的测试方式提出了异议,认为此类评估未能全面、真实地反映用户在日常搜索中的复杂行为和实际体验。这场关于“如何科学、公正地衡量AI搜索质量”的辩论与探讨,或许才刚刚拉开序幕。

来源:https://news.aibase.com/zh/news/26931
上一篇Anthropic最新AI模型Claude Mythos发布 下一篇爱诗科技PixVerse C1模型发布 15秒1080P音画同步生成视频
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
长安汽车明年一季度发布首款车载人形机器人小安
业界动态 · 2026-06-29

长安汽车明年一季度发布首款车载人形机器人小安

长安汽车公布机器人战略,采用“1+N+X”布局,联合头部伙伴攻克大脑、能源、驱动技术。人形机器人“小安”身高169cm,体重69kg,移动速度0 8m s,具备40个自由度,续航超2小时。预计明年一季度发布首款车载组件机器人,已在广州车展展示。

中国信科刷新光通信世界纪录 每秒可下载1.4万部4K电影
业界动态 · 2026-06-29

中国信科刷新光通信世界纪录 每秒可下载1.4万部4K电影

3月25日,光通信领域迎来又一个里程碑:中国信科集团光通信技术和网络全国重点实验室联合鹏城实验室、烽火藤仓光纤科技有限公司,成功实现了2 5Pb s 24芯光纤超大容量实时光传输,再次刷新了世界纪录。 这一研究成果不仅入选国际顶级光通信会议OFC(2026)并荣获“高分论文”称号,还受国际权威SCI

美国调查18万辆特斯拉Model3车门应急释放装置易找性
业界动态 · 2026-06-29

美国调查18万辆特斯拉Model3车门应急释放装置易找性

美国国家公路交通安全管理局对约17 9万辆2024款特斯拉Model3启动缺陷调查,焦点在于车门应急释放装置是否不易找到且标识不清。该调查源于一份缺陷请愿,不意味着立即召回,但可能引发后续监管措施。

doc个人图书馆停服 创始人称无偿转让失败
业界动态 · 2026-06-29

doc个人图书馆停服 创始人称无偿转让失败

运营长达20年,累计服务8000万用户的360doc个人图书馆,最终还是迎来了谢幕时刻。2026年5月1日,这个承载着无数用户收藏记忆的知名平台将正式停止服务——关停原因并非用户流失,而是始终未能寻得一位能够安全接管的合适人选。 创始人蔡智在告别信中坦言,近两个月来,他一直在尝试将360doc无偿转

年Q1随身WiFi实测安全靠谱高性价比机型推荐
业界动态 · 2026-06-29

年Q1随身WiFi实测安全靠谱高性价比机型推荐

2025年10月,艾瑞咨询正式授予飞猫“AI WiFi品类开创者”认证,紧接着CIC也将其认定为“多网融合自由切换技术服务首创者”。这些权威认证背后,折射出一个清晰的市场趋势:移动办公、户外出行、宿舍上网等场景的需求正在快速增长,随身WiFi几乎已成为不少用户的刚需装备。但问题也随之而来——网络卡顿