谷歌AI概览准确率宣称达90%,但每小时或生成超5700万条错误信息
近期,《纽约时报》披露的一则报道引发广泛关注:谷歌AI概览(AI Overviews)功能的准确率据称约为90%。表面看,九成准确率似乎令人满意,但若结合谷歌每年超过5万亿次的搜索总量进行推算,结果便不容乐观。即便仅有10%的失误率,这也意味着每小时可能产生超过5700万条错误答案——相当于每分钟接近100万条。这一潜在风险规模,足以引起用户与行业的高度警惕。
第三方测评:准确率虽有提升,但“图文不符”问题恶化
AI初创公司Oumi近期采用SimpleQA基准对谷歌搜索进行了评估。通过对4300余次搜索进行分析,他们发现:去年10月搭载Gemini 2模型的谷歌AI概览准确率约为85%;至今年2月,升级为Gemini 3模型后,该数字提升至91%。模型迭代带来效率进步,固然值得肯定。

例如搜索IT之家,跳出的 AI 概览介绍
然而,评估中有几个关键点值得注意。首先,Oumi的测试本身依赖AI工具,存在一定误差空间。其次,谷歌针对同一搜索查询,有时会提供不同版本的AI概览内容。更值得关注的是,数据显示AI生成的摘要文字与其引用的来源信息之间出现“不一致”的比例正显著上升:该比例已从Gemini 2时期的37%,增至Gemini 3阶段的56%。
所谓“不一致”,通常表现为两种情形:一是AI概括的内容存在错误,但下方提供的参考链接却是正确的;二是概括主体正确,却引用了包含错误细节的网页。这如同导游指对了路线,却讲错了景点典故,难免影响用户的信任感。
内容易遭操纵,且存在页面内“自相矛盾”
更令人担忧的是,研究显示AI概览功能的内容易受人为影响。有记者通过实验发现,故意发布包含虚假信息的博客后,次日谷歌AI概览便引用了该博客内容。这种脆弱性可能为误导性信息的传播提供通道。
普通用户在实际搜索中也可能直接遭遇困惑。例如,用户斯蒂芬·潘瓦西曾查询摔跤手胡克·霍根是否去世,AI概览明确回复“无可信报告显示霍根已去世”,但同一搜索结果页下方却显示文章标题“霍根之死谜团加深”。这种页面内的直接矛盾,让用户对AI生成内容的可靠性产生质疑。
谷歌回应与行业反思
针对Oumi的测试,谷歌发言人指出其方法可能未能反映真实用户搜索场景,这一观点确有合理之处——实验室环境与海量、多元的实际搜索之间存在差异。
尽管如此,前述案例中暴露的具体问题——如摘要与引源脱节、内容易被污染、页面信息矛盾——均是真实存在的用户体验隐患。当AI试图直接为用户归纳答案时,其准确性、一致性与可信度面临更高要求。每小时数千万条潜在错误,虽为理论推算,却清晰提醒我们:在拥抱AI搜索便捷的同时,保持信息审慎与多方验证,仍是当下不可或缺的应对策略。
