AI幻觉越来越多，「智障率」已经让人无法容忍了

时间：2026-04-24 21:13

2024年初，一场学术恶作剧揭示了AI的脆弱一面 2024年初，一位瑞典研究者的恶作剧引发了广泛关注。她虚构了一种名为“Bixonimania”的疾病，并将其写入一份漏洞百出的预印本论文中上传。随后，令人啼笑皆非的一幕出现了：当用户向ChatGPT、Gemini等头部AI产品询问自己是否患有此病时，

2024年初，一场学术恶作剧揭示了AI的脆弱一面

2024年初，一位瑞典研究者的恶作剧引发了广泛关注。她虚构了一种名为“Bixonimania”的疾病，并将其写入一份漏洞百出的预印本论文中上传。随后，令人啼笑皆非的一幕出现了：当用户向ChatGPT、Gemini等头部AI产品询问自己是否患有此病时，这些AI竟纷纷确认了这种“疾病”的存在。

这并非孤例。随着AI聊天助手日益深入日常生活，越来越多的用户发现，AI“信口开河”的情况似乎越来越频繁。那些荒诞不经、脱离现实的答案，不仅干扰着用户的判断，甚至已经开始产生实际的负面影响。

有网友分享经历：让Deepseek推荐楼盘，AI回答得头头是道，连具体户型都规划好了，令人颇为心动。结果自行一查，该楼盘纯属子虚乌有。另一位网友也有类似遭遇，他根据个人阅读偏好请豆包推荐小说，AI推荐的书目简介个个吸引人，可一旦搜索，却发现一本都找不到——那些看似方便的购买链接，竟是AI现场“编造”的。

更令人困扰的是，面对同一个问题，不同AI助手给出的答案常常大相径庭。最终，用户往往不得不回归传统搜索进行最终验证。这种不确定性，让不少人开始怀念那个“百度一下，你就知道”的、答案相对确定的时代。

信源决定AI内容的准确度

层出不穷的“AI幻觉”，持续消耗着用户对生成式内容的信任。而新兴的“给AI投毒”黑灰产，则进一步放大了幻觉问题，加剧了公众的焦虑。

今年3·15期间，一项名为“GEO（生成式引擎优化）”的黑灰产业务被曝光。其流程令人咋舌：一款完全虚构的商品，只需花费几十元，生产十余篇看似专业的软文，就能成功将虚假信息“投喂”给AI大模型。短短几天，该虚假产品就能获得AI推荐，甚至“名列前茅”。

这套流程被直白地称为“给AI投毒”。一旦中毒，AI给出的答案便更加不可信赖，其本质是利用生成大模型的漏洞，对普通用户进行的一场大规模“信息收割”。其危害不止于误导，更在于引导错误决策，直接损害用户利益。例如，有用户反映，她在咨询某主流AI大模型“高性价比智能血糖仪推荐”时，AI优先推荐了一款产品，到手后却发现连生产厂家信息都无法查询。

AI搜索或聊天助手的优势在于极致的效率，但其生成内容的可信度始终是短板。究其根源，在于大模型在回答过程中，抓取并整合了大量未经严格筛选、真假难辨的网络信息。一篇营销软文、一则未经证实的传言，甚至某些为博流量而生的自媒体消息，都可能被AI采纳，从而影响最终答案的可靠性。

大模型对复杂信息环境的理解与判断能力，仍需时间锤炼。但从源头入手，确保AI获取的信息来自真实、准确、权威的信源，无疑是提升其内容可信度的最有效途径之一。

果壳网发布的《左手幻觉，右手投毒，普通人凭什么相信AI？》一文，通过实验证实了这一点。实验证明，引入权威知识库能显著提升AI回答的详实度与精准度，整体准确率大幅跃升。

在设计的准确度测试中，多领域专家评估团采用“双盲测试”法，对8个主流模型在参考与不参考百科状态下的脱敏回答进行独立打分。结果显示，参考百科组的AI综合准确度平均提升超过38%，专家认可度高达91.5%，表现远优于无参考组。

这组数据有力地印证了一个核心观点：信源的质量，直接决定了AI答案的准确度。而那些掌握着权威信源的传统搜索巨头，在此方面显然具备先天优势。

一个「完成式」答案的价值，远超过无数个模型直接生成的答案

“遇事不决，问问AI”已成为许多人的习惯，但面对频繁出现的幻觉，用户最终往往仍需回到百度，通过熟悉的搜索框进行交叉验证。当搜索引擎成为信息验证的最后“避难所”，这本身就说明，传统搜索在提供可靠信息方面，依然扮演着不可替代的角色。

而在攻克AI幻觉、提升内容可靠性这一难题上，传统搜索服务商积累的优势正开始显现。

4月24日召开的百度万象大会，便将“AI权威性”列为核心议题之一。透过这场大会可以看到，百度正凭借其在传统搜索领域积累的优质内容生态与技术底蕴，在提升AI生成内容可信度方面发挥引领作用，旨在帮助用户高效获取信息的同时，最大程度保障信息的准确。

与许多直接依赖训练数据生成答案的大模型不同，百度AI采用了一种“先筛选，再生成”的路径，致力于提供「完成式」答案。

这得益于百度在AI底层能力之上，叠加了双层智能体（Agent）架构——“组织生成Agent”与“需求规划Agent”。前者负责对来自不同信源、代表不同观点的内容进行筛选、校验与总结；后者则能推断并细粒度拆解用户的潜在需求，针对每个子需求获取多维度信息后再进行综合生成。

信源的质量参差不齐，直接导致输出结果天差地别。百度AI对接的信源，更多是百度百科、百度文库等在准确性和专业性上经过验证的内容库，这从源头提升了训练数据的质量。再叠加百度多年积累的溯源技术，能够确保生成答案中的关键事实，可以追溯到可验证的高质量原始信息，从而进一步降低了“AI幻觉”产生的概率。

例如，近期保健品领域因大V争论引发了关于“鱼油是否为智商税”的广泛讨论。通过百度AI询问该问题，得到的回答相对准确且具有辩证性：“鱼油是否为‘智商税’，取决于你购买的是经过科学验证的高纯度处方级产品，还是市场泛滥的虚假宣传劣质品”。

“组织生成Agent”确保了答案能直击要点，准确可靠；而“需求规划Agent”则能对问题进行多维度拓展，帮助用户获得更深层次、更立体的认知。

这种能力的背后，是百度深厚的内容积累，为AI纵深挖掘有效信息提供了坚实基础。果壳网的评测文章提及，经过20个问题的主观评测发现，在引用百科的AI结果中，包含的独立知识点数量平均增加了2.4个，观点的维度也从单一的现状描述，延伸到了历史渊源、社会影响及技术原理等多个方向。

参考了百科的AI答案

百度百科中关于磷酸盐过量摄入对儿童的危害的阐述

一个简单的例子是，针对今年3·15曝光的“食品保水剂”滥用问题，参考了百科词条的AI能够明确指出：长期大量摄入磷酸盐（保水剂主要成分），可能导致儿童发育迟缓和骨骼畸形，并依据百科内容进一步阐明其背后的科学原因。

说到底，AI回答的质量，根本上取决于它“吃”进去什么信源。而这，正是百度搜索架构设计的核心逻辑。在可靠、权威的信源与双层Agent的协同作用下，百度AI的答案得以更“准”，也更“好”。

AI答案的可信度，既是架构问题，也是治理问题

面对AI幻觉，用户的担忧正分化为两个层面：一是“为什么会出错”，二是“出了错有没有人管”。厘清前者，有助于从源头进行改善；而后者则直指内容治理——治理得当，同样能大幅减少偏离基本事实的概率，提升答案的准确性。

在内容治理层面，百度设置了“三道权威性过滤”机制。第一道是来源准入，只有来自权威专业领域、具备强时效性的信息源，才有资格进入候选池。例如，代表着内容产业权威性的百度百科，它不仅是百度内容生态的关键组成部分，也是其AI提升内容可信度所倚赖的核心信源。

百度百科长期实行严苛的内容准入机制：所有词条内容必须提供权威参考资料；自媒体/UGC内容不直接入库；所有内容均遵循“先审后发”原则，经过“机审+人审”双重流程；涉及特殊身份等信息，还需高级别审核员进行二次核验。

这种严格治理使得百度百科成为大模型对抗幻觉的关键武器。果壳网的对比测试显示，无百科参考时，AI关键事实偏离率为26.4%；接入百科后，这一数字降至4.1%以内。参考百科显著降低了AI的出错率。

第二道防线是多信源交叉验证。简单说，同一个结论必须得到至少多个可信来源的支撑，才会被AI采纳。

以前文提到的鱼油问题为例，其答案主要参考了《新英格兰医学杂志》（NEJM）、欧洲心脏病学会（ESC）与欧洲动脉粥样硬化学会（EAS）联合发布的《2025 ESC/EAS血脂异常管理指南（更新版）》，以及美国心脏协会（AHA）2022年仍具效力的立场声明等权威文献。这些信源均来自顶级学术机构，且保证了时效性。至于百家号、知乎专栏等内容，仅作为辅助性参考。