大模型如何应对幻觉问题学会表达不确定性更可靠

首页

热心网友

转载

2026-05-09

大模型的“幻觉”问题，如同一个无法忽视的挑战，始终困扰着人工智能的发展。近期一篇题为《幻觉损害信任；元认知是前进之路》的学术论文，为我们提供了全新的视角。它没有局限于技术层面的修补，而是深入探讨了问题的本质：我们可能从一开始就误解了“幻觉”的根源，也误解了解决它的正确方向。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

大模型幻觉为何难以彻底消除

为何根除大语言模型的幻觉如此困难？该论文从理论论证和实证研究两个维度给出了深刻的解释。从理论上看，前人的研究已通过停机问题和对角化论证表明，不存在一个通用的算法能验证所有陈述的真伪。更为关键的是，一个经过良好校准的模型，在生成那些“无法从已有知识中直接推导出的新事实”时，幻觉几乎是不可避免的副产品。另有研究证明，如果强行将幻觉率压制到某个阈值以下，模型的输出多样性会急剧衰减，陷入“模式崩溃”的困境。

这里需要明确一个核心概念：模型的校准度并不等同于其区分能力。想象一个模型对所有答案都给出60%的置信度，并且恰好有60%的答案是正确的——它的校准度堪称完美，但区分能力为零，因为它完全无法辨别答案的对错。真正要抑制幻觉，需要的是这种内在的区分对错的能力，而不仅仅是输出概率数值的准确。

[Figure 2: 校准与区分度的差异]左图模拟一个基础错误率25%的模型，SmoothECE 仅 0.014，校准极佳，但正确与错误答案在置信分布上高度重叠；右图展示“效用—错误”权衡曲线：在相同校准水平下，把幻觉率从25%降到5%，需要放弃52%的正确答案。

现有模型的区分能力缺口有多大

那么，当前主流大模型的区分能力究竟处于什么水平？论文综述了多项研究中使用置信度信号进行区分的性能指标——AUROC（受试者工作特征曲线下面积）。在现实世界的知识密集型问答任务中，这个数值普遍集中在0.70到0.85之间。例如，Farquhar等人在30个模型与任务组合上使用语义熵方法，平均AUROC为0.79；Savage等人在医疗问答任务中，GPT-4的上限也止步于0.79；而在更接近长尾事实场景的传记生成任务中，GPT-4o-mini的AUROC甚至只有0.68–0.72。

问题的关键在于，这个级别的区分能力，远不足以让我们摆脱“效用税”的困境。论文通过仿真实验说明，假设AUROC为0.71，若要将错误率从25%压到5%，就需要牺牲掉高达52%的正确答案。即便达到目前观测到的上限0.85，代价仍有约28%。只有当AUROC突破0.95，代价才会降至5%以下——而目前，在知识密集任务上，没有任何方法能达到这个水平。

[Figure 3: SimpleQA Verified 上的实证两难]多数前沿模型（Claude Opus 4、GPT-5、Gemini 2.5 Pro、o3 等）贴着对角线走，用高弃答率换事实性；“理想区域”的右上角几乎无人抵达，这正是区分鸿沟的可视化。

论文还将近期一系列看似矛盾的现象串联了起来：真实性探针难以泛化、“自信幻觉”的存在、试图将模型对齐到“主动坦白错误”的做法在幻觉问题上失效，以及一个有趣的现象——经过思维链推理增强的模型有时反而产生更多幻觉、更少弃答。这些线索都隐隐指向同一个根本原因：模型内部可能缺乏一个稳定、通用的机制来分辨自己何时是正确的，何时是错误的。

重新定义幻觉：从“任何错误”到“自信的错误”

既然在原理上彻底消灭幻觉如此艰难，我们是否走进了死胡同？论文提出了一个极具启发性的破局思路：重新审视并定义“幻觉”本身。

传统上，任何与事实不符的输出都被视为幻觉。但如果我们将幻觉重新定义为“缺乏恰当不确定性修饰的错误信息”——即“自信的错误”——那么局面便豁然开朗。在“强行回答（产生自信错误）”和“直接弃答（牺牲效用）”这两个极端之间，出现了第三条道路：诚实地表达不确定性。一个附加了“可能”、“据我所知”、“这需要进一步核实”等限定语的错误答案，就不再是破坏信任的“幻觉”，而只是一个有待检验的初步判断或合理假设。

论文将这种目标称为“忠实不确定性”：模型口头表达的“语言不确定性”必须与其内在的“统计不确定性”精确对齐。例如，如果模型内部的置信度只有0.6，它就不该使用“我90%确信”这样的措辞；反之，如果模型说“我很确定”，那么在重复询问时，它就应该大概率给出相同的答案。

关键在于，模型或许永远无法完全知道自己何时是错的，但它可以知道自己何时是不确定的。论文认为，这正是实现“忠实不确定性”目标在原理上可行的关键：它只要求模型的输出与其内部状态对齐，这是一个闭环的、可观测的问题，而不需要我们在复杂的模型激活空间中费力地寻找一个通用的“真实向量”。最终达成的结果，论文称之为“可靠的效用”——用与自身置信度相匹配的语气来传递信息，既不牺牲输出的丰富性和有用性，也不损害用户的长期信任。

[Figure 1: 跳出“有用性—事实性”两难]在传统视角下，任何错误都算幻觉，模型只能在“弃答（付出效用税）”与“硬答（产生自信错误、损害信任）”之间二选一；论文提出的第三条路是把语言表达对齐到模型的内在置信度。

图片

进入智能体时代，元认知能力至关重要

或许有人会想，随着工具调用和检索增强生成技术的普及，模型不知道的就去查询，知识边界问题不就解决了吗？论文对此持相反观点：外部工具不仅不会消解对“忠实不确定性”的需求，反而会放大它的重要性。

试想，如果模型无法感知自身的不确定性，它如何判断何时该调用工具？结果很可能是低效的过度调用（浪费计算与API资源）或危险的调用不足（错过关键信息）。当检索到的外部结果与模型的内部信念发生冲突时，一个缺乏元认知能力的模型也无从进行有效的权衡、评估与取舍。

论文借用了人类元认知中的两个核心过程：内省（评估自身知识状态的不确定性）和调控（根据评估结果调整后续行为）。这两点，恰恰是未来AI智能体在开放、动态的复杂环境中必须具备的动态决策与控制能力，而不能仅仅依赖当前那些静态的启发式规则或过度工程化的控制框架。

[Figure 4: 元认知作为 agent harness 的控制层]当模型具备元认知，它就能把自己的置信度当作 API 暴露给 harness：低置信时才去检索（效率），检索结果与内部先验冲突时表达怀疑（可靠）；没有它，harness 只能按查询类型的启发式做路由，相当于“盲飞”。

图片

未来研究面临的挑战

当然，实现“忠实不确定性”的道路充满挑战。论文为研究社区指出了几个必须攻克的核心难题。

首先是自举悖论：用于预训练的海量互联网语料中，自然表达怀疑和不确定性的文本极其稀少。要教会模型说“我不太确定”，通常需要监督微调。但SFT的标签是静态的，而“正确的不确定性”高度依赖模型在特定上下文下的内部动态状态。用静态标签去教导动态感知，很容易导致模型学会“虚假的不确定”（在确定时乱加修饰）或“虚假的自信”（在不确定时却言之凿凿）。

其次是对齐过程对不确定性信号的侵蚀。已有证据表明，预训练模型中存在的不确定性表征，在后训练阶段（如基于人类反馈的强化学习）可能被削弱。对齐技术有时会引入“寻峰行为”，导致对齐后的模型比其基础版本表现得更加过度自信。如何实现“保留并优化不确定性表征”的对齐，是一个关键研究方向。

第三是因果性评估的挑战。模型可能只是学会了表达不确定性的“语言风格模板”（例如，一遇到罕见实体就自动加上“可能”），而不是真正在感知并反映其内部置信状态。论文提到了概念注入、跨模型评估、策略性游戏等前沿评估方法，用以堵住这条评估漏洞。

对于直接从事幻觉抑制研究的工作，论文也给出了三条中肯的评估建议：展示完整的“效用-错误”权衡曲线，而非仅仅报告单一指标下的成绩；证明自己的工作是在推动性能前沿（即在固定错误率下获得更高效用），而不是沿着已有的权衡曲线滑动；评估技术的整体外溢影响，例如过度的拒答是否会损害模型在常识推理、代码生成或创意写作等其他核心能力上的表现。

[Figure 5: 给研究社区的建议]论文把建议归为两类：面向“元认知 LLM 与忠实不确定性”方向的开放问题，以及面向“直接缓解幻觉”工作的评估实践。

图片

信任可以建立在对不完美的诚实认知之上

论文的核心观点发人深省：我们信任一位专家，看重的往往不是他全知全能，而是他能清晰地区分“确凿结论”与“初步推断”，并在不确定时建议进一步求证。当大模型的输出变得越来越复杂和专业化，以至于用户越来越难以独立验证时，诚实地传达不确定性，就不再只是一种修辞技巧，而成为了保障可靠性与安全性的刚性需求。

不断扩展模型的知识边界固然重要，但在知识边界之外、无法单纯靠“知道更多”来解决的那部分认知不确定性，只能依靠模型忠实地说出“我不确定”来妥善应对。这或许是论文留给当前大模型发展浪潮最重要的启示：在追求让模型变得更有知识、更强大的同时，我们或许更应该思考，如何让它变得更值得信赖——而真正的信任，恰恰可以建立在对自身能力局限的诚实认知与透明沟通之上。

原文标题：Hallucinations Undermine Trust; Metacognition is a Way Forward

原文链接：https://arxiv.org/abs/2605.01428

来源:https://www.51cto.com/article/842620.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：ChatGPT代码隐藏规则揭秘哥布林话题为何被禁止下一篇：Niji模式教程如何用MJ生成动漫风格视频