大模型产生虚假信息时如何有效识别

时间：2026-06-18 16:23

牛津大学团队提出语义熵方法，通过比较回答的语义而非词句来测量大语言模型的不确定性，可准确预测幻觉并定位错误陈述。该方法无需任务特定数据，在GPT-4等模型上表现优异，已应用于医疗等领域。

当AI用无比流畅、自信十足的语句，说出一个完全错误的事实，我们该怎么分辨？是它“知道但不自信”，还是“根本就没搞懂自己在说什么”？这个问题，如今有了一个漂亮的新解法。 2024年6月，牛津大学团队在《自然》杂志上发表了一篇里程碑式的研究，标题就很有意思——《使用语义熵检测大语言模型中的幻觉》。共同第一作者包括Sebastian Farquhar、Jannik Kossen和Lorenz Kuhn，资深作者是Yarin Gal教授。这项研究的关键，不在于模型说了什么，而在于它“怎么说”。

一、什么是语义熵？

语义熵的核心思想相当巧妙：与其死盯着模型输出的文本，不如去测量它回答问题时的那份“底气”。传统方法检测幻觉，靠的是“熵”。原理很简单：如果同一个问题，模型生成多个答案，每个答案用的词句都五花八门、差别巨大（也就是高熵），那就说明它心里没底。但这个办法有个致命短板——如果模型用了不同的句子，说的却是同一个意思呢？比如“巴黎是法国首都”、“法国的首都是巴黎”和“Paris is the capital of France”。传统熵会被这些不同的词句迷惑，错误地判定为“不确定”。语义熵正是为解决这个问题而来。它不再比较词句，而是直接比较语义。具体来说，就是把所有意思相同的回答归入同一个“语义簇”，然后再计算模型生成不同“语义簇”的概率分布。研究团队开发了一套基于统计学的方法：将大语言模型产生的词元级概率，转化为“语义概率”——也就是在意义空间中的概率。而转化过程中用到的“翻译官”，恰恰就是大语言模型自己。原理直白：如果模型对同一个问题反复生成语义上完全不同的答案（高语义熵），那它大概率在胡编，也就是“心里没底”；反过来，如果每次生成的答案语义高度一致（低语义熵），说明它对这部分知识“胸有成竹”。研究团队把这类问题专门定义为“confabulations”——模型每次被问到同一问题时，给出不同答案的任意且错误的生成。

二、语义熵能做什么？

牛津团队的研究表明，语义熵可以准确预测模型的“胡编乱造”，然后通过直接拒绝回答那些它没把握的问题，大幅提升整体问答的准确率。这套方法有几个极其突出的优势： - **无需任务特定数据**：不像传统那些方法，每换一个任务就要重新训练或调整模型。 - **鲁棒地泛化到未见过的任务**：在之前从未见过的全新任务上，同样有效。 - **适用于多种数据类型**：从Google搜索问答、技术生物医学问题，到数学文字题，通吃。团队在包括GPT-4和LLaMA 2在内的六个开源大模型上进行了测试。结果没有悬念：在所有测试集上，语义熵的表现都显著优于之前的所有方法。更厉害的是，它还能做到“句级”精准定位。研究团队展示了如何用语义熵识别ChatGPT生成的短篇传记中，那些可能不正确的具体陈述——把长答案拆成一个个小事实，然后逐个评估其语义不确定性。医疗领域的探索已经跟上来了。2025年的一项研究，使用英国皇家妇产科学院MRCOG考试的数据集，验证了语义熵在妇产科AI生成内容中检测幻觉的能力。另一项研究则提出了Vision-Amplified Semantic Entropy（VASE），通过引入弱图像变换来增强视觉输入的影响，改善医学视觉问答中的幻觉检测。 Yarin Gal教授的评价一针见血：“从大模型获取答案很便宜，但可靠性才是最大的瓶颈。在那些可靠性至关重要的场景里，计算语义不确定性，是值得付出的代价。”

三、后续发展与局限

自2024年发表以来，这条技术路线一直在快速演进。 2025年，研究者提出了将语义熵与成对语义相似性结合的方法，增强了传统熵估计。另一项研究则提出了基于热力学的语义熵产生（SEP）指标，发现高忠实度通常意味着低熵产生。 2026年，进展更让人眼前一亮。有团队提出了自适应贝叶斯估计框架，通过引导语义探索来高效估计语义熵，解决了固定采样预算无法适应查询复杂度的问题——这项成果已经被AAAI 2026接收为口头报告，录取率不到5%。还有一项名为BEACON（Beha vioral Entropy Aggregation for Cross-model hallucination detectiON）的研究，这是一个完全黑盒的幻觉检测框架，仅仅基于模型输出就能操作，不需要访问模型内部的任何参数或外部知识库。使用语义熵作为幻觉评估指标，基本消除了由异质表达引起的分数差异，把检测精度提升到了接近人工标注的水平。当然，任何方法都有边界。在医学视觉语言模型中，语义熵因为模型对强语言先验的过度自信，表现并不总是可靠。另外，它的计算需要多次采样，成本可能是直接使用生成模型的数倍——但在那些“一步错可能步步错”的高风险场景里，这笔账算下来还是划算的。

四、结语

语义熵最大的实用价值，在于它把AI的“不确定性”变成了一个可测量、可计算、可干预的指标。在医疗问答、法律咨询、金融分析这类高风险场景里，知道AI“不知道什么”，有时候比知道AI“知道什么”更为关键。正如Farquhar博士所说：“我们的方法本质上是在意义空间中估计概率，即‘语义概率’。吸引人之处在于，它利用大语言模型自己完成这种转换。” *参考文献：Farquhar, S., Kossen, J., Kuhn, L. & Gal, Y. (2024). Detecting hallucinations in large language models using semantic entropy. Nature, 630(8017), 625-630。*

来源：https://cloud.tencent.com.cn/developer/article/2692028

大模型