本次查询:幻觉率
中文解释:幻觉率
常见场景:在评估大模型可靠性 / 选择模型用于事实性任务(如客服 / 医疗问答 / 法律咨询)时使用幻觉率来对比不同模型或同一模型不同版本的性能。
一句话解释
幻觉率指大模型生成的回答中,包含无根据、与已知事实矛盾或凭空编造信息的比例。它是评估模型输出真实性的量化指标,通常由人工评估或自动化检测工具统计得出。
为什么会被关注
随着大模型在搜索、客服、内容生成等场景落地,用户发现模型常自信地输出错误答案。高幻觉率的模型可能误导医疗、法律等高风险决策,导致严重的信任危机。企业需在部署前量化此风险。
2023年以来,多家研究机构发布了幻觉率排行榜,促使行业把减少幻觉作为模型优化的核心方向。用户也会在对比服务时参考该指标,选择更可靠的应用。
核心逻辑
大模型本质上是基于概率的词序列预测器,而非事实数据库。当训练数据缺失或出现误导模式时,模型会“自由发挥”填充空白,产生看似合理但虚假的语句。
评测幻觉率通常构建一个包含事实判断的问答集(如基于维基百科),计算模型答错的条目占比。更精细的方法还区分“事实错误”“矛盾”“无依据”等子类型。
常见场景
在聊天机器人中,用户问询最新新闻或冷门知识时,模型常编造日期、人物或数据。例如询问“2024年诺贝尔文学奖得主”,模型可能给出正确获奖者但虚构了颁奖理由。
在代码生成中,模型推荐不存在的API函数或过时库版本;在文档摘要中,可能添加原文未提及的结论。企业做AI审计时会重点测试这些场景的幻觉率。
容易混淆的点
幻觉率 ≠ 错误率。错误率涵盖模型输出与标准答案的所有偏差,包括逻辑错误、格式问题;幻觉率特指模型凭空捏造信息,例如虚构人物、事件或数据。
低困惑度不代表低幻觉率。困惑度测的是模型预测的流畅度,而幻觉率衡量事实准确性。一个流畅的谎言仍然流畅,却可能产生高幻觉。评测时需分开看待。
