游乐游手机版
首页/AI教程/文章详情

模型90%置信度声称,实际可信度有多高?

时间:2026-06-18 16:24
苹果公司研究发现,基础大语言模型在开放域问答中展现出语义校准能力,能评估自身置信度,但指令微调与思维链推理会系统性破坏这一能力,导致过度自信。这一悖论警示,提升模型实用性的技术可能削弱其承认无知的能力。

大语言模型置信度校准的深度解析——AI的“自知之明”从何而来?

如果一个模型预测胜率60%的比赛实际只赢了40%,那它的“自信”就是虚假的。这种能力缺失,正是当前大语言模型面临的核心校准难题。

2025年12月5日,苹果公司研究团队(Preetum Nakkiran、Arwen Bradley、Adam Goliński等)发布了一项重要成果——《基于词元训练,基于概念校准:大语言模型中语义校准的涌现》。该研究揭示了一个核心发现:基础大语言模型在开放域问答任务中,意外地展现出良好的语义校准能力——它们能够对自身回答的置信度做出有意义的评估,即便从未被明确训练去做这件事。这一发现为理解AI模型如何“知道自己不知道”提供了全新视角。

一、语义校准:大语言模型置信度评估的关键概念

在传统分类任务中,校准的定义非常直观:若模型对一组输入给出80%的置信度,那么这组输入中应有约80%被正确分类。但对于大语言模型,情况复杂得多。当模型生成“巴黎是法国的首都”这样的完整回答时,如何赋予它一个“置信度”?词元级别的概率(如每个词被预测的概率)难以直接映射为整个回答的语义置信度。举一个例子:若问LLM“法国的首都是什么?”,模型可能回答“巴黎”、“是巴黎”或“法国的首都是巴黎”——词元级概率无法清晰推导出对回答整体的置信度。

苹果团队注意到一个有趣现象:基础LLM实际上具备一种“涌现”能力——它们能够评估自己对开放问题的置信度,这种能力是“下一词元预测”训练过程的副产品。研究团队提出了一套理论机制来解释这一现象:通过将校准与局部损失最优性关联,并基于语义扰动类定义广义校准概念。该理论还产生了一个可验证的预测:当基础LLM能在生成回答前轻松预测自己在语义答案类别上的分布时,它们就会表现出语义校准。

苹果团队指出,据其所知,这是首个对LLM中语义校准何时以及为何涌现提供原则性解释的研究工作。

二、三大关键发现:校准能力的涌现与破坏

苹果团队通过实验验证了理论预测的三个核心推论:

发现一:基础LLM在问答任务中具备语义校准能力。 换言之,未经指令微调的预训练模型,虽然“对话能力”不如微调版本,但在“知晓自身局限”方面反而表现更优。这种“自知之明”是模型内部机制的自然产物。

发现二:RL指令微调会系统性破坏校准能力。 这意味着我们日常使用的、经过指令微调的对话模型,可能比基础模型更易陷入“过度自信”。我们越努力“调教”模型使其更符合用户预期,反而越可能削弱其承认错误的能力。

发现三:思维链推理同样会破坏校准。 让模型“逐步思考”虽然能提升答案质量,却可能使其对错误答案更加自信。这一发现引发了对当前主流推理范式的反思。

这三个发现揭示出一个深刻悖论:那些旨在让AI变得更“有用”的主流技术,恰恰在削弱它“承认无知”的能力。模型性能的提升与校准能力的下降,成为亟待解决的矛盾。

三、更广泛的校准危机:大语言模型的系统性过度自信

苹果公司的发现并非孤例。越来越多研究揭示了大语言模型的系统性过度自信问题。FermiEval基准测试表明:LLM在构建自身答案的置信区间时,表现出系统性过度自信。名义99%的置信区间,实际覆盖真实答案的比例平均仅为65%。这意味着模型声称“99%确定”的事情,实际上只有约三分之二的概率正确。

一项2026年2月发表的研究更揭示了令人震惊的校准差异:

  • Kimi K2表现出严重过度自信,期望校准误差(ECE)高达0.726,尽管准确率仅为23.3%
  • Claude Haiku 4.5实现了最佳校准(ECE=0.122),准确率为75.4%

研究指出:表现较差的模型往往表现出更高的过度自信——这种现象类似于人类认知中的达克效应:越“笨”的模型,越“不知道自己笨”。

在医学领域,一项发表于《npj Gut and Liver》的研究评估了48个大语言模型在300道胃肠病学委员会考试选择题上的表现,发现:无论准确率高低,所有模型在自我置信度估计方面均表现不佳。即使最佳校准的系统也显示出显著的过度自信(Brier分数0.15-0.2)。

2026年的另一项研究进一步发现,思维链推理预算的增加会系统性损害校准——分配更多推理时间让模型进行更长的思维链,反而让模型对错误答案更加自信。这直接挑战了“测试时扩展”(test-time scaling)这一主流范式。

四、校准为何至关重要?

大语言模型正越来越多地部署于高风险决策场景——从医疗诊断到金融风控。在这些领域,能够判断何时信任模型输出、何时应移交人类判断,变得极为关键。苹果团队的研究进一步指出,经过校准微调的模型在多种问答任务上展现出优越的校准性能,且不影响准确性。

研究者已开始探索补救方案。2026年的一项研究提出探针条件化头部干预(Probe-Conditioned Head Intervention)方法,可有选择地减少口头表达的过度自信,同时保护正确回答上的合理自信。另一项研究则通过基于提取式依据的方法,将LLM的过度自信降低了高达26%,且无需重新训练。这些技术为构建更可信的AI系统提供了可行路径。

五、结语:AI的诚实比聪明更重要

苹果公司的研究揭示了一个耐人寻味的悖论:我们越努力“训练”AI使其变得有用,它反而可能越不懂得承认自己的无知。语义校准的研究提醒我们:在追求AI“更聪明”的同时,也应追求AI“更诚实”。一个知道自身局限的AI,远比一个盲目自信的AI更值得信赖。

正如研究者在论文开篇所问的:“LLM‘知道自己不知道什么’吗?”——这个问题至今没有令人满意的答案,但至少我们现在有了更好的工具去追问它。

参考文献:Nakkiran, P., Bradley, A., Goliński, A., Ndiaye, E., Kirchhof, M. & Williamson, S. (2025). Trained on Tokens, Calibrated on Concepts: The Emergence of Semantic Calibration in LLMs. Apple。Epstein, E.L. et al. (2025). LLMs are Overconfident: Evaluating Confidence Interval Calibration with FermiEval。

来源:https://cloud.tencent.com.cn/developer/article/2692032
上一篇托盘注塑车间数字孪生平台量化指标与误差控制规范 下一篇智慧农业灌区数字孪生平台量化指标与误差控制规范
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
Windows Docker Desktop RabbitMQ生产级部署完整指南
AI教程 · 2026-06-29

Windows Docker Desktop RabbitMQ生产级部署完整指南

前言 在 Windows 本地开发环境中,直接安装 RabbitMQ 确实颇为周折:需要单独配置 Erlang 运行环境、手动管理环境变量、服务启停全凭手工操作。更令人困扰的是,版本兼容冲突、端口占用、环境不一致等问题层出不穷。笔者见过不少开发者为搭建环境就得耗费整整半天时间。 相比之下,借助 Do

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践
AI教程 · 2026-06-29

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践

先分享一个切实感受。过去两年,我们与福建制造企业合作较为频繁,发现一个非常突出的现象:超过80%的企业官网,产品参数仍然存放在PDF或图片中。AI爬虫?根本无法抓取。这些企业技术实力不弱、资质证照齐全、应用案例也丰富,但在AI搜索这一全新战场上,它们几乎处于隐身状态。 一、一个正在发生的行业变化 A

阿里云Token Plan团队版功能价格与省钱购买指南
AI教程 · 2026-06-29

阿里云Token Plan团队版功能价格与省钱购买指南

阿里云百炼近期推出了名为“Token Plan 团队版”的全新服务,这一服务专为企业与开发者量身打造,定位为AI大模型订阅平台。通过引入Credits作为统一计量单位,将文本生成、图像生成等多模态AI能力纳入单一计费体系,同时无缝兼容主流AI编程工具及智能体(Agent)生态系统。其核心亮点包括:全

阿里云物联网.NET Core客户端位置信息上报
AI教程 · 2026-06-29

阿里云物联网.NET Core客户端位置信息上报

阿里云物联网平台的位置服务并非一个完全独立的功能模块。位置信息可包含二维坐标与三维坐标,而位置数据的来源本质上是借助设备属性进行上传。换言之,若要让设备上报位置,您需先将其视为一个普通属性进行处理。 1)添加二维位置数据 操作过程十分简洁。进入数据分析 → 空间数据可视化 → 二维数据,点击添加,将

年阿里云服务器选型配置与网站部署全攻略
AI教程 · 2026-06-29

年阿里云服务器选型配置与网站部署全攻略

2026年,阿里云服务器生态已高度成熟,形成了清晰的轻量应用服务器与ECS云服务器两大产品阵营。无论你是计划搭建个人博客、企业官网,还是运营电商平台、进行应用开发,基本都能找到理想的解决方案。本指南将从服务器选型、配置选择、部署流程到安全运维,系统梳理2026年最实用的操作要点,帮助你少走弯路,让网