模型90%置信度声称，实际可信度有多高？

时间：2026-06-18 16:24

苹果公司研究发现，基础大语言模型在开放域问答中展现出语义校准能力，能评估自身置信度，但指令微调与思维链推理会系统性破坏这一能力，导致过度自信。这一悖论警示，提升模型实用性的技术可能削弱其承认无知的能力。

大语言模型置信度校准的深度解析——AI的“自知之明”从何而来？

如果一个模型预测胜率60%的比赛实际只赢了40%，那它的“自信”就是虚假的。这种能力缺失，正是当前大语言模型面临的核心校准难题。

2025年12月5日，苹果公司研究团队（Preetum Nakkiran、Arwen Bradley、Adam Goliński等）发布了一项重要成果——《基于词元训练，基于概念校准：大语言模型中语义校准的涌现》。该研究揭示了一个核心发现：基础大语言模型在开放域问答任务中，意外地展现出良好的语义校准能力——它们能够对自身回答的置信度做出有意义的评估，即便从未被明确训练去做这件事。这一发现为理解AI模型如何“知道自己不知道”提供了全新视角。

一、语义校准：大语言模型置信度评估的关键概念

在传统分类任务中，校准的定义非常直观：若模型对一组输入给出80%的置信度，那么这组输入中应有约80%被正确分类。但对于大语言模型，情况复杂得多。当模型生成“巴黎是法国的首都”这样的完整回答时，如何赋予它一个“置信度”？词元级别的概率（如每个词被预测的概率）难以直接映射为整个回答的语义置信度。举一个例子：若问LLM“法国的首都是什么？”，模型可能回答“巴黎”、“是巴黎”或“法国的首都是巴黎”——词元级概率无法清晰推导出对回答整体的置信度。

苹果团队注意到一个有趣现象：基础LLM实际上具备一种“涌现”能力——它们能够评估自己对开放问题的置信度，这种能力是“下一词元预测”训练过程的副产品。研究团队提出了一套理论机制来解释这一现象：通过将校准与局部损失最优性关联，并基于语义扰动类定义广义校准概念。该理论还产生了一个可验证的预测：当基础LLM能在生成回答前轻松预测自己在语义答案类别上的分布时，它们就会表现出语义校准。

苹果团队指出，据其所知，这是首个对LLM中语义校准何时以及为何涌现提供原则性解释的研究工作。

二、三大关键发现：校准能力的涌现与破坏

苹果团队通过实验验证了理论预测的三个核心推论：

发现一：基础LLM在问答任务中具备语义校准能力。 换言之，未经指令微调的预训练模型，虽然“对话能力”不如微调版本，但在“知晓自身局限”方面反而表现更优。这种“自知之明”是模型内部机制的自然产物。

发现二：RL指令微调会系统性破坏校准能力。 这意味着我们日常使用的、经过指令微调的对话模型，可能比基础模型更易陷入“过度自信”。我们越努力“调教”模型使其更符合用户预期，反而越可能削弱其承认错误的能力。

发现三：思维链推理同样会破坏校准。 让模型“逐步思考”虽然能提升答案质量，却可能使其对错误答案更加自信。这一发现引发了对当前主流推理范式的反思。

这三个发现揭示出一个深刻悖论：那些旨在让AI变得更“有用”的主流技术，恰恰在削弱它“承认无知”的能力。模型性能的提升与校准能力的下降，成为亟待解决的矛盾。

三、更广泛的校准危机：大语言模型的系统性过度自信

苹果公司的发现并非孤例。越来越多研究揭示了大语言模型的系统性过度自信问题。FermiEval基准测试表明：LLM在构建自身答案的置信区间时，表现出系统性过度自信。名义99%的置信区间，实际覆盖真实答案的比例平均仅为65%。这意味着模型声称“99%确定”的事情，实际上只有约三分之二的概率正确。

一项2026年2月发表的研究更揭示了令人震惊的校准差异：

Kimi K2表现出严重过度自信，期望校准误差（ECE）高达0.726，尽管准确率仅为23.3%
Claude Haiku 4.5实现了最佳校准（ECE=0.122），准确率为75.4%

研究指出：表现较差的模型往往表现出更高的过度自信——这种现象类似于人类认知中的达克效应：越“笨”的模型，越“不知道自己笨”。

在医学领域，一项发表于《npj Gut and Liver》的研究评估了48个大语言模型在300道胃肠病学委员会考试选择题上的表现，发现：无论准确率高低，所有模型在自我置信度估计方面均表现不佳。即使最佳校准的系统也显示出显著的过度自信（Brier分数0.15-0.2）。

2026年的另一项研究进一步发现，思维链推理预算的增加会系统性损害校准——分配更多推理时间让模型进行更长的思维链，反而让模型对错误答案更加自信。这直接挑战了“测试时扩展”（test-time scaling）这一主流范式。

四、校准为何至关重要？

大语言模型正越来越多地部署于高风险决策场景——从医疗诊断到金融风控。在这些领域，能够判断何时信任模型输出、何时应移交人类判断，变得极为关键。苹果团队的研究进一步指出，经过校准微调的模型在多种问答任务上展现出优越的校准性能，且不影响准确性。

研究者已开始探索补救方案。2026年的一项研究提出探针条件化头部干预（Probe-Conditioned Head Intervention）方法，可有选择地减少口头表达的过度自信，同时保护正确回答上的合理自信。另一项研究则通过基于提取式依据的方法，将LLM的过度自信降低了高达26%，且无需重新训练。这些技术为构建更可信的AI系统提供了可行路径。

五、结语：AI的诚实比聪明更重要

苹果公司的研究揭示了一个耐人寻味的悖论：我们越努力“训练”AI使其变得有用，它反而可能越不懂得承认自己的无知。语义校准的研究提醒我们：在追求AI“更聪明”的同时，也应追求AI“更诚实”。一个知道自身局限的AI，远比一个盲目自信的AI更值得信赖。

正如研究者在论文开篇所问的：“LLM‘知道自己不知道什么’吗？”——这个问题至今没有令人满意的答案，但至少我们现在有了更好的工具去追问它。

参考文献：Nakkiran, P., Bradley, A., Goliński, A., Ndiaye, E., Kirchhof, M. & Williamson, S. (2025). Trained on Tokens, Calibrated on Concepts: The Emergence of Semantic Calibration in LLMs. Apple。Epstein, E.L. et al. (2025). LLMs are Overconfident: Evaluating Confidence Interval Calibration with FermiEval。

来源：https://cloud.tencent.com.cn/developer/article/2692032

其他

上一篇托盘注塑车间数字孪生平台量化指标与误差控制规范 下一篇智慧农业灌区数字孪生平台量化指标与误差控制规范

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

AI教程 · 2026-06-29

Windows Docker Desktop RabbitMQ生产级部署完整指南

前言在 Windows 本地开发环境中，直接安装 RabbitMQ 确实颇为周折：需要单独配置 Erlang 运行环境、手动管理环境变量、服务启停全凭手工操作。更令人困扰的是，版本兼容冲突、端口占用、环境不一致等问题层出不穷。笔者见过不少开发者为搭建环境就得耗费整整半天时间。相比之下，借助 Do

AI教程 · 2026-06-29

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践

先分享一个切实感受。过去两年，我们与福建制造企业合作较为频繁，发现一个非常突出的现象：超过80%的企业官网，产品参数仍然存放在PDF或图片中。AI爬虫？根本无法抓取。这些企业技术实力不弱、资质证照齐全、应用案例也丰富，但在AI搜索这一全新战场上，它们几乎处于隐身状态。一、一个正在发生的行业变化 A

AI教程 · 2026-06-29

阿里云Token Plan团队版功能价格与省钱购买指南

阿里云百炼近期推出了名为“Token Plan 团队版”的全新服务，这一服务专为企业与开发者量身打造，定位为AI大模型订阅平台。通过引入Credits作为统一计量单位，将文本生成、图像生成等多模态AI能力纳入单一计费体系，同时无缝兼容主流AI编程工具及智能体（Agent）生态系统。其核心亮点包括：全

AI教程 · 2026-06-29

阿里云物联网.NET Core客户端位置信息上报

阿里云物联网平台的位置服务并非一个完全独立的功能模块。位置信息可包含二维坐标与三维坐标，而位置数据的来源本质上是借助设备属性进行上传。换言之，若要让设备上报位置，您需先将其视为一个普通属性进行处理。 1）添加二维位置数据操作过程十分简洁。进入数据分析 → 空间数据可视化 → 二维数据，点击添加，将

AI教程 · 2026-06-29

年阿里云服务器选型配置与网站部署全攻略

2026年，阿里云服务器生态已高度成熟，形成了清晰的轻量应用服务器与ECS云服务器两大产品阵营。无论你是计划搭建个人博客、企业官网，还是运营电商平台、进行应用开发，基本都能找到理想的解决方案。本指南将从服务器选型、配置选择、部署流程到安全运维，系统梳理2026年最实用的操作要点，帮助你少走弯路，让网

模型90%置信度声称，实际可信度有多高？

大语言模型置信度校准的深度解析——AI的“自知之明”从何而来？

一、语义校准：大语言模型置信度评估的关键概念

二、三大关键发现：校准能力的涌现与破坏

三、更广泛的校准危机：大语言模型的系统性过度自信

四、校准为何至关重要？

五、结语：AI的诚实比聪明更重要

相关推荐

同类最新

Windows Docker Desktop RabbitMQ生产级部署完整指南

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践

阿里云Token Plan团队版功能价格与省钱购买指南

阿里云物联网.NET Core客户端位置信息上报

年阿里云服务器选型配置与网站部署全攻略