德国癌症研究中心揭示医学AI不确定性估计普遍误用

时间：2026-05-30 16:02

```html 这份最新发表的研究成果，由法国斯特拉斯堡大学、德国癌症研究中心等机构的国际团队共同完成，2026年5月18日以预印本形式在arXiv上公开，编号为arXiv:2605 18329v1。核心议题非常务实：医学AI系统究竟该如何向医生准确传达“这个结果我不确定”？坦白说，这个问题比表面看

```html

这份最新发表的研究成果，由法国斯特拉斯堡大学、德国癌症研究中心等机构的国际团队共同完成，2026年5月18日以预印本形式在arXiv上公开，编号为arXiv:2605.18329v1。核心议题非常务实：医学AI系统究竟该如何向医生准确传达“这个结果我不确定”？

坦白说，这个问题比表面看起来重要得多。当一套AI算法在分析CT图像、勾勒肿瘤边界或描绘器官轮廓时，它不仅需要给出最终答案，还应具备这样的能力：“这个区域我有把握”或“这个地方我拿不准”。这种“自我评估”的能力，在医学界被称为不确定性估计，它直接决定了AI系统能否安全地应用于临床决策。例如，自动筛选哪些病例需要人工复核，或判断哪些患者的分割结果可以直接采纳。

然而，研究团队在系统梳理2020年至2025年间大量医学图像分割论文后，发现了一个令人担忧的现象：许多论文声称采用“深度集成”方法评估AI的不确定性，但实际上使用的却是截然不同的技术——“交叉验证集成”。两种方法表面上都是将多个模型的预测结果进行综合，但内在逻辑差异巨大，对不确定性的刻画方式也完全不同。把一种当作另一种使用，无异于用体温计测量血压——读数可能不为零，但你测量的根本不是你想要的东西。

一、多个AI模型协同工作，究竟有何本质区别

要理解这一问题，首先需要明确为何要使用多个模型协作。在医学图像分割领域，单个AI模型就像一位独立诊断的医生。这位医生可能经验丰富，但难免存在盲区。如果让五位医生同时查看同一张影像，再观察他们意见的吻合程度，就能大致判断该病例的难度以及诊断的可靠程度。意见高度一致，说明答案明确；分歧明显，则表明该病例存在模糊性，需要更加审慎。

这就是集成学习的基本思想。在AI领域，将多个模型的预测结果结合起来，不仅能提升最终预测的准确性，还能通过模型间的“意见分歧”来度量系统的不确定性。分歧越大，说明AI越没有把握。

问题在于，训练这些多个模型的方式，会从根本上影响它们之间的“分歧”究竟代表什么含义。

深度集成的做法是：使用同一份完整的训练数据，训练多个结构相同的模型，每个模型的唯一区别在于随机初始化起点不同。这好比将同一份菜谱交给五位厨师，每位厨师的烹饪路线略有不同，但所用食材完全相同。这样训练出的五个模型，它们之间的分歧纯粹反映“在见过相同数据的情况下，模型本身对答案的不确定性”——这才是真正意义上的认知不确定性，衡量的是模型知识边界的大小。

交叉验证集成的做法则完全不同：它将整个训练数据集分成五份，每次用其中四份训练、一份验证，循环五次得到五个模型。也就是说，每个模型看到的数据都不一样——如同五位厨师每人只拿到了菜谱的百分之八十，但缺失的那一页各不相同。这样训练出的五个模型之间的分歧，不仅来自模型本身的不确定性，还包括各自“没见过”的那部分数据造成的知识缺口。两种来源的分歧混杂在一起，就很难单纯地将这种分歧解读为“AI对这个问题有多不确定”。

在著名的医学图像分割框架nnU-Net中，默认训练流程正是五折交叉验证，并且这些交叉验证模型在推理时会被组合使用以提升分割精度。这本身是很好的工程设计。但问题在于，许多研究者直接拿这个交叉验证集成当作深度集成来分析不确定性，并在论文中标注“我们使用了深度集成方法”。研究团队将这种现象称为“术语与实践之间的错位”。

二、这种误用有多普遍——一份引人深思的统计

研究团队系统梳理了2020至2025年间医学图像分割领域的不确定性研究，逐篇核查每篇论文声称的方法与实际实现是否一致。结果令人震惊。

在他们审查的论文中，相当多的研究明确声称使用了“深度集成”，但实际采用的是五折或十折交叉验证集成，各模型的训练集并不相同。被点名的研究覆盖了脑肿瘤MRI分割、多器官CT分割、头颈部危及器官自动勾画、病理切片全景扫描、多数据集CT与MRI混合分割、心脏MRI分割等多个临床场景，涉及多家知名机构发表的工作。只有少数几项研究做到了真正的深度集成——在完全相同的训练数据上使用不同随机种子独立训练多个模型，并在论文中如实描述。此外，也有一些研究诚实地称自己使用的是交叉验证集成，并未误称为深度集成，这类研究在术语使用上是准确的，尽管训练集仍然不同。

这种系统性的术语混用并非小问题。它不仅仅是写错了一个词，而是影响了整个研究结论的有效解读——因为不同的集成方法所测量的含义不同、适用的任务也不同。用错了工具，所得出的建议就可能将医疗系统引向错误方向。

三、实验设计：在同一条件下正面比较两种方案

为了明确两种集成方式在实际应用中的具体差异，研究团队设计了一组严格的对比实验。核心原则是：除集成构建方式不同外，其他所有条件完全一致，这样观察到的差异只能归因于集成方式本身。

实验使用了三个多标注者医学图像分割数据集，覆盖三种不同的成像模态。第一个数据集GoldAtlas包含19个盆腔区域的T2加权MRI三维扫描，每个病例由五位专家独立标注了九种器官结构，共识标准为专家手工综合。第二个数据集CURVAS包含89个腹部CT三维扫描，由三位标注者分别标注胰腺、肝脏和肾脏，共识通过STAPLE算法生成。第三个数据集RIGA包含749张视网膜眼底彩色图像，由六位眼科医生独立标注视盘和视杯边界，共识通过多数投票产生。三个数据集在成像维度（2D与3D）、器官类型、标注人数和共识生成方式上各有不同，能够较全面地反映真实临床场景的多样性。

模型架构统一采用nnU-Net v2.4.1框架的全分辨率配置，搭配ResEncM预设参数。两种集成方式的训练过程完全一致：固定训练轮数、固定学习率调度、不进行早停、不根据验证集表现调整超参数，最终检查点用于推理。唯一区别在于：交叉验证集成按照nnU-Net默认的五折方式分割数据，每个模型见到不同的80%训练数据；深度集成则让五个模型都使用全部可用训练数据，唯一不同是随机初始化种子。

为防止数据泄露——即同一图像的不同标注者版本同时出现在训练集和验证集——数据划分时按图像身份分组，确保同一张图的所有标注要么全在训练集，要么全在验证集。

此外，实验还专门设计了分布外评估，以模拟真实临床中常见的“数据漂移”场景：对于CURVAS，将含有改变器官轮廓的囊肿病变的23个病例作为分布外测试集；对于RIGA，将来自Magrabi眼科中心的95张图像作为分布外测试集，代表采集中心和患者群体的变化；对于GoldAtlas，将来自第三采集地点的4个患者作为分布外测试集。

不确定性的评估维度涵盖四个方面：校准性、歧义建模、失败检测以及分布偏移鲁棒性。

四、测量工具：用什么指标来衡量不确定性质量

衡量不确定性估计的质量并不像比较分割精度那样直观，研究团队使用了几套专门的评估指标。

校准性的核心问题是：当AI表示“我有90%的把握这个像素属于肝脏”时，实际上它有多大比例是正确的？如果AI总是信心满满但频繁出错，说明其校准性很差。研究团队采用平均校准误差和边界感知期望校准误差两个指标来衡量。前者是最常用的校准标准，后者则特别关注分割边界附近的校准质量——因为边界区域往往是最难分割、最容易出错的地方，也是临床最关注的区域。两个指标均为越低越好。

歧义建模衡量的是：标注者之间争议最大的区域，AI是否也表现出更大的不确定性？这用两个指标评估。归一化互相关衡量AI的预测熵图与标注者方差图之间的相关性，越高越好。广义能量距离则直接比较各AI模型的预测与各标注者的标注之间的分布差异，越低越好。

失败检测的核心逻辑是：按照AI自报的不确定程度对病例排序，不确定性高的优先转介给人工审核，随着覆盖率下降，保留的病例平均风险应越低越好。这通过转诊曲线下面积（AURC）来量化，数值越低说明失败检测能力越强。结果通过非参数自举法生成置信区间，以判断两种方法的差异是否具有统计显著性。

五、实验结果：两种方案的实际表现差异

在分割精度上，两种集成方式几乎不相上下。三个数据集的Dice分数差异很小：在GoldAtlas上深度集成的均值略高（85.2 vs 84.6），在CURVAS上也略高（93.6 vs 93.5），在RIGA上深度集成的差异达到统计显著性但数值仍非常接近（93.2 vs 93.1）。换句话说，无论采用哪种方式集成模型，最终分割结果几乎没有区别——两种方案都能提供高质量的分割。这一点非常重要，因为它意味着使用深度集成并不会带来性能损失，使两者的比较更加公平。

在校准性上，深度集成全面领先，且差异十分显著。以平均校准误差为例，在GoldAtlas上，深度集成的均值为16.7，交叉验证集成为19.3，差异在统计上高度显著；在CURVAS上分别为18.3和19.6，差异显著；在RIGA上分别为17.9和19.9，差异高度显著。边界感知期望校准误差的结果与此一致，三个数据集上深度集成均显著优于交叉验证集成。从每个病例单独来看，深度集成在大多数病例上的校准误差都比交叉验证集成低，整体分布朝更好方向移动。

在失败检测上，深度集成同样表现更优。转诊曲线直观地呈现了这一点：在相同覆盖率下，深度集成指引下保留的病例平均风险更低，意味着它更准确地将真正表现差的病例排到了需要人工审核的序列前面。AURC数值上，深度集成在三个数据集上均优于或持平于交叉验证集成，其中在CURVAS上的优势达到统计显著性。

然而，在歧义建模上，结果出现了反转。在CURVAS数据集上，交叉验证集成的归一化互相关显著高于深度集成（50.3 vs 49.2），差异高度显著。在RIGA数据集上，交叉验证集成的归一化互相关也明显更高（73.7 vs 72.9），广义能量距离也更低（8.2 vs 8.6），均达到统计显著性。这一发现颇有意思：交叉验证集成由于每个模型见过的数据不同，其分歧中混入了数据暴露不均匀带来的变异，而这种变异在某种程度上恰好与标注者之间的主观分歧吻合——因为标注者间争议最大的区域，往往也是训练数据覆盖较少、模型更容易产生数据驱动分歧的地方。GoldAtlas数据集上两者差异不显著，可能与该数据集样本量较小有关。

在分布偏移鲁棒性上，两种方法的差异总体较小，没有哪一种在所有数据集和指标上都占据压倒性优势。在CURVAS的分布外子集上，深度集成在校准指标上的优势延伸到了分布外数据，差异达到统计显著性；但在RIGA的分布外子集上，AURC指标的差异方向发生了逆转且置信区间较宽。总体来看，两种集成方式面对分布偏移时的鲁棒性大致相当，无法判断哪种方案在分布外场景下系统性地更优。

六、这意味着什么——针对不同任务的选择建议

研究团队根据实验结果，给出了清晰且实用的任务导向建议。核心逻辑是：集成的构建方式应与使用目的相匹配，而非一刀切地选择某一种。

当研究目标是校准性——即希望AI给出的置信度能准确反映实际表现——深度集成是更优选择，因为它的不确定性纯粹来自模型参数的认知不确定性，不受数据暴露不均匀的干扰，给出的置信评分更可靠。

当研究目标是失败检测——即希望利用不确定性自动筛选出需要人工复核的病例，实现“选择性转介”——深度集成同样更合适，原因相同：它的高不确定性更准确地对应着模型真正表现差的病例，而非因缺少某些训练样本而产生的假性高不确定性。

当研究目标是歧义建模——即希望AI的不确定程度能反映医学标注本身的模糊性，例如在多标注者分歧区域产生更高不确定性——交叉验证集成在某些数据集上反而表现更好。这一发现可以解释为：数据子集间的差异，部分地模拟了标注模糊性所带来的效应，使交叉验证集成的分歧与人类标注者的分歧产生了偶然的相关性。

在分布偏移鲁棒性方面，两者差异不大，均可使用。

研究团队特别指出，在实际工作中，深度集成会带来额外的计算成本：交叉验证模型在nnU-Net的默认训练流程中是自动产生的，而深度集成需要额外独立训练五个使用全量数据的模型，不能与交叉验证模型共享。但如果研究目标是可靠性导向的——比如自动质控、失败检测、选择性转介——这个额外成本是值得的。

为降低使用门槛，研究团队还提供了一个对nnU-Net框架的轻量级修改，使用户能够在默认流程内便捷地启用深度集成训练，代码已在GitHub公开发布。

归根结底，这项研究传递的核心信息是：在医学AI的不确定性估计领域，工具的名称和工具的本质同样重要，甚至更为关键。当研究者声称“我们用深度集成估计了不确定性”，读者自然会认为所有模型见过相同的数据，不确定性来源于模型自身知识边界。如果实际使用的是交叉验证集成，那么这种不确定性中混入了数据划分的偶然性，解读方式就应不同，适用场景也应不同。不加区分地混用两者，不仅是学术写作上的瑕疵，更会影响研究结论在临床实践中的正确应用。

正因如此，研究团队在提供技术比较的同时，还完成了那份文献审计——他们希望推动整个领域在术语使用和方法报告上更加规范。当越来越多的AI系统走进真实的临床工作流程，AI说“我不确定”这件事，需要每个人都认真对待：不确定性究竟意味着什么，它从何而来，它能告诉我们什么，不能告诉我们什么。搞清楚这些问题，才能将AI的自我评估能力真正用在刀刃上。

Q&A

Q1：深度集成和交叉验证集成在实际操作上有什么区别？

A：深度集成使用完全相同的训练数据，让多个模型从不同的随机起点开始训练，每个模型看到的数据完全一样，差异仅在于训练过程的随机性。交叉验证集成则是将数据分成几份，每个模型只用其中一部分训练，不同模型接触的数据集合不同。这一差异决定了两种集成方式的“分歧”含义不同：前者反映的是模型对已有数据的认知边界，后者则还混杂了因没见过某些数据而产生的额外分歧。

Q2：为什么交叉验证集成在歧义建模上反而比深度集成表现更好？

A：这是一个出乎意料但有逻辑可循的发现。医学标注者之间分歧最大的区域，往往是结构模糊、视觉信息不充分的地方，而这些区域恰好也是训练数据覆盖较少的部分。交叉验证集成由于每个模型见过的数据子集不同，在这类区域会产生更大的数据驱动分歧，与标注者之间的人为分歧偶然地对应起来。但这并不意味着交叉验证集成“更懂”歧义，只是两种不同来源的变异在某些数据集上碰巧对齐了。

Q3：普通医院的AI辅助诊断系统在选择集成方式时应该怎么做？

A：关键在于明确使用目的。如果系统的核心功能是自动质控或筛选需要人工复核的病例（例如把AI没把握的片子优先分配给医生），应优先选择深度集成，因为它对失败案例的检测更准确、校准性更好。如果系统主要目标是显示“哪些区域存在标注歧义或客观模糊性”，交叉验证集成在某些场景下也有其价值。无论选择哪种，最重要的是在报告和文档中如实描述所使用的方法，避免将交叉验证集成误标为深度集成。

```

来源：https://www.163.com/dy/article/KU23C47C0511DTVV.html

上一篇探秘洋山深水港，解析上海发展的真正底气 下一篇无线电赋能主题活动暨卫星互联网频谱技术顺利举行

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。