德国癌症研究中心揭示医学AI不确定性估计中的普遍误用

市场资讯 05.28 22:14

（来源：科技行者）

这项由法国斯特拉斯堡大学ICube实验室、法国CLCC Institut-Strauss、德国癌症研究中心（DKFZ）医学图像计算部门、海德堡大学医学院及计算机科学学院、德国亥姆霍兹成像中心以及海德堡大学医院放射肿瘤学科联合完成的研究，于2026年5月18日以预印本形式发布在arXiv平台，编号为arXiv:2605.18329v1。

医学AI系统如何知道自己"不确定"？这个问题比听起来重要得多。当一套AI程序在分析CT图像、圈出肿瘤边界或勾勒器官轮廓时，它不仅需要给出答案，还需要告诉医生："这个地方我有把握"和"这个地方我拿不准"。这种"我有多确定"的能力，在医学界被称为不确定性估计，它直接决定了AI系统能否被安全地用于临床决策——比如自动筛选出需要人工复核的病例，或者判断哪些患者的分割结果可以直接信任。

然而，研究团队在系统梳理2020至2025年间的大量医学图像分割论文后发现了一个令人不安的现象：很多论文声称自己使用的是"深度集成"方法来评估AI的不确定性，但实际上用的是一种完全不同的东西——"交叉验证集成"。这两者表面上看起来都是把多个模型的预测结果综合在一起，但它们的内在逻辑截然不同，对不确定性的刻画方式也大相径庭。把一个当成另一个来用，就像是用体温计测血压，读出来的数字也许不为零，但量的根本不是你以为的那个东西。

一、多个AI模型一起工作，究竟有何不同

要理解这个问题，先得搞清楚为什么要用多个模型一起工作。在医学图像分割领域，单独一个AI模型就像一个独立的医生做诊断。这个医生可能很厉害，但难免有盲点。如果让五个医生同时看同一张片子，然后看他们意见是否一致，就能大致判断这个病例有多难、这个诊断有多可靠。意见高度一致，说明答案明确；意见分歧很大，说明这个病例模糊或者难以判断，需要更谨慎对待。

这就是集成学习的基本思路。在AI领域，把多个模型的预测结合起来，不仅能提升最终预测的准确性，还能通过观察各模型之间的"意见分歧"来衡量AI系统的不确定程度。分歧越大，说明AI越不确定。

问题在于，怎么训练这些多个模型，会从根本上影响它们的"分歧"究竟代表什么意思。

深度集成（Deep Ensemble，简称DE）的做法是：用同一份完整的训练数据，训练多个结构相同的模型，每个模型的唯一区别是随机初始化的起点不同，就像同一个菜谱交给五个厨师，每个人厨艺路线略有差异，但用的食材完全相同。这样训练出来的五个模型，它们之间的分歧纯粹反映了"在见过同样数据的情况下，模型本身对答案的不确定性"——这才是真正意义上的认知不确定性（epistemic uncertainty），衡量的是模型知识边界。

交叉验证集成（Cross-Validation Ensemble，简称CV集成）的做法则完全不同。它把整个训练数据集切成五份，每次用其中四份训练、留一份验证，循环五次，得到五个模型。换句话说，每个模型见过的数据不一样——就像五个厨师，每人只拿到了菜谱的四分之四，但缺的那一页各不相同。这样训练出来的五个模型之间的分歧，不仅来自模型本身的不确定性，还来自它们各自"没见过"的那部分数据所造成的知识缺口。这两种来源的分歧混在一起，就没办法单纯地把它解读为"AI对这道题有多不确定"。

在著名的医学图像分割框架nnU-Net中，默认的训练流程正是五折交叉验证，而且这些交叉验证模型在推理时会被组合起来使用，以提升分割精度。这本是一个很好的工程设计。但问题是，很多研究者拿着这个交叉验证集成，直接把它当作深度集成来分析不确定性，并在论文中堂而皇之地写上"我们使用了深度集成方法"。研究团队把这个现象称为"术语与实现之间的错位"。

二、这种误用有多普遍——一份让人皱眉的统计

研究团队系统梳理了2020至2025年间的医学图像分割不确定性研究，逐篇核查每篇论文声称使用的方法与实际实现之间是否吻合。结果相当触目惊心。

在他们审查的论文中，有相当数量的研究明确声称使用了"深度集成"，但实际上用的是五折或十折交叉验证集成，训练集在各模型之间并不相同。被点名的研究涵盖脑肿瘤MRI分割、多器官CT分割、头颈部危及器官自动勾画、病理切片全景扫描、多数据集CT与MRI混合分割、心脏MRI分割等多个临床场景，涉及多所知名机构发表的工作。只有少数几项研究做到了真正的深度集成——在完全相同的训练数据上用不同随机种子独立训练多个模型，并且在论文中如实描述。此外，也有一些研究诚实地称自己用的是交叉验证集成，并没有误称为深度集成，这类研究在术语使用上是准确的，尽管训练集仍然不同。

这种系统性的术语混用并非小事。它不只是写错了一个词，而是影响了整个研究结论的解读有效性——因为一种集成方法量的是什么、适合用来做什么任务，本来就是不同的。用错了工具，得出的建议就可能把医疗系统引向错误的方向。

三、实验设计：在同一条件下正面比较两种方案

为了弄清楚这两种集成方式在实践中究竟有多大差别，研究团队设计了一组严格的对比实验。核心原则是：除了集成构建方式不同之外，所有其他条件完全一致，这样观察到的差异就只能来自集成方式本身。

实验使用了三个多标注者医学图像分割数据集，覆盖三种不同的成像模态。第一个数据集GoldAtlas包含19个盆腔区域的T2加权MRI三维扫描，每个病例由五位专家独立标注了九种器官结构，共识标准为专家手工综合。第二个数据集CURVAS包含89个腹部CT三维扫描，由三位标注者分别标注胰腺、肝脏和肾脏，共识通过STAPLE算法（一种统计学方法，用于从多个标注中估计真实边界）生成。第三个数据集RIGA包含749张视网膜眼底彩色图像，由六位眼科医生独立标注视盘和视杯边界，共识通过多数投票产生。三个数据集在成像维度（2D与3D）、器官类型、标注人数和共识生成方式上各有不同，能较全面地反映真实临床场景的多样性。

模型架构统一采用nnU-Net v2.4.1框架的全分辨率配置，搭配ResEncM预设参数。两种集成方式的训练过程完全一致：固定训练轮数、固定学习率调度、不做早停、不根据验证集表现调整超参数，最终检查点用于推理。区别仅在于：交叉验证集成按照nnU-Net默认的五折方式分割数据，每个模型见到不同的80%训练数据；深度集成则让五个模型都用全部可用训练数据，唯一不同是随机初始化种子。

为了防止数据泄露——也就是同一张图像的不同标注者版本同时出现在训练集和验证集——数据划分时按图像身份分组，确保同一张图的所有标注要么全在训练集，要么全在验证集。

此外，实验还专门设计了分布外（OOD）评估，模拟真实临床中常见的"数据漂移"情景：对于CURVAS，将含有改变器官轮廓的囊肿病变的23个病例作为分布外测试集；对于RIGA，将来自Magrabi眼科中心的95张图像作为分布外测试集，代表采集中心和患者群体的变化；对于GoldAtlas，将来自第三采集地点的4个患者作为分布外测试集。

不确定性的评估维度涵盖四个方面：校准性（模型对自己的信心是否准确反映了实际正确率）、歧义建模（模型的不确定程度是否与标注者之间的分歧程度相关联）、失败检测（用不确定性预测哪些病例结果会较差的能力）以及分布偏移鲁棒性（在分布外数据上的表现）。

四、测量工具：用什么指标来衡量不确定性的好坏

衡量不确定性估计质量并不像比较分割精度那么直观，研究团队使用了几套专门的评估指标。

校准性的核心问题是：当AI说"我有90%的把握这个像素属于肝脏"，它实际上有多大比例是对的？如果AI总是信心满满但经常出错，它的校准性就很差。研究团队使用平均校准误差（ACE）和边界感知期望校准误差（BA-ECE）两个指标来衡量这一点。前者是最常用的校准衡量标准，后者特别关注分割边界附近的校准质量——因为边界区域往往是最难分割、最容易出错的地方，也是临床最关注的区域。两个指标都是越低越好。

歧义建模衡量的是：标注者之间争议最大的区域，AI是否也表现出更大的不确定性？这用两个指标来评估。归一化互相关（NCC）衡量AI的预测熵图（每个像素的不确定程度分布图）与标注者方差图（不同标注者在每个像素上分歧程度的分布图）之间的相关性，越高越好。广义能量距离（GED）则直接比较各个AI模型的预测与各个标注者的标注之间的分布差异，越低越好。

失败检测的核心逻辑是：按照AI自报的不确定程度给病例排序，不确定性高的先转介给人工审核，覆盖率下降时保留下来的病例平均风险（用1减去Dice分数来衡量，Dice是衡量分割准确性的标准指标）应该越低越好。这用转诊曲线下面积（AURC）来量化，越低说明失败检测能力越强。结果通过非参数自举法（一种统计检验方式，通过重复抽样来估计结果的可靠性，共进行10000次重抽样）生成置信区间，以判断两种方法的差异是否具有统计显著性。

五、实验结果：两种方案的实际表现差异

在分割精度上，两种集成方式几乎平手。三个数据集的Dice分数差异都很小，在GoldAtlas上深度集成的均值略高（85.2对84.6），在CURVAS上也略高（93.6对93.5），在RIGA上深度集成的差异达到统计显著性但数字仍非常接近（93.2对93.1）。换句话说，用哪种方式集成模型，对最终分割结果几乎没有影响——两种方案都能给出高质量的分割。这一点很重要，因为它意味着使用深度集成不会带来性能损失，让两者的比较更加公平。

在校准性上，深度集成全面领先，且差异相当明显。以ACE指标为例，在GoldAtlas上，深度集成的均值为16.7，交叉验证集成为19.3，差异在统计上高度显著；在CURVAS上分别为18.3和19.6，差异显著；在RIGA上分别为17.9和19.9，差异高度显著。BA-ECE的结果与此一致，三个数据集上深度集成均显著优于交叉验证集成。从每个病例单独来看（如图1所示），深度集成在大多数病例上的校准误差都比交叉验证集成低，整体分布向更好的方向移动。

在失败检测上，深度集成同样表现更好。转诊曲线（如图2所示）直观地呈现了这一点：在同样的覆盖率下，深度集成指引下保留的病例平均风险更低，意味着它更准确地把真正表现差的病例排在了需要人工审核的序列前面。AURC数值上，深度集成在三个数据集上均优于或持平于交叉验证集成，其中在CURVAS上的优势达到统计显著性。

然而，在歧义建模上，结果出现了反转。在CURVAS数据集上，交叉验证集成的NCC（标注者方差与预测熵的相关性）显著高于深度集成（50.3对49.2），差异高度显著。在RIGA数据集上，交叉验证集成的NCC也明显更高（73.7对72.9），GED也更低（8.2对8.6），均达到统计显著性。这个发现颇有意思：交叉验证集成因为每个模型见过的数据不同，其分歧中混入了数据暴露不均匀带来的变异，而这种变异在某种程度上恰好与标注者之间的主观分歧相吻合——因为标注者之间争议最大的区域，往往也是训练数据覆盖较少、模型更容易产生数据驱动分歧的地方。GoldAtlas数据集上两者差异不显著，可能与该数据集样本量较小有关。

在分布偏移鲁棒性上，两种方法的差异总体较小，没有哪一种在所有数据集和指标上都占据压倒性优势。在CURVAS的OOD子集上，深度集成在校准指标上的优势延伸到了分布外数据，差异达到统计显著性；但在RIGA的OOD子集上，AURC指标的差异方向发生了逆转且置信区间宽。总体来看，两种集成方式在面对分布偏移时的鲁棒性大体相当，不能判断哪种方案在OOD场景下系统性地更优。

六、这意味着什么——给不同任务的选择建议

研究团队根据实验结果，给出了清晰且实用的任务导向建议。核心逻辑是：集成的构建方式应当与使用目的相匹配，而不是一刀切地选择某一种。

当研究目标是校准性——也就是希望AI给出的置信度准确反映实际表现——深度集成是更好的选择，因为它的不确定性纯粹来自模型参数的后验不确定性，不受数据暴露不均匀的干扰，给出的置信评分更可靠。

当研究目标是失败检测——也就是希望用不确定性自动筛选出需要人工复核的病例，实现"选择性转介"——深度集成同样更合适，原因相同：它的高不确定性更准确地对应着模型真正表现差的病例，而不是因为缺少某些训练样本而产生的假性高不确定性。

当研究目标是歧义建模——也就是希望AI的不确定程度能反映医学标注本身的模糊性，比如在多标注者分歧区域产生更高不确定性——交叉验证集成在某些数据集上反而表现更好。这一发现可以解释为：数据子集间的差异，部分地模拟了标注模糊性所带来的效应，使交叉验证集成的分歧与人类标注者的分歧产生了偶然的相关。

在分布偏移鲁棒性方面，两者差异不大，都可以使用。

研究团队特别指出，在实际工作中，深度集成会带来额外的计算成本：交叉验证模型在nnU-Net的默认训练流程中是自动产生的，而深度集成需要额外独立训练五个使用全量数据的模型，不能与交叉验证模型共享。但如果研究目标是可靠性导向的——比如自动质控、失败检测、选择性转介——这个额外成本是值得的。

为了降低使用门槛，研究团队还提供了一个对nnU-Net框架的轻量级修改，让用户能够在默认流程内便捷地启用深度集成训练，代码已在GitHub公开发布（github.com/Kirscher/LostInFolds）。

归根结底，这项研究传递的核心信息是：在医学AI的不确定性估计领域，工具的名字和工具的本质同样重要，甚至更重要。当研究者说"我们用深度集成估计了不确定性"，读者理所当然地会认为所有模型见过相同的数据，不确定性来自模型本身的知识边界。如果实际用的是交叉验证集成，这个不确定性中混入了数据划分的偶然性，解读方式就该不同，适用场景也该不同。两者不加区分地混用，不只是学术写作上的瑕疵，而是影响了研究结论能被正确应用于临床实践的可能性。

这也是为什么研究团队在提出技术比较的同时，还做了那份文献审计——他们希望推动整个领域在术语使用和方法报告上更加规范。当越来越多的AI系统走进真实的临床工作流程，AI说"我不确定"这件事，需要每个人都认真对待：不确定性是什么意思，它从哪里来，它能告诉我们什么，不能告诉我们什么。搞清楚这些，才能真正把AI的自我评估能力用在刀刃上。

Q&A

Q1：深度集成和交叉验证集成在实际操作上有什么区别？

A：深度集成是用完全相同的训练数据，让多个模型从不同的随机起点开始训练，每个模型见过的数据一模一样，差异只在于训练过程的随机性。交叉验证集成则是把数据切成几份，每个模型只用其中一部分来训练，不同模型见过的数据集合不同。这个差异决定了两种集成方式的"分歧"含义不同：前者反映的是模型对已有数据的认知边界，后者还混入了因为没见过某些数据带来的额外分歧。

Q2：为什么交叉验证集成在歧义建模上反而比深度集成表现更好？

A：这是一个有点出乎意料但有逻辑可循的发现。医学标注者之间分歧最大的区域，往往也是结构模糊、视觉信息不充分的地方，而这类区域恰好也是训练数据覆盖较少的地方。交叉验证集成因为每个模型见过的数据子集不同，在这类区域会产生更大的数据驱动分歧，与标注者之间的人为分歧偶然地对应起来。这并不意味着交叉验证集成"更懂"歧义，只是两种不同来源的变异在某些数据集上碰巧对齐了。

Q3：普通医院的AI辅助诊断系统在选择集成方式时应该怎么做？

A：关键在于明确使用目的。如果系统的核心功能是自动质控或筛选需要人工复核的病例（比如把AI没把握的片子优先发给医生），应该优先选择深度集成，因为它对失败案例的检测更准确、校准性更好。如果系统主要目标是显示"哪些区域存在标注歧义或客观模糊性"，交叉验证集成在某些场景下也有其价值。无论选择哪种，最重要的是在报告和文档中如实描述所使用的方法，避免把交叉验证集成误标为深度集成。