浙江大学联合研发万能分割学习器DiffusionSAM图像分割新突破_AI热点日报

这项由浙江大学、华南理工大学、南京大学和北京大学联合开展的前沿研究，已于2026年4月正式发布，相关论文预印本编号为arXiv:2604 24575。对通用图像分割技术感兴趣的读者，可通过此编号在arXiv平台查阅完整论文内容。图像分割作为计算机视觉的核心技术，其应用已无处不在。从智能手机的智能抠

这项由浙江大学、华南理工大学、南京大学和北京大学联合开展的前沿研究，已于2026年4月正式发布，相关论文预印本编号为arXiv:2604.24575。对通用图像分割技术感兴趣的读者，可通过此编号在arXiv平台查阅完整论文内容。

当扩散模型遇上图像分割：浙江大学等机构携手开发的

图像分割作为计算机视觉的核心技术，其应用已无处不在。从智能手机的智能抠图、医疗影像的病灶自动识别，到自动驾驶系统的环境感知，这项技术让机器能够精准理解图像中“什么是主体，什么是背景”。然而，该领域长期面临一个根本性挑战：模型的专业化壁垒。一个在医疗CT影像上表现出色的分割模型，往往难以直接应用于农业病虫害检测或卫星图像分析。因此，开发一个真正通用的“万能”图像分割系统，成为学术界与工业界共同追求的目标。

在此背景下，浙江大学等顶尖研究机构提出了一种创新解决方案。团队敏锐地发现，当前炙手可热的扩散模型（即各类AI图像生成工具的核心技术）在“学习绘画”的过程中，已经内化了对视觉世界深层结构的强大理解力。他们创造性地提出：何不将这种生成能力“转化”为精准的分割能力？由此，一个名为DiGSeg的系统诞生了，其全称“Diffusion Models as a Generalist Segmentation Learner”直指核心——让扩散模型成为通用的分割学习器。

一、扩散模型：从“图像生成器”到“视觉理解者”的蜕变

要理解DiGSeg的突破性，首先需要认识扩散模型的本质。我们可以将其比喻为一位经过海量训练的“图像修复大师”。其训练过程独特：模型学习如何将一张被逐步添加噪声直至完全模糊的图像，一步步还原回清晰原图。这个过程好比让一位大师反复练习将一幅被层层覆盖的画作复原，在此过程中，它深刻掌握了图像的结构、纹理与语义关联。

Stable Diffusion等知名AI绘画工具正是基于此原理。它们通过“观察”互联网上数十亿张图像，在无数次“破坏与重建”的循环中，构建起一个关于视觉世界的庞大知识库。以往，人们主要利用这种模型进行图像生成。但DiGSeg团队洞察到，这位“修复大师”所内化的视觉知识，正是进行高精度图像分割所需的底层能力。这就像一位精通所有菜系原理的特级厨师，完全有能力快速掌握食品雕刻这门新技艺。

二、技术演进：为何早期方法难以达到实用精度？

在DiGSeg之前，已有研究者尝试利用扩散模型进行分割，主流方法是分析模型的“注意力图谱”。这可以理解为模型在处理图像时，对不同区域关注程度的可视化热力图。例如，当输入“狗”的文本提示时，图中狗所在的区域会呈现高亮。

然而，这种方法效果有限。因为这些注意力图谱本质上是模型生成图像时的“副产品”，并非为像素级分割而优化，存在分辨率低、边界模糊、结果不稳定等固有缺陷。这好比试图用斧头进行微雕，工具本身就不适合精细作业。此外，这类方法通常泛化能力弱，难以适应多样化的分割任务。

DiGSeg团队摒弃了这种间接利用的思路，转而采用更直接的路径：重新训练扩散模型，使其能够直接输出高质量的分割结果。

三、DiGSeg架构解析：如何将生成模型重塑为分割专家

DiGSeg的核心思想可以用一个比喻来理解：假设有一位绘画功底深厚的艺术家，我们无需教他从头学习素描，只需引导他将已有的造型能力，专注于绘制精确的工程图纸。DiGSeg正是对预训练的扩散模型进行“能力迁移”和“任务微调”。

整个系统由三个核心模块协同工作：

视觉潜在编码器： 团队利用扩散模型自带的图像编解码器，将输入的RGB图像和对应的分割标注图，都转换为一种高效的“潜在表示”。这是一种数据压缩技术，能在保留关键信息的同时大幅提升处理效率。针对分割标注图是单通道（黑白）的特点，团队采用了一个巧妙的技巧：将其复制成三份，模拟成彩色图像输入。实验证明，这种处理方式的重建误差极小，完全可行。

CLIP文本对齐模块： 为了赋予模型理解自然语言指令的能力，DiGSeg集成了OpenAI的CLIP模型。这使得系统能够根据文本描述（如“分割出所有的汽车”）来定位和分割对应物体。这项技术的关键优势在于支持“开放词汇分割”——用户可以在使用时自由指定任何类别名称，而无需局限于训练时预设的固定类别列表。

改进型去噪U-Net（核心引擎）： U-Net是扩散模型中执行去噪还原的核心神经网络。DiGSeg对其训练目标进行了根本性改造：在训练时，系统向分割标注的潜在表示中添加噪声，然后让U-Net在参考原始图像和文本描述的条件下，学习如何一步步去除噪声，还原出准确的分割图。这意味着模型直接学习的是“生成分割掩模”，而非“生成逼真图片”。训练中，团队冻结了模型的大部分参数，仅微调负责图文交互的少量层，从而高效地保留了模型预训练获得的通用视觉知识。

四、工作流程：从随机噪声到精准分割图的生成

模型训练完成后，其推理过程清晰高效：对于一张待分割的图片，系统首先将其编码，并初始化一个随机噪声张量。随后，在图像内容和文本指令的双重引导下，改进后的U-Net逐步将噪声“雕刻”成目标分割图的潜在表示，最后通过解码器得到像素级的分割结果。

其中，团队优化了采样策略。他们发现传统的DDIM采样存在训练与推理的不匹配问题，因此采用了“尾随时间步”对齐策略，大幅提升了效率——仅需一步去噪就能获得可观的结果，这对于通常需要迭代数十步的扩散模型而言是巨大的速度提升。

此外，团队引入了“测试时集成”技术：使用不同的随机种子对同一张图像进行多次推理，然后将结果在潜在空间进行平均，再解码输出。这类似于多位专家独立判断后综合意见，能有效提升结果的稳定性和准确性。测试表明，集成8次效果提升显著，超过10次后收益递减。

在开放词汇分割场景下，系统还包含一个智能的“候选类别筛选”流程。对于新图像，系统先用CLIP模型从庞大的类别词库中快速筛选出最相关的几个候选类别。为避免忽略小物体，图像会被分割成小块进行独立评估。确定候选类别后，系统为每个类别分别生成概率图，最终为每个像素分配概率最高的类别标签。

五、阈值调优：平衡精度与召回的关键参数

由于模型输出的是每个像素属于某类别的概率值（0到1之间），因此需要设定一个阈值（记为τ）来做出最终决策：概率高于阈值的判定为正类，反之则为负类。

深入研究显示，不同类别物体的最优阈值并不相同。例如，目标较大、轮廓清晰的“牛”在较高阈值（约0.76）时效果最好；而形状细长的“瓶子”则在较低阈值（约0.66）时表现更佳。阈值过低会导致小物体预测区域过度膨胀；阈值过高则会损失边界细节。

为了保持系统的简洁性和通用性，团队没有为每个类别单独调参，而是选择了一个在多种任务上综合表现优异的固定值：τ=0.7。在后续的语义分割、开放词汇分割等多项测试中，这个统一的阈值都展现了稳健的性能。

六、噪声策略创新：多分辨率退火噪声提升分割质量

在模型训练中，所添加的噪声类型至关重要。团队在此提出了创新的“多分辨率退火噪声”策略。

普通训练使用的是均匀的高斯噪声，类似于在画面上均匀撒上细沙。而多分辨率退火噪声则是混合了不同“颗粒度”的噪声——既包含高频的细密扰动，也包含低频的大范围扰动。高频噪声迫使模型学习捕捉精细的边缘细节，低频噪声则帮助模型把握整体的语义结构。

“退火”体现在噪声配比的动态变化上：在去噪过程初期（噪声较大时），高频噪声占主导，让模型聚焦细节；随着去噪步骤推进（噪声减小），低频噪声比例增加，引导模型理解整体。这种动态调整机制使得训练更加稳定，生成的分割边界也更加平滑和准确。

消融实验证实了该设计的价值。使用标准高斯噪声时，模型在COCO和ADE20K数据集上的mIoU分别为48.9和56.7；加入退火机制后小幅提升至49.2和57.1；使用多分辨率噪声后显著提升至49.7和57.6；而两者结合则达到了最佳性能50.8和58.6。

七、性能评测：在多项基准测试中展现领先优势

研究团队在多个权威数据集上对DiGSeg进行了全面评估，结果令人印象深刻。

开放词汇分割： 在五个主流基准测试集（A-847, PC-459, A-150, PC-59, Cityscapes）上，当使用强大的CLIP ViT-L/14视觉模型时，DiGSeg的mIoU全面超越此前最优方法，领先幅度在0.6到2.8个百分点之间。即便使用更轻量的CLIP ViT-B/16模型，DiGSeg同样保持领先。值得注意的是，许多对比方法针对特定数据集进行了专门优化，而DiGSeg仅使用一套通用配置。

闭集语义分割： 在COCO和ADE20K这两个经典语义分割数据集上，DiGSeg分别取得了50.8和58.6的mIoU，刷新了当时的性能记录。

跨领域泛化能力： 在遥感图像道路提取（DeepGlobe数据集）任务中，DiGSeg的道路交并比达到65.78，比专为遥感设计的顶尖方法高出8.5个百分点。在农业图像分割（Phenobench数据集）任务中，其总体mIoU为76.66，领先次优方法约1.8个百分点。这两项成绩都是在未对模型架构或训练策略进行任何领域特定调整的情况下取得的，充分证明了其卓越的通用性。

当前局限： 在医学图像分割（REFUGE-2眼底数据集）任务上，DiGSeg的表现（IoU 34.5）远低于专用医学模型（最优可达79.1）。团队分析指出，核心原因在于其依赖的CLIP模型在预训练时接触的医学影像数据极少，导致系统对“视盘”、“杯盘比”等专业概念缺乏图文对齐能力。这是该方法目前需要攻克的一个重要方向。

八、数据效率：小样本学习能力突出

团队进行了一项极具实用价值的实验：探究在训练数据有限时，模型的性能表现。

他们在ADE20K数据集上，依次使用全量数据的1/2、1/4、1/8和1/16进行训练。结果显示，仅使用一半数据时，性能与使用全量数据几乎持平；即使仅用四分之一数据，结果依然强劲。这证明，扩散模型通过大规模生成预训练所积累的视觉先验知识是极其有效的，只需相对少量的任务特定标注数据，就能快速适配到分割任务上。这种高效的数据利用能力，对于标注成本高昂的领域（如医学、遥感）具有重大意义。

九、速度与精度的权衡及优化前景

作为一个基于迭代去噪的扩散模型系统，DiGSeg的推理速度自然无法与传统的单次前向传播分割模型相比。团队对此进行了坦诚的评估。

在最快速的配置下（单次推理、单步去噪），处理速度约为每秒11.27张图像，在COCO和ADE20K上的mIoU分别为48.2和56.8。常用的平衡配置（8次推理集成，每次2步去噪），速度降至每秒3.15张，但mIoU提升至50.8和58.6。若追求极限精度（20次集成，每次50步），速度会骤降至每秒0.12张，而性能提升微乎其微。

对于许多非实时的批量处理场景（如离线医学影像分析、卫星图像处理），每秒数张到十余张的速度是可以接受的。并且，扩散模型加速是当前的研究热点，未来通过知识蒸馏、一致性模型等先进技术，其推理速度仍有巨大的提升空间。

十、数据选择的智慧：质量与相关性胜过单纯的数量

团队还进行了一项富有启发的跨领域实验：探究“使用哪种数据训练的模型，迁移到新领域效果更好”。他们分别使用仅COCO数据、仅ADE20K数据、以及两者混合数据训练的模型，在城市驾驶场景数据集（Cityscapes和BDD100K）上进行测试。

结论非常明确：仅使用ADE20K数据训练的模型，在两个测试集上的性能全面胜出。原因在于，ADE20K数据集包含了极其丰富和细粒度的室外场景标注，其语义覆盖与驾驶场景更具相关性。而混合了COCO数据后，反而因标注风格和类别分布的差异带来了一定干扰。这个结果提示我们，在迁移学习中，预训练数据与目标领域的语义相关性，往往比数据集的绝对规模更为重要。

总结与未来展望

DiGSeg这项研究的深层价值，在于它成功打破了“生成模型”与“理解模型”之间的传统壁垒。长期以来，这两类任务被视为泾渭分明。但扩散模型在学会“生成或修复图像”的过程中，已经深度掌握了图像的结构与语义信息，而这正是分割等感知任务的核心。

DiGSeg的实践意义不仅体现在其领先的评测指标上，更在于它开辟了一条新的技术路径：未来或许无需为每一个新的视觉任务从头收集海量标注数据、设计专用网络。相反，可以从已经蕴含了海量视觉知识的生成式基础模型出发，以相对较低的代价，将其能力高效迁移到各种下游理解任务中。这对于数据标注困难或成本高昂的专业领域（如医疗影像分析、农业监测、地质勘探）而言，提供了一个极具潜力的解决方案。

当然，DiGSeg也揭示了当前方法的挑战。其在专业医学图像上的表现不佳，说明完全依赖通用图文对齐模型（如CLIP）处理专业领域存在局限。此外，其推理速度相比传统方法仍有差距，且概率生成特性带来的输出随机性，在要求确定性的工业场景中也需要妥善处理。这些正是未来研究需要着力改进的方向。

常见问题解答

Q1：DiGSeg与传统图像分割模型的核心区别是什么？

A：传统模型是专门为“像素级分类”任务从头设计和训练的，通常类别固定，且跨领域泛化能力较弱。DiGSeg的本质是对一个强大的“图像生成模型”进行改造和微调。它最大的优势在于继承了扩散模型预训练阶段学到的通用视觉知识，因此对任务专属标注数据的需求量更小，并且天然支持通过自然语言指令分割任意类别，突破了固定类别列表的限制。

Q2：DiGSeg在医学图像分割上效果不佳的主要原因是什么？

A：主要瓶颈在于其文本-图像对齐能力依赖于CLIP模型，而CLIP是在互联网通用图文数据上训练的，其中包含的专业医学影像极少。因此，系统难以建立“青光眼”、“肿瘤浸润”等专业医学术语与相应图像区域的准确关联。要提升其在专业领域的性能，可能需要注入领域特定的图文对齐知识。

Q3：DiGSeg的推理速度能否满足实时应用？

A：在其最快的配置下（单步去噪），DiGSeg的处理速度约为每秒11张图像，这对于许多离线或准实时批量处理场景（如遥感图像分析、病理切片筛查）是足够的。但如果采用高精度配置（多次集成），速度会下降，目前难以满足自动驾驶等需要极高帧率的严格实时应用。不过，随着扩散模型加速技术的快速发展，其推理效率未来有望得到显著提升。