浙江大学万能分割学习器技术原理与应用场景详解

时间：2026-05-14 08:09

这项由浙江大学、华南理工大学、南京大学和北京大学联合开展的前沿研究，于2026年4月正式发布，其论文预印本编号为arXiv:2604 24575。图像分割技术听起来或许有些专业，但它早已深度融入我们的日常生活。无论是智能手机拍摄的背景虚化人像、AI系统在CT影像中精准勾勒病灶轮廓，还是自动驾驶汽车

这项由浙江大学、华南理工大学、南京大学和北京大学联合开展的前沿研究，于2026年4月正式发布，其论文预印本编号为arXiv:2604.24575。

图像分割技术听起来或许有些专业，但它早已深度融入我们的日常生活。无论是智能手机拍摄的背景虚化人像、AI系统在CT影像中精准勾勒病灶轮廓，还是自动驾驶汽车实时区分道路与行人，其背后都离不开这项核心技术的支持。本质上，图像分割就是教会计算机“看懂”图片，并精确回答“哪一部分是目标物体，哪一部分是背景”。

然而，该领域长期面临一个核心挑战：模型往往“专事专办”，泛化能力不足。例如，为医疗影像训练的模型，在农业场景中可能无法识别杂草；而擅长解析城市街景的模型，在工业环境中可能表现不佳。因此，构建一个真正通用的、能够应对各种开放场景的图像分割系统，一直是学术界和工业界努力攻克的难题。

近期，来自国内顶尖高校的联合研究团队提出了一个创新性解决方案。他们发现，当前火热的扩散模型——即驱动各类AI绘画工具的核心技术——在“学习绘画”的过程中，已经内化了对视觉世界的深刻理解。团队成功地将这种生成能力“改造”为一个强大的通用分割引擎。这个全新的系统被命名为DiGSeg，全称为“Diffusion Models as a Generalist Segmentation Learner”。

一、扩散模型是什么？它为何蕴含理解图像的潜力？

要理解DiGSeg的巧妙之处，首先需要明白扩散模型的工作原理。可以将其想象成一位经过海量训练的“画作修复大师”。在训练过程中，研究人员会将一张清晰图片逐步添加噪声，直至其变成完全随机的噪点图，然后让模型学习如何逆向一步步去除噪声，恢复原始图像。这好比将一幅名画层层覆盖白漆，再训练专家逐层剥离，最终还原画作原貌。

诸如Stable Diffusion等流行的AI绘画工具正是基于此原理构建。它们在互联网海量图像上进行了无数次“破坏-重建”的练习，从而在模型内部积累了关于视觉世界的丰富先验知识：包括物体的常见结构、轮廓与语义的关联、以及颜色纹理的分布规律等。

过去，这类模型主要被用作“生成器”来创造新图像。但研究团队洞察到一个关键点：这位“画家”在掌握“修复”技能的过程中，其实已经内化了整个视觉世界的逻辑。这些内化的知识，就像一位精通所有食材特性的大厨，即便不做原本的招牌菜，也能轻松驾驭新的菜系——例如，胜任图像分割这项任务。

二、传统方法为何存在局限？

在DiGSeg出现之前，已有研究者尝试利用扩散模型进行分割。当时的主流思路是“窥探”模型内部的注意力图。注意力图可以理解为模型在处理图像时，对不同区域的“关注”程度热力图。例如，当模型接收到“猫”的文本提示时，图片中猫所在的区域就会呈现高亮。于是，人们设想直接将这些高亮区域作为分割结果。

这个想法看似合理，但实际效果却不尽如人意。根本原因在于，这些注意力图只是扩散模型生成图像过程中的“副产品”，并非为精准分割而优化设计。它们通常分辨率较低、边界模糊，且结果具有随机性，需要复杂的后处理才能使用，好比用安全锤去雕刻精细的花纹，有力但失之精准。此外，这类方法通常局限于特定任务，泛化能力有限。

DiGSeg团队选择了一条截然不同的技术路径：与其“窥探”模型的中间状态，不如直接“教导”它产出明确的分割结果。

三、DiGSeg的核心创新：引导画家成为分割专家

DiGSeg的核心思想可以用一个类比来理解：假设有一位天赋极高的美术生，经过严格的学院派训练，对图像构成已有深刻理解。现在想让他转行做地图标注员，在卫星图片上精确划出道路和建筑。你不需要他从头学起，只需进行专项训练，引导他将脑中已有的图像理解知识，转化为标注地图这项具体技能。DiGSeg所做的，正是这样的“知识迁移”。

整个框架由三个紧密协作的核心模块构成。

首先是视觉潜在通路。团队利用扩散模型自带的图像编解码器，将输入的彩色图片和对应的分割标注图，都转换成一种紧凑的“潜在表示”。这就像把一本大百科全书压缩成一张高信息密度的卡片，核心内容得以保留，但处理效率更高。由于分割标注图通常是单通道（黑白）的，而编解码器是为三通道彩色图像设计的，团队采用了一个巧妙而有效的技巧：将单通道标注复制三份，“伪装”成彩色图像再输入。验证表明，这样处理后的还原误差极小，完全可行。

其次是CLIP对齐文本条件模块。CLIP是OpenAI开发的一项突破性技术，能让计算机同时理解图像和文本，并建立两者间的语义联系。DiGSeg将CLIP的文本理解能力嫁接进来，使得模型在生成分割结果的整个过程中，都有文字描述在一旁进行“语义校准”。其妙处在于，当你输入“请分割出道路”时，系统能准确理解“道路”的语义，从而在图像中找到对应区域。这使得DiGSeg天然支持开放词汇分割——无需预先定义固定类别，使用时可以临时输入任何自然语言描述。

最后是经过改造的“发动机”——去噪U-Net。U-Net是扩散模型中用于从噪点还原图像的核心网络。DiGSeg对其进行了精心的微调训练：在训练时，系统先向分割标注的潜在表示中加入随机噪点，然后让U-Net在原始图像信息和文本描述的共同指导下，一步步将噪点还原为正确的分割标注。这个训练目标直接指向“输出高质量分割图”，而非“生成逼真图像”，因此模型学到的是如何产生精准的分割掩模。

值得注意的是，训练时团队冻结了模型绝大部分的预训练参数，仅调整U-Net中的交叉注意力层（负责融合视觉与文本信息）和一个小的投影层。这样做最大程度地保留了模型从海量图像中学到的通用视觉知识，只在此基础上高效地叠加了分割能力。

四、推理流程：从随机噪点到精准分割图的生成之旅

系统训练完成后，实际使用流程如下：给定一张待分割图片，系统先将其编码为潜在表示，并生成一团随机噪点作为起点。随后，去噪U-Net在图像信息和文本描述的双重引导下，逐步将这团噪点“雕刻”成分割标注的潜在表示，最终由解码器还原成像素级的分割图。

这里有一个提升效率的关键细节。团队发现，传统的DDIM加速采样方法在步骤安排上存在训练与推理的不匹配问题。他们采用了“尾随时间步”策略，使两者对齐。这一改动带来了显著的效率提升——仅需一步去噪就能得到相当不错的结果，这对于通常需要几十甚至上百步的扩散模型而言，相当惊人。

此外，团队引入了“测试时集成”技巧：用不同的随机噪点种子对同一张图片进行多次推理，然后在潜在空间对结果取平均，再解码输出。这好比多位评委独立打分后取平均，结果更为稳定可靠。测试表明，集成8次的效果明显优于单次，超过10次后收益递减。

在开放词汇分割场景下，系统还有一套额外的“候选词筛选”流程。对于新图片，系统先用CLIP扫描预设的类别词汇表，找出相关度高的候选类别。为避免遗漏小目标，图片还会被切分成小块单独评估。确定候选类别后，系统对每个类别分别进行分割推理，得到每个类别的概率图，最终在每个像素位置选取概率最高的类别作为归属。

五、阈值τ的学问：平衡精度与召回的关键

系统输出的是0到1之间的连续概率值，因此需要设定一个阈值τ（tau），高于阈值则判定属于该类别，反之则不属于。

研究发现，不同类别的最佳阈值其实不同。例如，体型大、颜色均匀的“牛”，在较高阈值（约0.76）时表现最好；而形状细长、边界复杂的“瓶子”，则在较低阈值（约0.66）时效果更佳。阈值过低，小物体区域容易过度膨胀；阈值过高，又会损失边界细节。

为了保持系统的简洁性与通用性，团队并未为每个类别单独调参（那会引入复杂性），而是选择了一个在各类任务上综合表现良好的固定值：τ=0.7。在语义分割、开放词汇分割等多种下游任务中，这个单一阈值都展现了稳定的性能。

六、创新的噪声策略：多分辨率退火噪声

训练中使用的噪声看似微不足道，实则大有讲究。团队提出了“多分辨率退火噪声”策略。

普通训练噪声是均匀的随机干扰，如同向画布均匀撒上细沙。而多分辨率噪声则是混合了不同颗粒的“沙子”——既有细密的高频扰动，也有成片的低频扰动。高频扰动帮助模型学习精细的边界细节，低频扰动则有助于保持对大范围语义区域的整体把握。

“退火”意味着这两种成分的比例随时间动态变化：在训练早期（噪声较多时），高频成分主导，迫使模型关注细节；随着去噪进行（噪声减少），低频成分比重增加，引导模型把握整体结构。这种动态调配机制使训练更稳定，产出的分割边界也更平滑、准确。

消融实验验证了这一设计的价值。使用标准高斯噪声，在COCO和ADE20K数据集上的mIoU得分分别为48.9和56.7；加入退火机制后小幅提升至49.2和57.1；使用多分辨率噪声则提升至49.7和57.6；当两者结合时，取得了最佳成绩50.8和58.6。

七、性能评估：DiGSeg在多项基准测试中的表现

研究团队在多个权威标准测试集上对DiGSeg进行了全面评估，结果颇具说服力。

在开放词汇分割的五个常用基准测试（A-847, PC-459, A-150, PC-59, Cityscapes）中，评价指标为mIoU（平均交并比，数值越高越好）。使用强大的CLIP ViT-L/14视觉基础模型时，DiGSeg在五个数据集上分别取得19.9、29.2、43.2、68.4和38.5的mIoU，均超越此前最优方法，领先幅度在0.6到2.8个百分点之间。即使使用更轻量的CLIP ViT-B/16模型，DiGSeg同样在所有测试集上保持领先。值得注意的是，许多对比方法针对特定测试集进行过数据或结构上的专门优化，而DiGSeg始终使用同一套通用配置。

在传统的闭集语义分割任务上，DiGSeg在COCO数据集上取得50.8的mIoU，在ADE20K上取得58.6，分别超出此前最佳结果2.1和1.3个百分点。

跨领域测试的结果同样亮眼。在遥感道路提取（DeepGlobe数据集）任务中，DiGSeg取得了65.78的道路交并比，比专为遥感设计的最优方法高出8.5个百分点。在农业图像分割（Phenobench数据集，区分作物与杂草）任务中，DiGSeg的总体mIoU达到76.66，超出次优方法约1.8个百分点。这两项成绩都是在未对网络结构做任何领域特定调整的情况下取得的，证明了其强大的通用能力。

然而，在医学图像分割（REFUGE-2眼底数据集）上，DiGSeg的表现相对平淡，IoU仅为34.5，远低于专门的医学分割模型（最优可达79.1）。团队对此给出了坦诚的解释：CLIP模型主要在互联网通用数据上训练，其中医学影像极少，导致系统对医学专业概念的图文对齐能力很弱。这是当前方法的一个明确局限，未来需要针对医学领域进行专门的数据适配或模型微调。

八、数据高效性：少量标注下的卓越表现

团队还进行了一项极具实用价值的实验：探究在训练数据不充分时，系统的性能衰减情况。

他们在ADE20K数据集上，依次使用全量数据的1/2、1/4、1/8和1/16进行训练。结果显示，使用一半数据时，性能与使用全量数据几乎无异；即使仅用四分之一数据，结果依然相当强劲。这表明，扩散模型在预训练中积累的视觉知识是真实有效的，只需少量任务特定的标注数据，就能快速激活并迁移到分割任务上。

这种数据高效性对于标注成本高昂的领域（如医学影像、遥感解译）意义重大。当然，如前所述，医学领域还需解决CLIP图文对齐不足的问题，但至少从数据需求的角度看，DiGSeg的框架本身是相当“经济”的。

九、速度与精度的权衡及加速技巧

作为一个基于扩散模型的系统，DiGSeg的推理速度确实比传统的前向传播式分割模型要慢。团队对此非常坦率，并公布了详细的性能-速度数据。

在最快配置下（单次推理、单步去噪），系统处理速度约为每秒11.27张图片，在COCO和ADE20K上的mIoU分别为48.2和56.8。常用的高质量配置（8次推理集成、每次2步去噪），速度降至每秒3.15张，但mIoU提升至50.8和58.6。如果采用完整的50步去噪、20次推理，速度会骤降至每秒0.12张，而mIoU仅微升至50.9和58.8，性价比极低。

对于大多数非实时应用场景（如批量医学影像分析、遥感处理），每秒3到11张的速度是可以接受的。并且，扩散模型加速是当前的研究热点，团队指出，未来应用知识蒸馏、一致性模型等技术，推理速度还有很大的提升空间。

十、跨领域迁移的关键：数据相关性优于数据量

团队还做了一个有趣的实验，探究“用什么数据预训练的模型，迁移到新领域效果更好”。他们分别用仅COCO数据、仅ADE20K数据、以及两者混合数据训练的模型，在城市驾驶场景数据集Cityscapes和BDD100K上进行测试。

结论非常明确：仅用ADE20K训练的模型，在两个驾驶数据集上的表现（mIoU分别为41.22和37.55）全面优于仅用COCO训练（37.80, 35.76）和两者混合训练（38.74, 36.89）的版本。

原因在于，ADE20K包含了极其丰富的场景类别和细粒度标注，对室外街景的语义覆盖更全面。而混合COCO数据后，反而因为COCO的标注风格和类别分布与驾驶场景不完全匹配，带来了干扰。这个结果提示我们，在选择预训练数据时，数据与目标领域的相关性，往往比数据的绝对数量更为重要。

总结与展望

归根结底，DiGSeg这项研究的核心价值，在于它对“生成模型”与“理解模型”之间那道传统界限提出了有力质疑。长期以来，业界默认这两类任务应该分开处理。但扩散模型在学习“修复图像”的过程中，已经不可避免地深度理解了图像本身，而这种理解恰恰是分割等感知任务所需要的。

DiGSeg的实践意义，不仅在于它在多项评测中取得了领先，更在于它指明了一条新路径：未来或许无需为每个视觉任务从头收集大量数据、设计专用架构。相反，可以从已具备海量视觉知识的生成模型出发，以相对低的成本迁移到各种理解任务上。这对于标注数据稀缺的专业领域（如医学、农业、遥感），意味着切实可行的降本增效方案。

当然，DiGSeg也揭示了一些待解的挑战。在医学图像上的表现短板，说明完全依赖CLIP的通用图文对齐来处理专业领域是远远不够的。此外，与传统模型相比，其速度仍是软肋，尽管已有加速手段。扩散模型本质上的概率生成特性导致的输出随机性，在要求确定性的场景下也需要额外处理。

Q&A

Q1：DiGSeg和普通图像分割模型有什么本质区别？

传统分割模型是专门为“识别并划定区域”这个任务从零开始训练的，类别固定，跨领域泛化能力通常有限。DiGSeg则是对“生成图像”的扩散模型进行改造而来，它充分利用了扩散模型在预训练中内化的大量通用视觉知识。这带来了两大优势：一是对任务专属标注数据的需求量小，二是天然支持用自然语言描述任意类别进行分割，不受训练时预设类别的限制。

Q2：DiGSeg在医学图像上效果为什么不好？

核心原因在于其文本理解模块CLIP是在互联网通用图像-文本对上训练的，其中医学影像数据极其稀少。因此，系统难以建立“视神经盘”、“肿瘤边界”等专业医学概念与对应图像区域之间的准确关联。相比之下，专门在大量医学影像上训练的分割模型，在这方面自然具备先天优势。

Q3：DiGSeg速度够快吗，能用于实时场景吗？

在最快的配置下（单次推理、单步去噪），DiGSeg的处理速度约为每秒11张图片，这对于非严格实时的批量处理场景（如遥感分析、医学筛查）是足够的。但如果追求最高精度（采用8次推理集成），速度会降至每秒约3张，难以满足自动驾驶等需要每秒数十帧处理的实时应用需求。不过，扩散模型加速技术正在快速发展，未来通过模型蒸馏等手法，其速度有望得到显著提升。

来源：https://www.163.com/dy/article/KSOQS2JN0511DTVV.html

浙江大学

上一篇比亚迪大汉纯电续航1000公里对标56E车型参数曝光 下一篇AI回答第一个字就暴露真假？识别AI胡说八道的关键信号

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。