首页 游戏 软件 资讯 排行榜 专题
首页
AI
浙江大学联合研发万能分割学习器DiffusionSAM图像分割新突破

浙江大学联合研发万能分割学习器DiffusionSAM图像分割新突破

热心网友
33
转载
2026-05-13

这项由浙江大学、华南理工大学、南京大学和北京大学联合开展的前沿研究,已于2026年4月正式发布,相关论文预印本编号为arXiv:2604.24575。对通用图像分割技术感兴趣的读者,可通过此编号在arXiv平台查阅完整论文内容。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

当扩散模型遇上图像分割:浙江大学等机构携手开发的

图像分割作为计算机视觉的核心技术,其应用已无处不在。从智能手机的智能抠图、医疗影像的病灶自动识别,到自动驾驶系统的环境感知,这项技术让机器能够精准理解图像中“什么是主体,什么是背景”。然而,该领域长期面临一个根本性挑战:模型的专业化壁垒。一个在医疗CT影像上表现出色的分割模型,往往难以直接应用于农业病虫害检测或卫星图像分析。因此,开发一个真正通用的“万能”图像分割系统,成为学术界与工业界共同追求的目标。

在此背景下,浙江大学等顶尖研究机构提出了一种创新解决方案。团队敏锐地发现,当前炙手可热的扩散模型(即各类AI图像生成工具的核心技术)在“学习绘画”的过程中,已经内化了对视觉世界深层结构的强大理解力。他们创造性地提出:何不将这种生成能力“转化”为精准的分割能力?由此,一个名为DiGSeg的系统诞生了,其全称“Diffusion Models as a Generalist Segmentation Learner”直指核心——让扩散模型成为通用的分割学习器。

一、扩散模型:从“图像生成器”到“视觉理解者”的蜕变

要理解DiGSeg的突破性,首先需要认识扩散模型的本质。我们可以将其比喻为一位经过海量训练的“图像修复大师”。其训练过程独特:模型学习如何将一张被逐步添加噪声直至完全模糊的图像,一步步还原回清晰原图。这个过程好比让一位大师反复练习将一幅被层层覆盖的画作复原,在此过程中,它深刻掌握了图像的结构、纹理与语义关联。

Stable Diffusion等知名AI绘画工具正是基于此原理。它们通过“观察”互联网上数十亿张图像,在无数次“破坏与重建”的循环中,构建起一个关于视觉世界的庞大知识库。以往,人们主要利用这种模型进行图像生成。但DiGSeg团队洞察到,这位“修复大师”所内化的视觉知识,正是进行高精度图像分割所需的底层能力。这就像一位精通所有菜系原理的特级厨师,完全有能力快速掌握食品雕刻这门新技艺。

二、技术演进:为何早期方法难以达到实用精度?

在DiGSeg之前,已有研究者尝试利用扩散模型进行分割,主流方法是分析模型的“注意力图谱”。这可以理解为模型在处理图像时,对不同区域关注程度的可视化热力图。例如,当输入“狗”的文本提示时,图中狗所在的区域会呈现高亮。

然而,这种方法效果有限。因为这些注意力图谱本质上是模型生成图像时的“副产品”,并非为像素级分割而优化,存在分辨率低、边界模糊、结果不稳定等固有缺陷。这好比试图用斧头进行微雕,工具本身就不适合精细作业。此外,这类方法通常泛化能力弱,难以适应多样化的分割任务。

DiGSeg团队摒弃了这种间接利用的思路,转而采用更直接的路径:重新训练扩散模型,使其能够直接输出高质量的分割结果。

三、DiGSeg架构解析:如何将生成模型重塑为分割专家

DiGSeg的核心思想可以用一个比喻来理解:假设有一位绘画功底深厚的艺术家,我们无需教他从头学习素描,只需引导他将已有的造型能力,专注于绘制精确的工程图纸。DiGSeg正是对预训练的扩散模型进行“能力迁移”和“任务微调”。

整个系统由三个核心模块协同工作:

视觉潜在编码器: 团队利用扩散模型自带的图像编解码器,将输入的RGB图像和对应的分割标注图,都转换为一种高效的“潜在表示”。这是一种数据压缩技术,能在保留关键信息的同时大幅提升处理效率。针对分割标注图是单通道(黑白)的特点,团队采用了一个巧妙的技巧:将其复制成三份,模拟成彩色图像输入。实验证明,这种处理方式的重建误差极小,完全可行。

CLIP文本对齐模块: 为了赋予模型理解自然语言指令的能力,DiGSeg集成了OpenAI的CLIP模型。这使得系统能够根据文本描述(如“分割出所有的汽车”)来定位和分割对应物体。这项技术的关键优势在于支持“开放词汇分割”——用户可以在使用时自由指定任何类别名称,而无需局限于训练时预设的固定类别列表。

改进型去噪U-Net(核心引擎): U-Net是扩散模型中执行去噪还原的核心神经网络。DiGSeg对其训练目标进行了根本性改造:在训练时,系统向分割标注的潜在表示中添加噪声,然后让U-Net在参考原始图像和文本描述的条件下,学习如何一步步去除噪声,还原出准确的分割图。这意味着模型直接学习的是“生成分割掩模”,而非“生成逼真图片”。训练中,团队冻结了模型的大部分参数,仅微调负责图文交互的少量层,从而高效地保留了模型预训练获得的通用视觉知识。

四、工作流程:从随机噪声到精准分割图的生成

模型训练完成后,其推理过程清晰高效:对于一张待分割的图片,系统首先将其编码,并初始化一个随机噪声张量。随后,在图像内容和文本指令的双重引导下,改进后的U-Net逐步将噪声“雕刻”成目标分割图的潜在表示,最后通过解码器得到像素级的分割结果。

其中,团队优化了采样策略。他们发现传统的DDIM采样存在训练与推理的不匹配问题,因此采用了“尾随时间步”对齐策略,大幅提升了效率——仅需一步去噪就能获得可观的结果,这对于通常需要迭代数十步的扩散模型而言是巨大的速度提升。

此外,团队引入了“测试时集成”技术:使用不同的随机种子对同一张图像进行多次推理,然后将结果在潜在空间进行平均,再解码输出。这类似于多位专家独立判断后综合意见,能有效提升结果的稳定性和准确性。测试表明,集成8次效果提升显著,超过10次后收益递减。

在开放词汇分割场景下,系统还包含一个智能的“候选类别筛选”流程。对于新图像,系统先用CLIP模型从庞大的类别词库中快速筛选出最相关的几个候选类别。为避免忽略小物体,图像会被分割成小块进行独立评估。确定候选类别后,系统为每个类别分别生成概率图,最终为每个像素分配概率最高的类别标签。

五、阈值调优:平衡精度与召回的关键参数

由于模型输出的是每个像素属于某类别的概率值(0到1之间),因此需要设定一个阈值(记为τ)来做出最终决策:概率高于阈值的判定为正类,反之则为负类。

深入研究显示,不同类别物体的最优阈值并不相同。例如,目标较大、轮廓清晰的“牛”在较高阈值(约0.76)时效果最好;而形状细长的“瓶子”则在较低阈值(约0.66)时表现更佳。阈值过低会导致小物体预测区域过度膨胀;阈值过高则会损失边界细节。

为了保持系统的简洁性和通用性,团队没有为每个类别单独调参,而是选择了一个在多种任务上综合表现优异的固定值:τ=0.7。在后续的语义分割、开放词汇分割等多项测试中,这个统一的阈值都展现了稳健的性能。

六、噪声策略创新:多分辨率退火噪声提升分割质量

在模型训练中,所添加的噪声类型至关重要。团队在此提出了创新的“多分辨率退火噪声”策略。

普通训练使用的是均匀的高斯噪声,类似于在画面上均匀撒上细沙。而多分辨率退火噪声则是混合了不同“颗粒度”的噪声——既包含高频的细密扰动,也包含低频的大范围扰动。高频噪声迫使模型学习捕捉精细的边缘细节,低频噪声则帮助模型把握整体的语义结构。

“退火”体现在噪声配比的动态变化上:在去噪过程初期(噪声较大时),高频噪声占主导,让模型聚焦细节;随着去噪步骤推进(噪声减小),低频噪声比例增加,引导模型理解整体。这种动态调整机制使得训练更加稳定,生成的分割边界也更加平滑和准确。

消融实验证实了该设计的价值。使用标准高斯噪声时,模型在COCO和ADE20K数据集上的mIoU分别为48.9和56.7;加入退火机制后小幅提升至49.2和57.1;使用多分辨率噪声后显著提升至49.7和57.6;而两者结合则达到了最佳性能50.8和58.6。

七、性能评测:在多项基准测试中展现领先优势

研究团队在多个权威数据集上对DiGSeg进行了全面评估,结果令人印象深刻。

开放词汇分割: 在五个主流基准测试集(A-847, PC-459, A-150, PC-59, Cityscapes)上,当使用强大的CLIP ViT-L/14视觉模型时,DiGSeg的mIoU全面超越此前最优方法,领先幅度在0.6到2.8个百分点之间。即便使用更轻量的CLIP ViT-B/16模型,DiGSeg同样保持领先。值得注意的是,许多对比方法针对特定数据集进行了专门优化,而DiGSeg仅使用一套通用配置。

闭集语义分割: 在COCO和ADE20K这两个经典语义分割数据集上,DiGSeg分别取得了50.8和58.6的mIoU,刷新了当时的性能记录。

跨领域泛化能力: 在遥感图像道路提取(DeepGlobe数据集)任务中,DiGSeg的道路交并比达到65.78,比专为遥感设计的顶尖方法高出8.5个百分点。在农业图像分割(Phenobench数据集)任务中,其总体mIoU为76.66,领先次优方法约1.8个百分点。这两项成绩都是在未对模型架构或训练策略进行任何领域特定调整的情况下取得的,充分证明了其卓越的通用性。

当前局限: 在医学图像分割(REFUGE-2眼底数据集)任务上,DiGSeg的表现(IoU 34.5)远低于专用医学模型(最优可达79.1)。团队分析指出,核心原因在于其依赖的CLIP模型在预训练时接触的医学影像数据极少,导致系统对“视盘”、“杯盘比”等专业概念缺乏图文对齐能力。这是该方法目前需要攻克的一个重要方向。

八、数据效率:小样本学习能力突出

团队进行了一项极具实用价值的实验:探究在训练数据有限时,模型的性能表现。

他们在ADE20K数据集上,依次使用全量数据的1/2、1/4、1/8和1/16进行训练。结果显示,仅使用一半数据时,性能与使用全量数据几乎持平;即使仅用四分之一数据,结果依然强劲。这证明,扩散模型通过大规模生成预训练所积累的视觉先验知识是极其有效的,只需相对少量的任务特定标注数据,就能快速适配到分割任务上。这种高效的数据利用能力,对于标注成本高昂的领域(如医学、遥感)具有重大意义。

九、速度与精度的权衡及优化前景

作为一个基于迭代去噪的扩散模型系统,DiGSeg的推理速度自然无法与传统的单次前向传播分割模型相比。团队对此进行了坦诚的评估。

在最快速的配置下(单次推理、单步去噪),处理速度约为每秒11.27张图像,在COCO和ADE20K上的mIoU分别为48.2和56.8。常用的平衡配置(8次推理集成,每次2步去噪),速度降至每秒3.15张,但mIoU提升至50.8和58.6。若追求极限精度(20次集成,每次50步),速度会骤降至每秒0.12张,而性能提升微乎其微。

对于许多非实时的批量处理场景(如离线医学影像分析、卫星图像处理),每秒数张到十余张的速度是可以接受的。并且,扩散模型加速是当前的研究热点,未来通过知识蒸馏、一致性模型等先进技术,其推理速度仍有巨大的提升空间。

十、数据选择的智慧:质量与相关性胜过单纯的数量

团队还进行了一项富有启发的跨领域实验:探究“使用哪种数据训练的模型,迁移到新领域效果更好”。他们分别使用仅COCO数据、仅ADE20K数据、以及两者混合数据训练的模型,在城市驾驶场景数据集(Cityscapes和BDD100K)上进行测试。

结论非常明确:仅使用ADE20K数据训练的模型,在两个测试集上的性能全面胜出。原因在于,ADE20K数据集包含了极其丰富和细粒度的室外场景标注,其语义覆盖与驾驶场景更具相关性。而混合了COCO数据后,反而因标注风格和类别分布的差异带来了一定干扰。这个结果提示我们,在迁移学习中,预训练数据与目标领域的语义相关性,往往比数据集的绝对规模更为重要。

总结与未来展望

DiGSeg这项研究的深层价值,在于它成功打破了“生成模型”与“理解模型”之间的传统壁垒。长期以来,这两类任务被视为泾渭分明。但扩散模型在学会“生成或修复图像”的过程中,已经深度掌握了图像的结构与语义信息,而这正是分割等感知任务的核心。

DiGSeg的实践意义不仅体现在其领先的评测指标上,更在于它开辟了一条新的技术路径:未来或许无需为每一个新的视觉任务从头收集海量标注数据、设计专用网络。相反,可以从已经蕴含了海量视觉知识的生成式基础模型出发,以相对较低的代价,将其能力高效迁移到各种下游理解任务中。这对于数据标注困难或成本高昂的专业领域(如医疗影像分析、农业监测、地质勘探)而言,提供了一个极具潜力的解决方案。

当然,DiGSeg也揭示了当前方法的挑战。其在专业医学图像上的表现不佳,说明完全依赖通用图文对齐模型(如CLIP)处理专业领域存在局限。此外,其推理速度相比传统方法仍有差距,且概率生成特性带来的输出随机性,在要求确定性的工业场景中也需要妥善处理。这些正是未来研究需要着力改进的方向。

常见问题解答

Q1:DiGSeg与传统图像分割模型的核心区别是什么?

A:传统模型是专门为“像素级分类”任务从头设计和训练的,通常类别固定,且跨领域泛化能力较弱。DiGSeg的本质是对一个强大的“图像生成模型”进行改造和微调。它最大的优势在于继承了扩散模型预训练阶段学到的通用视觉知识,因此对任务专属标注数据的需求量更小,并且天然支持通过自然语言指令分割任意类别,突破了固定类别列表的限制。

Q2:DiGSeg在医学图像分割上效果不佳的主要原因是什么?

A:主要瓶颈在于其文本-图像对齐能力依赖于CLIP模型,而CLIP是在互联网通用图文数据上训练的,其中包含的专业医学影像极少。因此,系统难以建立“青光眼”、“肿瘤浸润”等专业医学术语与相应图像区域的准确关联。要提升其在专业领域的性能,可能需要注入领域特定的图文对齐知识。

Q3:DiGSeg的推理速度能否满足实时应用?

A:在其最快的配置下(单步去噪),DiGSeg的处理速度约为每秒11张图像,这对于许多离线或准实时批量处理场景(如遥感图像分析、病理切片筛查)是足够的。但如果采用高精度配置(多次集成),速度会下降,目前难以满足自动驾驶等需要极高帧率的严格实时应用。不过,随着扩散模型加速技术的快速发展,其推理效率未来有望得到显著提升。

来源:https://www.techwalker.com/2026/0512/3186649.shtml
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

浙江大学联合研发万能分割学习器DiffusionSAM图像分割新突破
AI
浙江大学联合研发万能分割学习器DiffusionSAM图像分割新突破

这项由浙江大学、华南理工大学、南京大学和北京大学联合开展的前沿研究,已于2026年4月正式发布,相关论文预印本编号为arXiv:2604 24575。对通用图像分割技术感兴趣的读者,可通过此编号在arXiv平台查阅完整论文内容。 图像分割作为计算机视觉的核心技术,其应用已无处不在。从智能手机的智能抠

热心网友
05.13
浙江大学AI新突破让电脑助手具备人类预见性告别后悔难题
AI
浙江大学AI新突破让电脑助手具备人类预见性告别后悔难题

这项由浙江大学牵头,联合俄亥俄州立大学和浪潮云共同完成的研究成果,已于2026年2月发表在计算机科学预印本论文库arXiv上,论文编号为arXiv:2602 01725v1。 设想这样一个场景:你让AI助手帮忙配置Python开发环境。它检测到需要Python 3 11,而系统当前只有3 8版本,于

热心网友
05.13
阿里云携手JVS开源低代码百校巡讲,赋能校园数字转型
科技数码
阿里云携手JVS开源低代码百校巡讲,赋能校园数字转型

来源:环球网【环球网科技综合报道】3月30日消息,当大学校园里的流行语从“上分”变为“养虾”,一种名为JVS Claw的数字龙虾正悄然成为Z世代的新晋“室友”。近日,阿里云面向全国高校发起百校巡讲活

热心网友
03.30
2026中国科研新范式:GDPS聚焦AI for Science驱动提速
科技数码
2026中国科研新范式:GDPS聚焦AI for Science驱动提速

【文 观察者网 石燕红】3月27日至29日,2026全球开发者先锋大会(GDPS 2026)在上海举行。在“AI4S浙大校友创业论坛”上,浙大校友基金藕舫天使联合浙江大学上海校友会、浙江大学上海高等

热心网友
03.30
我国自然科学与健康科学领域持续领先的研究进展
科技数码
我国自然科学与健康科学领域持续领先的研究进展

来源:光明日报本报北京3月26日电(记者李春剑)26日发布的《自然》增刊《2026自然指数—中国》显示,我国在自然指数中继续居于首位。该数据库追踪了全球自然科学与健康科学领域的高质量科研产出。从20

热心网友
03.27

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

异环梦里什么都有成就解锁全攻略
游戏攻略
异环梦里什么都有成就解锁全攻略

在《异环》这款超自然都市开放世界RPG中,探索与收集是核心玩法之一。游戏内隐藏着许多特殊成就,“梦里什么都有”便是其中一个需要达成特定条件才能触发的趣味彩蛋。如果你正在寻找这份成就的完成方法,本攻略将为你提供详尽的步骤指引。 异环梦里什么都有成就攻略 该成就的触发位置位于卷叶榕大道区域,具体地点在维

热心网友
05.13
洛克王国麦克达克领地试炼通关攻略与技巧详解
游戏攻略
洛克王国麦克达克领地试炼通关攻略与技巧详解

洛克王国本周的领地试炼活动迎来更新,本次挑战的舞台是麦克达克领地。许多玩家都在寻找高效通关的方法,本文将为你带来详细的打法攻略与阵容配置思路。 洛克王国麦克达克领地试炼通关攻略详解 要成功通过麦克达克领地试炼,关键在于合理的属性克制与技能组合。下面分享一套实战有效的通关方案。 方案一:格斗系强攻阵容

热心网友
05.13
Steam社区市场界面升级 新增筛选功能与专属物品展示
游戏资讯
Steam社区市场界面升级 新增筛选功能与专属物品展示

Steam社区市场迎来全面革新,旨在优化海量虚拟物品的交易体验。更新包括更直观的物品展示、自动生成专属图片以及强大的动态筛选功能。所有接入市场的游戏均可受益,浏览与搜索效率显著提升,整体操作更加流畅便捷。

热心网友
05.13
Perplexity AI 快捷键设置指南 提升搜索效率的键盘操作技巧
AI
Perplexity AI 快捷键设置指南 提升搜索效率的键盘操作技巧

Perplexity支持自定义键盘快捷键,用户可在设置中为常用功能绑定组合键。浏览器快捷键可辅助清空输入框或切换结果。Windows用户可利用PowerToys命令面板全局快速启动搜索。此外,通过创建并调用Profile指令前缀,能一键加载特定AI角色与搜索约束。

热心网友
05.13
豆包文字游戏怎么玩 互动设计与玩法全解析
AI
豆包文字游戏怎么玩 互动设计与玩法全解析

设计沉浸式文字游戏需构建“角色-规则-反馈”闭环:以强约束锁定角色与环境,嵌入可验证规则(如数字阈值),确保互动有据。设计多路径反馈链,使选择触发唯一剧情,保持规则一致。注入感官细节提升临场感,并通过隐式状态追踪让游戏世界持续变化。

热心网友
05.13