上海交大与阿里研发AI图像分割新方法 无需复杂特征提取直接生成
上海交通大学人工智能学院与阿里巴巴集团在2026年3月联合发布了一项图像分割领域的突破性研究。该研究提出的GenMask方法,从根本上革新了计算机视觉中目标分割的技术路径,实现了从“分析后勾勒”到“直接生成”的范式转变。相关核心论文已在arXiv平台公开发布,论文编号为2603.23906v2。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

在传统的图像分割任务中,例如用户指令“请分割出图中戴红帽子的狗”,模型的处理流程如同一位新手画师临摹:需要先通过复杂的特征提取网络(如放大镜般)分析图像的色彩、纹理、边缘等细节,再将提取的特征逐步解码、传递,最终生成目标物体的轮廓掩码。这个过程不仅步骤繁琐,且任何环节的特征偏差都可能导致最终分割结果不准确。
GenMask的研究团队提出了一个革命性的思路:为何不让AI模型像一位成熟的艺术家或剪纸大师那样,直接在“画布”上生成最终的分割结果?这旨在彻底省去中间复杂的特征提取与传递流水线,实现端到端的“一步到位”分割,从而提升效率与精度。
然而,实现“直接生成分割图”面临一个核心挑战:彩色图像(RGB)与二值分割掩码(Mask)的数据特性存在本质差异。彩色图像富含细腻的渐变和纹理,而分割掩码则要求轮廓清晰、界限分明,具有更强的结构性和抗噪性。
为量化这一差异,团队设计了一个巧妙的噪声鲁棒性实验:向两种数据中注入不同程度的噪声(可理解为给图像添加“雪花”干扰)。实验结果证实,即使在强噪声干扰下,分割掩码所蕴含的物体轮廓和位置信息依然保持相对清晰;而彩色图像的细节则迅速模糊。这揭示了分割掩码本身具备更强的“抗干扰”韧性,为直接生成路径提供了关键的理论依据。
基于此洞察,团队设计了一套差异化的训练策略。他们采用了一种差异化的时间步采样方法:对于生成彩色图像的任务,主要在中低噪声水平下进行训练,以更好地学习丰富的纹理与色彩过渡;而对于生成分割掩码的任务,则侧重在更高噪声水平的“极端”环境下进行训练,迫使模型专注于捕捉和强化物体最核心、最鲁棒的轮廓与结构信息,过滤掉无关的纹理细节干扰。
在技术架构上,GenMask以先进的扩散变换器(Diffusion Transformer, DiT)为基础框架。研究团队对其进行了针对性优化与改造,使其能够统一处理图像生成与分割生成两项任务。为了精准理解用户如“戴红帽子的狗”这样的自然语言指令,系统引入了视觉语言大模型作为“翻译官”,将文本描述转化为模型可理解的语义指导。此外,在执行分割任务时,模型还会接收原始图像的底层视觉特征(如边缘、纹理等),这相当于为“生成器”提供了更优质的参考信息,辅助其进行更精确的“创作”。
训练目标的设计也体现了高效性。传统分割方法常使用像素级的二元交叉熵损失,而GenMask则在模型的潜在特征空间中直接采用均方误差损失进行优化。这不仅大幅降低了计算复杂度,而且与扩散模型的核心训练目标保持一致,避免了多任务优化时的内在冲突。
得益于在强噪声环境下训练的鲁棒性,GenMask模型在实际推理(分割)时,往往只需一次前向计算就能产生高质量的分割结果,实现了高效的“一步生成”。这极大地提升了处理速度,使得模型部署和应用更加简洁实用。
研究团队在RefCOCO、RefCOCO+、RefCOCOg等多个权威的指代图像分割基准数据集上进行了全面评估。实验结果表明,GenMask的各项性能指标均达到了业界领先水平。尤其在RefCOCO测试集上,其分割准确率达到了83.3%,相较于之前的最佳方法有显著提升。
通过系统的消融实验,团队验证了每个核心设计模块的有效性。他们发现,差异化的时间步采样策略对性能提升至关重要,其中对分割任务采用偏向高噪声的长尾分布训练,带来的改善最为明显。同时,联合训练图像生成与分割任务产生了积极的协同效应,生成任务的数据也间接助力了分割精度的提高。
除了标准的指代分割,GenMask还展现了处理需要基础逻辑判断的“推理分割”任务的能力。例如,当指令是“请分割出最高的人”时,模型需要先比较图中所有人的身高,再定位目标。通过引入多阶段推理流程,GenMask在此类复杂任务上也展现了不俗的潜力。
这项研究的价值深远。在应用层面,它为智能图像编辑、自动驾驶环境感知、医学影像分析等领域开辟了新思路。用户可以用自然语言交互实现精准抠图;自动驾驶系统能更可靠地识别关键物体;医生可快速定位影像中的病灶区域。
从方法论角度看,它展示了统一生成式建模框架的强大潜力。将图像生成与分割两大任务置于同一范式下,不仅简化了系统架构,还促进了任务间的知识共享与性能提升。这种“直接生成”的思路也增强了AI模型的可解释性,使其决策过程更为直观。
当然,研究团队也指出了当前方法的局限,例如在应对某些极端复杂场景或小目标时性能仍有提升空间。未来,如何将这一针对静态图像的先进方法有效扩展到视频分割等动态场景,是重要的探索方向。
总而言之,GenMask标志着图像分割技术的一次重要演进。它启示我们,解决复杂视觉问题有时无需叠加更多模块,而应回归本质,探索更直接、更高效的路径。这种“直接在画布上生成答案”的AI图像分割方法,兼具技术优雅性与实用高效性,有望推动人工智能技术在更多实际场景中落地生根。
Q&A
Q1:GenMask是如何实现直接生成分割结果的?
A:GenMask的核心在于训练一个基于扩散变换器(DiT)的统一模型,使其能够直接在特征空间中生成最终的分割掩码图,从而完全绕过了传统方法中必需的特征提取、编解码等复杂中间流程。它采用差异化的时间步采样训练策略,让模型主要在抗干扰性强的高噪声环境中学习分割图的生成规律,最终实现仅需一次前向计算即可输出高精度分割结果。
Q2:为什么GenMask对分割图采用极端噪声训练策略?
A:因为研究发现,二值分割掩码图与彩色图像在数据特性上存在本质差异。分割图具有轮廓清晰、结构性强和天然抗噪声干扰的特点。通过在极端噪声条件下进行针对性训练,模型被迫学习和强化对物体最核心、最鲁棒的轮廓与结构特征的理解,同时过滤掉无关的纹理细节干扰,从而生成更准确、更稳定的分割结果。
Q3:GenMask在实际应用中有哪些优势?
A:GenMask的主要优势体现在三个方面:一是流程简化与高效,摒弃了复杂的中间步骤,实现端到端的一步生成,计算效率显著提升;二是架构统一与易部署,基于统一的扩散生成框架,无需附加复杂的后处理模块,系统整体更简洁;三是性能领先,在RefCOCO等多个权威基准测试集上的分割准确率均达到或超越了当前最优水平,实用性强。
相关攻略
上海交通大学人工智能学院与阿里巴巴集团在2026年3月联合发布了一项图像分割领域的突破性研究。该研究提出的GenMask方法,从根本上革新了计算机视觉中目标分割的技术路径,实现了从“分析后勾勒”到“直接生成”的范式转变。相关核心论文已在arXiv平台公开发布,论文编号为2603 23906v2。 在
今年三月,计算机视觉领域的顶级会议CVPR迎来了一项来自上海交通大学、南京大学、复旦大学与上海人工智能实验室的联合研究成果。该团队开发了一个名为CTRL-S的革命性AI系统,它不仅能够根据文字描述或参考图片生成高质量的SVG矢量图形,其核心突破在于赋予了AI类似人类设计师的“规划与解释”能力,使其能
看到一道几何题或物理图表,我们通常能迅速抓住关键信息。但你是否想过,那些号称“智能”的AI模型,在面对同样的STEM(科学、技术、工程、数学)图像时,为何总会犯一些令人费解的低级错误? 答案可能比想象中更简单,也更碘伏直觉。一项由上海交通大学、阿里巴巴达摩院Qwen团队等多家机构联合开展的研究,于2
上海交通大学计算机科学与工程学院研究团队于2026年3月9日在计算机安全顶级期刊上发表了一项突破性研究(论文编号:arXiv:2603 08316v1),首次揭示了一种全新的AI安全威胁。该研究发现,恶意攻击者能够利用特定手段,诱导AI助手在执行任务时故意“拖延时间”,从而严重损害用户体验与系统运行
2026年2月,一项由上海交通大学与腾讯优图实验室合作完成的研究在arXiv预印本平台发布,论文编号为arXiv:2602 03075v1。这项研究提出了一种碘伏性的AI训练新范式,让大型语言模型在训练过程中实现了“自我强化”,彻底打破了传统单向训练的局限。 回想一下传统的AI训练,是不是很像一条单
热门专题
热门推荐
这项由清华大学、美团、香港大学等多家顶尖机构联合开展的研究,于2026年3月以预印本论文(arXiv:2603 25823v1)的形式发布。它直指当前AI视觉生成领域一个被长期忽视的核心问题:这些能画出“神作”的模型,到底有多“聪明”?研究团队为此构建了一套全新的测试基准——ViGoR-Bench,
人工智能的浪潮席卷了各个领域,机器在诸多任务上已展现出超越人类的能力。然而,有一个看似寻常却异常复杂的领域,始终是AI研究者们渴望攻克的堡垒——让机器像真正的学者那样,撰写出一篇结构严谨、逻辑自洽、图文并茂的完整科学论文。这远比下棋或识图要困难得多。 2026年3月,一项由中科院AgentAlpha
这项由法国Hornetsecurity公司与里尔大学、法国国家信息与自动化研究院(Inria)、法国国家科学研究中心(CNRS)以及里尔中央理工学院联合开展的研究,发表于2026年3月31日的计算机科学期刊,论文编号为arXiv:2603 29497v1。 在信息爆炸的今天,我们每天都在网上留下数字
当你满怀期待地拆开一台全新的智能设备,最令人困扰的往往不是如何使用它,而是如何让它真正“理解”指令并智能地执行任务。如今,一个更为优雅的解决方案可能已经出现。来自清华大学深圳国际研究生院与哈尔滨工业大学(深圳)的联合研究团队,近期取得了一项极具前瞻性的突破:他们成功训练人工智能自主“撰写”并精准理解
2026年3月,来自华盛顿大学、艾伦人工智能研究所和北卡罗来纳大学教堂山分校的研究团队,在图像智能矢量化领域取得了一项突破性进展。这项研究(论文编号:arXiv:2603 24575v1)开发了一个名为VFig的AI系统,它能够将静态的栅格图像智能地转换为可自由编辑的矢量图形,如同一位“图形考古学家





