上海交大与阿里研发AI图像分割新方法无需复杂特征提取直接生成

首页

热心网友

转载

2026-05-14

上海交通大学人工智能学院与阿里巴巴集团在2026年3月联合发布了一项图像分割领域的突破性研究。该研究提出的GenMask方法，从根本上革新了计算机视觉中目标分割的技术路径，实现了从“分析后勾勒”到“直接生成”的范式转变。相关核心论文已在arXiv平台公开发布，论文编号为2603.23906v2。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

上海交通大学联合阿里巴巴：AI终于学会了直接

在传统的图像分割任务中，例如用户指令“请分割出图中戴红帽子的狗”，模型的处理流程如同一位新手画师临摹：需要先通过复杂的特征提取网络（如放大镜般）分析图像的色彩、纹理、边缘等细节，再将提取的特征逐步解码、传递，最终生成目标物体的轮廓掩码。这个过程不仅步骤繁琐，且任何环节的特征偏差都可能导致最终分割结果不准确。

GenMask的研究团队提出了一个革命性的思路：为何不让AI模型像一位成熟的艺术家或剪纸大师那样，直接在“画布”上生成最终的分割结果？这旨在彻底省去中间复杂的特征提取与传递流水线，实现端到端的“一步到位”分割，从而提升效率与精度。

然而，实现“直接生成分割图”面临一个核心挑战：彩色图像（RGB）与二值分割掩码（Mask）的数据特性存在本质差异。彩色图像富含细腻的渐变和纹理，而分割掩码则要求轮廓清晰、界限分明，具有更强的结构性和抗噪性。

为量化这一差异，团队设计了一个巧妙的噪声鲁棒性实验：向两种数据中注入不同程度的噪声（可理解为给图像添加“雪花”干扰）。实验结果证实，即使在强噪声干扰下，分割掩码所蕴含的物体轮廓和位置信息依然保持相对清晰；而彩色图像的细节则迅速模糊。这揭示了分割掩码本身具备更强的“抗干扰”韧性，为直接生成路径提供了关键的理论依据。

基于此洞察，团队设计了一套差异化的训练策略。他们采用了一种差异化的时间步采样方法：对于生成彩色图像的任务，主要在中低噪声水平下进行训练，以更好地学习丰富的纹理与色彩过渡；而对于生成分割掩码的任务，则侧重在更高噪声水平的“极端”环境下进行训练，迫使模型专注于捕捉和强化物体最核心、最鲁棒的轮廓与结构信息，过滤掉无关的纹理细节干扰。

在技术架构上，GenMask以先进的扩散变换器（Diffusion Transformer, DiT）为基础框架。研究团队对其进行了针对性优化与改造，使其能够统一处理图像生成与分割生成两项任务。为了精准理解用户如“戴红帽子的狗”这样的自然语言指令，系统引入了视觉语言大模型作为“翻译官”，将文本描述转化为模型可理解的语义指导。此外，在执行分割任务时，模型还会接收原始图像的底层视觉特征（如边缘、纹理等），这相当于为“生成器”提供了更优质的参考信息，辅助其进行更精确的“创作”。

训练目标的设计也体现了高效性。传统分割方法常使用像素级的二元交叉熵损失，而GenMask则在模型的潜在特征空间中直接采用均方误差损失进行优化。这不仅大幅降低了计算复杂度，而且与扩散模型的核心训练目标保持一致，避免了多任务优化时的内在冲突。

得益于在强噪声环境下训练的鲁棒性，GenMask模型在实际推理（分割）时，往往只需一次前向计算就能产生高质量的分割结果，实现了高效的“一步生成”。这极大地提升了处理速度，使得模型部署和应用更加简洁实用。

研究团队在RefCOCO、RefCOCO+、RefCOCOg等多个权威的指代图像分割基准数据集上进行了全面评估。实验结果表明，GenMask的各项性能指标均达到了业界领先水平。尤其在RefCOCO测试集上，其分割准确率达到了83.3%，相较于之前的最佳方法有显著提升。

通过系统的消融实验，团队验证了每个核心设计模块的有效性。他们发现，差异化的时间步采样策略对性能提升至关重要，其中对分割任务采用偏向高噪声的长尾分布训练，带来的改善最为明显。同时，联合训练图像生成与分割任务产生了积极的协同效应，生成任务的数据也间接助力了分割精度的提高。

除了标准的指代分割，GenMask还展现了处理需要基础逻辑判断的“推理分割”任务的能力。例如，当指令是“请分割出最高的人”时，模型需要先比较图中所有人的身高，再定位目标。通过引入多阶段推理流程，GenMask在此类复杂任务上也展现了不俗的潜力。

这项研究的价值深远。在应用层面，它为智能图像编辑、自动驾驶环境感知、医学影像分析等领域开辟了新思路。用户可以用自然语言交互实现精准抠图；自动驾驶系统能更可靠地识别关键物体；医生可快速定位影像中的病灶区域。

从方法论角度看，它展示了统一生成式建模框架的强大潜力。将图像生成与分割两大任务置于同一范式下，不仅简化了系统架构，还促进了任务间的知识共享与性能提升。这种“直接生成”的思路也增强了AI模型的可解释性，使其决策过程更为直观。

当然，研究团队也指出了当前方法的局限，例如在应对某些极端复杂场景或小目标时性能仍有提升空间。未来，如何将这一针对静态图像的先进方法有效扩展到视频分割等动态场景，是重要的探索方向。

总而言之，GenMask标志着图像分割技术的一次重要演进。它启示我们，解决复杂视觉问题有时无需叠加更多模块，而应回归本质，探索更直接、更高效的路径。这种“直接在画布上生成答案”的AI图像分割方法，兼具技术优雅性与实用高效性，有望推动人工智能技术在更多实际场景中落地生根。

Q&A

Q1：GenMask是如何实现直接生成分割结果的？

A：GenMask的核心在于训练一个基于扩散变换器（DiT）的统一模型，使其能够直接在特征空间中生成最终的分割掩码图，从而完全绕过了传统方法中必需的特征提取、编解码等复杂中间流程。它采用差异化的时间步采样训练策略，让模型主要在抗干扰性强的高噪声环境中学习分割图的生成规律，最终实现仅需一次前向计算即可输出高精度分割结果。

Q2：为什么GenMask对分割图采用极端噪声训练策略？

A：因为研究发现，二值分割掩码图与彩色图像在数据特性上存在本质差异。分割图具有轮廓清晰、结构性强和天然抗噪声干扰的特点。通过在极端噪声条件下进行针对性训练，模型被迫学习和强化对物体最核心、最鲁棒的轮廓与结构特征的理解，同时过滤掉无关的纹理细节干扰，从而生成更准确、更稳定的分割结果。

Q3：GenMask在实际应用中有哪些优势？

A：GenMask的主要优势体现在三个方面：一是流程简化与高效，摒弃了复杂的中间步骤，实现端到端的一步生成，计算效率显著提升；二是架构统一与易部署，基于统一的扩散生成框架，无需附加复杂的后处理模块，系统整体更简洁；三是性能领先，在RefCOCO等多个权威基准测试集上的分割准确率均达到或超越了当前最优水平，实用性强。

来源:https://www.techwalker.com/2026/0408/3183388.shtml

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：思科为何专注AI基础设施而非模型研发下一篇：北京大学AI新突破聊天机器人快速定位关键信息告别大海捞针