ICML 2026视觉分割新突破边看边改方法提升准确率9%

首页

AI资讯

热心网友

转载

2026-05-28

视觉分割任务看似直接：给定一张图像和一句描述，要求模型精确勾勒出目标物体的像素轮廓。然而在实际应用中，模型常常面临挑战。当目标定义模糊、被部分遮挡，或需要结合常识进行推理才能定位时，一次性生成准确的掩码就变得异常困难。

问题的症结何在？复旦大学与创智联合团队的最新研究RSAgent提出了一个深刻见解：现有方法所欠缺的，或许并非更强大的分割头，而是一个“验证与迭代优化”的闭环过程。他们提出的框架，使多模态大模型能够通过多轮工具调用，像人类一样“边观察边修正”，最终输出更可靠的掩码结果。这项创新工作已被ICML 2026接收。

让大模型“边看边改”，视觉分割准确率直接上涨9%

实验数据证实了这一思路的有效性。在需要复杂推理的ReasonSeg测试集上，RSAgent的gIoU指标相比Seg-Zero-7B显著提升了9.0个百分点；在RefCOCOg数据集上也取得了81.5%的平均cIoU，展现了卓越的开放词汇分割性能。

开放语义分割的核心挑战

当前的多模态大语言模型（MLLM）已能流畅完成图像描述、问答和关系理解等任务。然而，现实世界的视觉系统需求更为深入。无论是交互式图像标注、机器人环境感知，还是设计辅助与工业质检，都要求模型能将语言指令精准地映射到图像的像素级区域。换言之，模型必须在“理解语义”与“生成精确掩码”之间建立稳定可靠的桥梁。

真正的难点在于“开放语义”的复杂性。用户指令往往不是简单的物体类别名称，而是包含模糊指代和推理需求的描述，例如“图片左侧被人拿起的物品”，或“识别湍急水流中用于保障个人安全的装备”。前者考验模型对空间关系的理解，后者则需要场景常识和功能推理。面对此类指令，若模型仅依赖单次前向预测，则难以验证其初始定位是否正确。

因此，现有技术路线的短板，可能并不在于“无法生成掩码”，而恰恰在于“缺乏一个确认与迭代优化的机制”。一旦初始定位出现偏差，或提示点落在背景区域，模型往往就失去了重新审视、调整策略的机会。RSAgent正是针对这一痛点，将分割任务从静态预测转变为动态交互过程。其核心思想是：赋予模型在开放语义任务中“先判断、再行动、观察反馈、后修正”的闭环能力。

解决方案：赋予MLLM推理与行动能力

RSAgent的关键设计在于，并非将MLLM直接改造为掩码解码器，而是使其成为能够调度各类视觉工具的智能体。在每一轮交互中，模型接收原始图像、文本指令以及历史观察结果，随后输出结构化的推理过程和工具调用指令。视觉工具（如分割模型）则返回局部视图、候选掩码或叠加效果图。模型基于这些反馈，决定是继续调用工具、调整提示，还是提交最终答案。

下图直观对比了LISA、Seg-Zero等单次预测方法与RSAgent多轮交互策略的区别。后者通过持续的定位、观察与修正，逐步逼近目标区域。

让大模型“边看边改”，视觉分割准确率直接上涨9%

RSAgent的整体框架如下图所示，涵盖了多轮交互、工具调用、观察反馈，以及核心的训练策略：冷启动监督微调（cold-start SFT）和智能体强化学习（agentic RL）。

让大模型“边看边改”，视觉分割准确率直接上涨9%

具体的技术模块及其功能，可参考下图分解：

让大模型“边看边改”，视觉分割准确率直接上涨9%

在数据构建层面，RSAgent通过自动化合成与严格筛选来构建高质量的训练轨迹。论文中用于冷启动SFT的数据包含了约5千条高质量的多轮推理轨迹；在RL阶段，则使用了约2千个强化学习示例，并额外加入了8千个RefCOCOg训练样本，使模型能在交互环境中学习回报更高的工具调用路径。下图展示了其数据生成与过滤流程。

让大模型“边看边改”，视觉分割准确率直接上涨9%

可以说，RSAgent的创新之处不仅在于“调用了工具”，更在于将推理、工具使用、反馈与奖励机制整合为一个统一的训练体系。模型不仅要理解目标是什么，还要学会自适应地决定何时缩放视图、在何处提供提示、如何进行分割以及何时停止，最终将开放的语义理解转化为准确的像素级掩码。

具体到单次交互循环，可分解为四个步骤：

观察（Observation）：读取图像与历史交互结果；
思考（Thought）：用自然语言分析当前候选区域是否满足指令要求；
行动（Action）：选择合适工具并给出像素级提示（如点或框）；
反馈（Feedback）：接收工具输出并写入上下文，供下一轮决策参考。

这一循环使模型摆脱了对单次判断的绝对依赖，拥有了逐步验证的机制。这对于处理关系型（如“左边的”）、属性型（如“红色的”）或需要隐含推理（如“能用来救生的”）的指令尤其有效。当目标物体较小、被遮挡，或需要根据动作和相对位置来判定时，RSAgent可先进行粗定位，再查看局部区域，然后根据候选掩码的偏差重新指定提示点，从而提供了一个可审查的中间过程。

在训练策略上，冷启动SFT解决了“能否按规范工作”的问题，让模型掌握工具调用的语法和基本的反思流程；而智能体RL则解决了“如何做得更好”的问题，通过奖励信号来优化多轮决策路径。两者结合，使得RSAgent既能稳定输出结构化结果，也能在复杂的开放语义样本上学习更优的决策序列。

实验结果：在ReasonSeg与RefCOCOg基准上取得领先

研究团队以Qwen2.5-VL-7B-Instruct为基础模型，SAM2-large作为分割工具，在RefCOCO系列和ReasonSeg基准上进行了系统评估。他们对比了传统视觉语言分割器、单次预测的MLLM分割方法、显式思维链/强化学习方法以及多轮工具调用智能体等多种方案。

下图表明，RSAgent在RefCOCO系列（RES）和ReasonSeg基准上均取得了领先的性能表现。

让大模型“边看边改”，视觉分割准确率直接上涨9%

具体的评测数据如下：

让大模型“边看边改”，视觉分割准确率直接上涨9%

在ReasonSeg测试集上，RSAgent达到了66.5%的gIoU，相比Seg-Zero-7B的57.5%提升了9.0个百分点；在RefCOCOg上，平均cIoU达到约81.5%。这对于依赖开放语义推理的目标分割任务而言，意味着模型不仅能理解复杂描述，还能更稳健地将理解转化为准确的掩码。

消融实验进一步揭示，性能提升并非源于单一模块。未经训练的智能体在ReasonSeg测试集上cIoU仅为30.1；加入冷启动SFT后提升至55.4；仅使用RL为54.3；而完整的SFT+RL组合则达到了57.9。这清晰地表明，先让模型学会规范的工具调用，再通过强化学习优化长程决策，是RSAgent成功的关键。

下图展示了最大工具调用轮数的消融实验结果。适当增加交互轮数可以提升表现，但过长的上下文可能带来冗余和不稳定。

让大模型“边看边改”，视觉分割准确率直接上涨9%

奖励函数的设计同样至关重要。实验发现，移除最终掩码质量奖励（final reward）、过程奖励（process reward）或格式奖励（format reward）都会导致性能下降。其中，去掉最终质量奖励后，ReasonSeg测试集上的cIoU从57.9大幅降至48.3，说明生成高质量的最终掩码仍是核心目标。而过程奖励则能鼓励模型在中间步骤持续改进，而不是盲目增加工具调用次数。