国产多模态医疗AI实现顶尖医学图像分割性能无需调整模型架构
这项名为IBISAgent的突破性生物医学视觉推理框架,成功入选CVPR 2026!它重新定义了医学图像分割的范式。
人类专家在标注医学图像时,从未采用过“一次看诊、一键生成”的简单方式。
他们的工作流程是先全局观察、初步定位可疑区域,随后利用分割工具反复进行正向与负向点击,并根据每一步生成的掩膜形态动态调整判断与策略——
这是一个典型的多轮交互、动态观察、持续调整的迭代推理与决策过程。
然而,当前主流的医学多模态大模型普遍遵循“单次前向推理”模式:输入图像后直接输出分割掩膜,一步到位。
当面对生物医学图像中普遍存在的微小的病灶边界、重叠的解剖结构、模糊的视觉特征时,这种一次性推理方式往往难以胜任。
更深层次的问题在于,为了让MLLM具备分割能力,现有方法大多引入了隐式的分割标记(例如
总而言之,现有范式存在四大核心瓶颈:
- 单次推理缺乏纠错机制:初始定位一旦出现偏差,错误将在后续步骤中持续累积,最终严重影响分割精度。
- 隐式标记损害模型能力:
等特殊标记破坏了文本空间的连贯性,引发灾难性遗忘,压制了模型进行细粒度视觉推理的潜力。 - 决策过程被动且固化:模型只能被动执行单次指令,无法像人类专家一样主动观察、反思问题并动态调整策略。
- 训练数据缺乏过程监督:现有数据集仅提供最终掩膜标签,缺失了关键的逐步交互推理轨迹,难以直接指导模型学习多步决策行为。
针对以上挑战,浙江大学蔡钰祥教授、上海人工智能实验室研究员江彦开及其合作团队创新性地提出了IBISAgent——一个将分割任务重构为多步视觉决策过程的智能体化MLLM框架。
核心技术方法
IBISAgent的核心创新可以概括为以下几点:
- 将分割任务建模为多步马尔可夫决策过程,用交替进行的文本推理和空间点击动作,完全取代了会损害语言能力的隐式token。这使得MLLM保留了完整的语言推理能力,同时实现了自主的多轮迭代优化。
- 提出了两阶段训练框架。首先通过冷启动监督微调,在自动生成的推理轨迹上建立模型对像素级任务的初步认知;随后引入智能体强化学习,通过设计精细的奖励信号驱动模型主动探索更优的决策策略,超越对现有轨迹的简单模仿。
- 构建了包含456K条高质量推理轨迹的冷启动数据集,覆盖了常规标注和自我反思纠错两种类型,为训练多步视觉推理能力提供了系统化的数据基础。
具体而言,IBISAgent将完整的分割过程建模为一条多步推理轨迹,每一步都包含三个构成决策闭环的核心元素:
- 推理:模型对当前图像及分割掩膜的状态进行分析和描述,例如“当前掩膜偏向左侧,需要在右侧肿瘤边缘补充一个正向点击”。
- 行动:模型输出结构化的空间点击指令,包含三个关键要素:分割目标类别、点击属性(正向/负向)、归一化的图像坐标。模型能在单步中并行输出多个点击指令。
- 观测:点击指令被输入到交互式分割工具MedSAM2中,生成更新后的掩膜,该掩膜会叠加到原始图像上,作为下一步的视觉反馈输入给模型。
这一设计的关键优势在于:模型在每一步都能直观“看到”上一步分割产生的结果
在训练策略上,IBISAgent采用了精心设计的两阶段方案:
第一阶段:冷启动监督微调。
由于现有的生物医学分割数据集只包含最终掩膜,缺少逐步的点击轨迹,研究团队利用BiomedParseData数据集开发了自动轨迹生成算法:通过规则化的点击模拟策略推导出可能的点击序列,再借助Gemini-2.5-Pro大模型为每一步生成对应的自然语言推理描述。
为了提升模型的鲁棒性和纠错能力,额外合成了两类带有自我反思的轨迹:一是“错误自纠正”轨迹,当检测到错误动作后模型会回溯并重新推理;二是“指令不一致纠正”轨迹,当遇到与初始掩膜矛盾的指令时,模型会主动丢弃并重新分割。最终,构建了一个包含456K样本的高质量冷启动数据集。
第二阶段:智能体强化学习。
在SFT之后,模型仍主要模仿已有的轨迹。为了激发其自主决策能力,研究团队引入了强化学习,并设计了细粒度的奖励框架,在每一次交互步骤中都提供密集的反馈信号:
其中,“区域点击奖励”与“渐进式分割改进奖励”是核心创新。前者引导模型将每次点击落在具有语义意义的有效区域内;后者则强制要求每一步行动都必须带来实质性的分割质量提升,从而有效避免了冗余操作和结果震荡。RL训练采用了GRPO算法,并在888K的VQA样本上进行了优化。
实验结果与性能评估
广泛的实验验证表明,IBISAgent在多个评测基准上均展现出卓越性能。无论是在域内测试集、域外泛化数据集(MeCOVQA-G+,涵盖5种成像模态),还是在自建的私有数据集(包含1K CT/MRI/病理图像,覆盖7类癌症)上,其表现均大幅领先于所有对比方法。
与医学专用MLLM基线模型相比,IBISAgent在平均交并比上提升了35.13%,在戴斯相似系数上提升了37.58%,F1分数也提升了29.79%。
需要特别指出的是,对比方法Citrus-V和UniBiomed均在比IBISAgent更大规模的数据集上进行了预训练,而IBISAgent依然能够实现性能超越,这充分证明了其性能提升源于创新的方法设计,而非单纯的数据优势。
与工具增强型智能体的对比分析
与同样能够调用MedSAM2分割工具的其他增强型智能体(如GPT-4o、LLaVA-Med、HuatuoGPT-Vision等)相比,IBISAgent在域外数据集和私有数据集上依然保持着显著的性能领先。这有力地证明了,由多轮交互式自主推理带来的性能增益,远超过简单的工具调用所能达到的效果。
两阶段训练方案的消融研究
消融实验清晰地证明了冷启动SFT、自我反思轨迹合成以及强化学习三个阶段均不可或缺,每一阶段的叠加都带来了明显的性能收益。其中,强化学习阶段贡献了最大的性能跃升,这表明强化学习的探索-利用机制对于激发模型真正自主的像素级推理能力至关重要。
细粒度奖励设计的消融分析
研究团队对强化学习阶段的奖励设计也进行了逐项验证。
以仅使用格式奖励和最终答案奖励作为基线,在域外数据集MeCOVQA-G+上的IoU仅为73.77;当逐步引入“区域点击奖励”后,IoU提升至76.60,掩膜的定位准确性得到显著改善;进一步加入“渐进式分割改进奖励”后,性能跃升至80.61,同时平均交互步数从11.29步压缩至8.12步,表明模型学会了更高效的分割路径;最终,叠加“轨迹长度奖励”后,交互效率继续提升,步数降至4.26步,同时分割质量维持在最高水平。
这一系列结果充分说明,细粒度的逐步反馈信号是驱动模型在分割质量与操作效率之间取得最佳平衡的关键。单纯依赖最终结果的奖励机制无法达到同等的训练效果。
总结与展望
这项研究成功地将生物医学图像分割从传统的“单次推理输出”范式,推进到了“自主多轮交互决策”的新阶段。
针对现有方法因依赖隐式标记而导致模型推理能力退化的问题,IBISAgent创新性地采用交错的文本推理与空间点击动作完全替代了
更进一步,通过冷启动SFT结合自动轨迹生成技术,为模型建立了稳健的推理先验;随后,借助智能体强化学习与精细设计的奖励机制,驱动模型超越简单的轨迹模仿,主动探索最优的决策策略,最终实现了精准、高效的细粒度视觉推理。
广泛的实验验证了IBISAgent在多模态、多疾病复杂场景下的一致性和优越性,为未来构建面向真实临床环境的智能医学图像分析系统奠定了坚实的技术基础。
论文链接:
https://arxiv.org/abs/2601.03054
代码链接:
https://github.com/Yankai96/IBISAgent
相关攻略
这项名为IBISAgent的突破性生物医学视觉推理框架,成功入选CVPR 2026!它重新定义了医学图像分割的范式。 人类专家在标注医学图像时,从未采用过“一次看诊、一键生成”的简单方式。 他们的工作流程是先全局观察、初步定位可疑区域,随后利用分割工具反复进行正向与负向点击,并根据每一步生成的掩膜形
多模态大模型的幻觉问题,一直是阻碍其实际落地的核心挑战。传统观点认为,模型“胡言乱语”源于视觉感知错误。然而,最新研究揭示了一个更深层的原因:很多时候,模型并非“看”错了,而是在推理链条最脆弱的转折点上,“想”偏了方向。 这项关键研究发现,当模型生成“因为”、“但是”、“等等”这类表示因果、转折或反
在人工智能飞速发展的今天,一个令人意外的 "拦路虎 "悄然出现:优质数据正在变得越来越稀缺。当我们还在为ChatGPT等大模型的惊艳表现而惊叹时,研发这些模型的科学家们却已经开始为一个更现实的问题发愁—
当多个AI智能体需要像团队一样协作完成复杂任务时,如何让它们学会更好地配合一直是个棘手问题。来自新加坡南洋理工大学的研究团队最近在这个领域取得了重要突破,他们开发了一套名为Dr MAS的训练方法,
“AIGC(人工智能生成内容)的童年时代结束了。”在试用国产视频生成模型Seedance2 0后,国产游戏《黑神话:悟空》制作人冯骥如是感慨。2月以来,字节跳动即梦AI和快手可灵AI陆续推出“导演级
热门专题
热门推荐
为庆祝成立50周年,苹果在全球多地门店举办系列庆祝活动。最盛大的庆典在其总部ApplePark举行,员工齐聚草坪,传奇音乐人保罗·麦卡特尼登台献唱,首席执行官蒂姆·库克也参与其中。这场科技与艺术交融的盛会,既是对过往传奇的致敬,也寓意着新篇章的开启。
苹果公司成立五十周年之际,首席执行官蒂姆·库克发布内部信回顾历程。信中指出,公司从车库中的一台原型机起步,如今全球活跃设备已达25亿台。库克强调,未来需主动创造而非等待,并鼓励员工铭记创新精神,共同把握机遇,开创下一个五十年。
苹果CEO库克在专访中回顾了iPod的诞生历程。该产品以口袋装千首歌的能力革新了音乐消费方式。其爆红要求苹果在三个月内生产约1500万台,这极大考验了供应链。此次极限压力测试为苹果锻造出世界级供应链能力奠定了基础。库克还透露,首台原型机播放的第一首歌是《HeyJude》。
知名投资人段永平家族办公室持仓市值升至约200亿美元。本季度清仓阿里,减持苹果、台积电;重仓AI与电动车赛道,大幅增持英伟达并新建仓特斯拉,拼多多获增持。其首次跨足Web3领域,建仓稳定币发行商Circle,显示对合规区块链基础设施的关注。
Mac内置的“缩放”辅助功能可放大屏幕细节。通过系统设置开启该功能后,可选择画中画或全屏模式。用户可使用修饰键配合触控板手势、快捷键组合、双击Control+Option或鼠标智能缩放等多种方式灵活操作,满足不同场景下的查看需求。





