可溯源医学图像解读:AI诊断不再“只给结论不给证据”
随着人工智能在临床场景中的部署日益深入,一个核心问题逐渐凸显:医生不仅需要AI给出“诊断结论”,更希望清晰了解结论的生成逻辑——病灶具体位于何处、依据来自哪些影像特征。长期以来,医学人工智能的应用场景被割裂为两个极端:一侧是能够生成准确诊断结果的视觉语言模型,回答虽精准,却无法定位病变区域;另一侧是分割模型,虽然能精细勾勒病灶轮廓,却无法解释该区域的临床含义。这种“能解释却无法定位”或“能定位却缺乏解释”的断层状态,成为阻碍医学AI大规模落地的关键瓶颈。
近期,研究团队推出了新一代通用基础模型——UniBiomed,旨在打通这一链路。简而言之,该模型将多模态大语言模型与Segment Anything Model(SAM)进行了深度融合,使得诊断描述与病灶分割能在同一框架内同步完成。更为关键的是,研究团队同时构建了一个包含2700万组“图像-区域标注-文本描述”三元组的大规模训练数据集,覆盖了10种生物医学成像模态。在70个内部数据集和14个外部数据集上的测试结果显示,UniBiomed在图像分割、疾病识别、区域感知诊断、视觉问答以及报告生成等多项任务中,均达到了当前最优性能。换言之,模型不仅给出结论,还能同步呈现可视化的证据。

近年来,多模态AI在医学影像分析领域的发展速度令人瞩目。CT、MRI、超声、病理切片、眼底图像等多种影像数据蕴含丰富的解剖结构与病理信息,而医生撰写的诊断报告则为这些视觉信息提供了高阶语义解释。理论上,若能实现视觉与语言信息的深度融合,AI系统完全有可能达到甚至接近临床专家的综合判断水平。然而,现实中的多数模型存在明显短板:部分模型仅专注于分割任务,勾勒效果虽好,却无法给出解释;另一些模型虽能进行问答和报告生成,结论也正确,但医生无法验证结论是否基于准确的视觉证据。
研究团队认为,真正可投入临床的AI系统必须同时具备两项核心能力:生成精准的诊断结果,并同步定位对应的病灶区域。他们将其称为“可溯源解读”(Grounded Interpretation)。UniBiomed的设计目标,正是在一个统一框架下实现从细胞到器官尺度的可解释医学图像分析。
方法
UniBiomed的底层逻辑并不复杂:首先由视觉编码器与大语言模型分析输入图像和用户指令,生成诊断描述与医学解释;随后将这些语义信息与用户指令一同编码为语言提示,引导SAM对病灶区域进行精确分割。听起来简单,但真正的难点在于训练数据的组织方式。
为此,研究团队构建了一个覆盖CT、MRI、X光、超声、病理图像、眼底图像等十种成像模态的超大规模数据集。所有数据均统一转换为视觉问答格式,从而使模型能够在同一框架下同时学习图像分割、疾病识别、视觉问答、区域分类和报告生成等不同任务。通过联合训练,模型不仅掌握了视觉定位能力,也吸收了丰富的医学知识与诊断推理能力。这正是实现真正可溯源解读的关键所在。
结果
构建首个通用可溯源生物医学图像基础模型
研究人员首先建立了一个覆盖十种成像模态的训练体系。整个数据集的规模为2700万个图像—文本—区域标注三元组——目前应是生物医学可溯源解读领域最大的数据资源之一。这些数据不仅包含传统分割掩码和边界框标注,还配套了大量诊断描述、医学知识和临床报告。通过统一VQA格式,不同任务在单个模型内协同训练,效果显著:分割任务能提升疾病识别能力,而视觉问答和报告生成任务反过来又能增强模型的语义理解,形成多任务互相促进的正向循环。

图1: UniBiomed总体框架与2700万规模生物医学可溯源解读数据集构建流程。
刷新生物医学图像分割的性能纪录
在46个内部数据集和14个外部数据集上,研究人员让UniBiomed与MedSAM、SegVol、SAT、BiomedParse等主流分割基础模型一一比较。结果直接:UniBiomed在60个数据集上的平均Dice得分,比此前最先进的BiomedParse高出10.25个百分点。内部验证集提升9.13%,外部验证集提升13.95%。为何能拉开如此大的差距?原因是UniBiomed在训练时同时使用了分割数据、视觉问答数据和报告生成数据,而现有分割模型通常仅依赖分割标注数据。多源数据训练使模型的视觉表示泛化性更强,能更好地适应不同成像模态和疾病类型。

图2: UniBiomed与主流生物医学分割基础模型在60个数据集上的性能比较。
端到端疾病识别与病灶定位
疾病识别是医学视觉问答的核心任务之一。但现有医学大模型通常只能输出疾病名称,却无法指出病变位置。为解决这一问题,研究人员专门提出了“可溯源疾病识别”(Grounded Disease Recognition)任务——要求模型同时完成疾病分类与病灶分割。
实验数据覆盖了15类异常病变,包括肝癌、肺癌、胰腺肿瘤、脑肿瘤、乳腺病变、新冠肺炎感染、视网膜病变等。结果不出意料:UniBiomed在病灶分割Dice和疾病识别准确率两方面,均显著优于LISA、GLaMM等先进方法。疾病识别准确率提升3.29%,分割性能提升3.86%。更关键的是,UniBiomed无需医生提前指定病变类型,也无需手工框选病灶区域,真正实现了端到端的自动诊断流程。

图3: UniBiomed在可溯源疾病识别任务中的表现及15类异常病变验证结果。
可溯源医学报告生成
接下来,研究人员验证了模型在“可溯源报告生成”(Grounded Report Generation)任务中的表现。这一任务要求更高:不仅要生成完整的临床报告,还需同步标注出报告涉及的所有解剖结构或病灶区域。在RadGenome数据集上的测试表明,UniBiomed在分割性能和报告生成性能上同时夺冠——无论是BLEU、METEOR还是ROUGE指标,都超越了现有的医学视觉语言模型。这种同步生成视觉证据与诊断描述的能力,使得AI生成的报告更易于医生审核和验证,临床可信度自然随之提升。

图4: UniBiomed在可溯源医学报告生成任务中的性能与典型案例。
区域感知诊断能力显著提升
为测试模型对局部区域的理解水平,研究人员进一步部署了ROI分类和区域报告生成任务。在十种不同成像模态上,UniBiomed取得了93.38%的平均分类准确率,比此前的最佳模型提升了8.32个百分点。在MedTrinity大规模区域诊断基准上,模型生成的区域报告质量也明显更优。系统不仅能准确识别指定区域内的病变类型,还能自动生成详细的病理描述。案例分析显示,无论是前列腺病理切片、胸部X线还是CT图像,模型均能准确理解区域内容,并生成符合临床表达习惯的诊断文本。

图5: UniBiomed在ROI分类与区域感知报告生成任务中的表现。
推动医学影像分析流程变革
最后,研究人员评估了UniBiomed对实际临床工作流程的影响。传统医学分割模型的典型使用方式是:医生先浏览全部影像,手动确定病灶位置,然后输入文本提示或手工绘制边界框,再引导模型进行分割。而UniBiomed只需输入统一指令,就能自动完成异常检测、病灶定位和诊断解释。在肺癌、肝癌和胰腺癌CT扫描的阅读测试中,放射科医生普遍反映,UniBiomed显著减少了人工交互步骤,提高了分析效率,也更符合真实的临床工作流程。从“辅助分割工具”到“自动诊断助手”的转变,正是医学人工智能发展的重要方向。

图6: UniBiomed驱动的端到端医学影像分析流程及临床应用场景。
讨论
UniBiomed的核心价值在于,它真正将诊断描述生成与病灶定位统一到了同一个框架中。与现有医学大模型只能回答问题或生成报告不同,UniBiomed能够同步提供视觉证据与语言解释,使模型的决策过程更加透明且可信。
研究结果明确表明,联合训练是成功的关键。通过综合利用图像分割、视觉问答、区域诊断和报告生成等多种数据资源,UniBiomed获得了更强的泛化能力,并在84个数据集上展现出优异表现。特别是在疾病识别、区域感知诊断和报告生成等复杂任务上,模型的突破是显著的。
但也要看到,模型对于极罕见疾病的性能仍受限于标注数据的规模。未来需要持续扩充数据集,并加强真实临床环境下的验证。此外,如何将通用基础模型与医学智能体系统相结合,将是下一阶段的重要研究方向。
