健康AI中大型前沿模型稳健性与应用准备度评估

时间：2026-06-29 15:17

大型前沿模型在健康AI基准测试中高分，但压力测试揭示其脆弱性：依赖文本线索、忽视图像、推理漏洞频出。临床医生重新评估基准，发现测量目标差异大，高分不等于临床就绪。

GPT-5、Gemini 等前沿多模态模型在健康AI的各类基准测试中交出了亮眼的成绩单。然而，在这些看似漂亮的数字背后，隐藏着诸多深层问题，尤其是在多模态医学推理这类高难度任务上。研究人员专门设计了一整套“对抗性压力测试”，旨在检验这些旗舰模型及其赖以成名的基准测试，究竟能承受多大的真实挑战。

结果耐人寻味：当前顶尖的模型，在面对一些简单的“捣乱”操作时表现得相当脆弱。例如，即使关键医学图像被完全删除，模型有时仍能猜出正确答案；而仅仅改变选项顺序这种微小变动，却可能让模型彻底迷失方向。更令人担忧的是，当模型被要求解释自己的诊断逻辑时，它能生成一套听起来头头是道、实则漏洞百出的推理。研究者还邀请了临床医生，用专业标准重新审视了几个主流的健康基准，结果发现这些测试真正在衡量的东西其实大相径庭。简而言之：基准高分与模型在真实医疗场景中的可靠性之间，还隔着鸿沟。

大型语言模型在健康领域确实展现了惊人能力：通过医学考试、在诊断题上斩获高分、甚至在问答任务上与人类专家不相上下。许多人因此对AI的医疗应用前景充满期待。但问题在于，高分并不等同于好用。一个在考题中表现出色的模型，完全可能在真实临床场景中缺乏稳健性、可解释性和可靠的推理能力。

此前已有不少研究揭示了大模型存在幻觉、推理错误、过度自信以及容易被提示误导等问题，不过这些研究大多聚焦于纯文本领域。多模态医学推理——即模型同时处理图像、文字和临床上下文的能力——依然是一个研究盲区。随着多模态生成式AI成为生物医学领域的重要发展方向，我们迫切需要弄清楚：模型真的“看懂”图像了吗？它能否理解图像、文字与临床背景之间的逻辑关系？

研究者借鉴了对抗学习的思路，对医学多模态基准中的测试题进行了系统性的“扰动”，目的是验证模型是否真正依赖医学图像做判断、能否抵抗格式变化、是否会被无关干扰项带偏，以及它所生成的推理过程究竟有多可信。结果呈现出一幅与基准高分截然不同的图景：模型在标准测试中看似稳健，但一上压力测试，各种缺陷便暴露无遗。它可能在缺少图像的情况下依然蒙对答案，也可能在答案选项顺序被打乱后性能大幅下滑，甚至能为一个正确答案编造出一套子虚乌有的视觉依据。

这些发现反过来也促使研究者重新审视医学AI基准本身。他们提出了一套由临床医生参与的评价标准，试图拆解一道测试题到底在测量什么：是图像的感知能力？是医学知识储备？是临床推理能力？还是仅仅在识别答案格式或调用某种记忆关联？结果发现，不同多模态医学基准的测量目标差异显著，却常常被混为一谈，被笼统地当作“模型能力分数”。从这个角度看，单纯依赖排行榜上的分数来证明一个大型前沿模型已准备好应用于健康AI，恐怕还为时过早。

方法

研究者选取了几个常用的多模态医学基准和代表性的大型前沿模型，构建了一套由六类压力测试组成的评估框架。前两类测试关注输入模态是否真的必要：一种是直接移除医学图像，观察模型是否还能回答；另一种是构建一个必须依赖视觉信息才能作答的NEJM子集，检验模型在图像缺失时是否会胡乱猜测。第三、四类测试关注模型是否依赖“快捷线索”和格式本身的规律，包括打乱答案选项的顺序、替换掉错误的干扰项，以及故意加入一个“Unknown”选项，看模型是会把它当作容易排除的选项，还是会将其视为不确定性下的合理选择。第五类测试更为直接——替换医学图像，让新图像支持另一个不同的诊断结论，而题干和选项保持不变。如果模型确实根据视觉证据做判断，它应该会改变答案。第六类测试评估模型生成的推理过程的可信度，包括链式思维提示是否提升准确率，以及模型的解释是否包含真实的图像证据、合理的医学逻辑，并且与最终答案一致。此外，研究者还设计了一套由临床医生指导的基准画像准则，从推理复杂度、视觉复杂度、文本可解性、不确定性处理和多视角整合等维度，对九个代表性医学基准进行了分析。

结果

压力测试揭示大型语言模型的稳健性缺口

大型语言模型在多模态医学基准上常常取得高分，这些分数很容易被视为模型临床能力稳健的证据。但聚合准确率可能会掩盖模型在输入不完整、提示被扰动、图像冲突或选项变化时表现出的脆弱性。为了超越简单的正确率，研究者设计了六类压力测试，考察模型在处理输入退化、结构变化、干扰项、视觉替换和复杂推理要求时的行为。

这些测试关注的不仅是模型答对与否，更关心模型是否知道何时应该拒绝作答、能否表达不确定性、能否在输入变化后稳定地调整判断，以及它生成的推理过程是否真实可靠。通过这种方式，研究者不仅捕捉到了性能的下降，还揭示了模型输出变化背后的原因——比如依赖表面线索、忽视图像输入、使用记忆性关联、在错误理解的基础上继续推理，或者仅仅是用流畅的语言包装了一个错误结论。

图1：压力测试揭示健康 AI 多模态应用中大型语言模型的隐藏脆弱性与稳健性缺口。

模态敏感性与输入省略

研究者首先测试了移除医学图像后模型表现的变化。在NEJM和JAMA这两个多模态医学基准中，每个问题通常由一段简短的临床描述和一张或多张诊断图像组成。如果模型真的依赖图像进行诊断，那么删除图像后，它的性能应该明显下降，并且模型也应该表现出不确定性或拒绝作答。

在NEJM数据中，大多数模型在移除图像后准确率明显下降。例如，GPT-5和Gemini 2.5 Pro在完整输入下表现较高，但去掉图像后均下降了十多个百分点。这说明NEJM中的问题确实需要依赖视觉信息。但在JAMA数据中，移除图像后的下降幅度较小，这暗示部分JAMA问题可能主要依靠文本线索就能回答，而非强依赖图像理解。

为了进一步测试视觉输入是否真的不可或缺，研究者构建了一个NEJM“视觉必需”子集。这个子集由临床标准筛选，里面的病例文本线索很少，诊断高度依赖图像特征。在完整输入下，模型能达到中等到较高的准确率，说明这些题目在图像可见时是可解的。然而，在纯文本条件下，多数模型的准确率仍然远高于随机猜测水平。也就是说，即使图像对诊断至关重要，模型仍然可能依赖非视觉线索、疾病流行率、选项模式或者训练中记忆的关联来猜测答案。

有意思的是，GPT-4o在缺失图像时表现出更高的拒答率，因此总体准确率较低；但如果排除掉它拒绝回答的题目，其答题准确率又接近其他模型。这提示GPT-4o的低分并不一定代表它更少地依赖快捷学习，反而可能反映了一种更保守的不确定性处理策略。理想的行为应该是：在关键输入缺失时，模型不应盲目猜测，而应明确表示图像缺失导致判断不可靠，或者选择拒绝作答。

图2：模态敏感性和输入省略测试揭示模型对图像缺失的异常反应。

输入扰动下的快捷线索依赖

接着，研究者考察了模型是否依赖表面的格式或答案选项中的“快捷线索”。首先，他们打乱了多选题答案选项的顺序，但题干内容和正确答案本身不动。如果模型真的理解了问题，答案顺序变化不应该显著影响它的表现。然而，在纯文本条件下，多数模型的准确率都出现了下降，说明模型可能部分依赖于选项位置、常见的答案排列顺序或格式模式。相比之下，当图像和文本同时存在时，模型的表现相对稳定，甚至略有提高，这提示视觉信息可能在一定程度上弥补了文本快捷线索被破坏带来的影响。

随后，研究者替换了错误的干扰项，测试模型是否依赖熟悉的干扰项来进行排除。在纯文本条件下，当越来越多的错误选项被替换为无关选项时，模型的准确率逐步向随机水平下降。这表明模型并不总是在真正理解诊断，而可能是在依赖某些熟悉的选项组合之间的相对关系来作答。更有趣的是，当一个错误干扰项被替换为“Unknown”时，多数模型的准确率反而上升了，尤其是在缺失图像的纯文本条件下更明显。这很可能是因为模型把“Unknown”当成了一个容易排除的语义选项，而非在关键信息缺失时的一个合理退路。

总体来看，这些扰动测试揭示了大型前沿模型在健康应用基准中的脆弱性。如果一个模型真的理解了医学图像、临床上下文和诊断知识，那么它应该能抵抗答案顺序变化、错误选项替换和无关干扰项的干扰。当前模型在这些轻微扰动下就表现不稳定，说明它们距离临床实用所需的稳健性还有不小的差距。

多模态 grounding 失败

为了更直接地测试模型是否真的理解了图像内容，研究者设计了一个“视觉替换测试”。他们选取了40个高度依赖图像诊断的NEJM问题，将原始图像替换为在临床上合理、但对应某个错误选项的替代图像，同时保持题干和答案选项不变。替换的图像都经过临床医生确认，能够支持新的诊断结论。因此，一个可靠的模型应当根据新的视觉证据改变自己的答案，而不是继续选择原始文本所对应的那个答案。

结果显示，多数模型在视觉替换后性能明显下降。GPT-5、Gemini 2.5 Pro、o4-mini和o3均出现显著准确率下降。这说明模型虽然常常能检测到图像与任务相关，但并不能稳定地根据图像证据动态地重新解释诊断。它们可能仍然依赖原始题干、常见的图像-答案关联，或者预训练中形成的静态模式，而不是在当前图像和临床文本之间进行真正的整合。

视觉替换测试能够隔离出模型的视觉grounding能力，因为文本没有变化，只有诊断图像发生了变化。模型如果不能随视觉证据的改变而改变结论，就说明其多模态推理能力被标准基准的准确率高估了。残余的性能可能来自对部分通用视觉特征的识别、模型的过度自信，或者训练中对常见图像-问题组合的记忆。无论原因是什么，这种脆弱性都会大大削弱它在临床诊断场景中的可信度。

推理信号完整性

研究者进一步评估了模型在多模态医学问题中是如何生成和使用推理的。首先，在NEJM和VQA-RAD上，他们使用了链式思维提示，观察显式的推理步骤能否提高准确率。结果并不理想。在NEJM上，链式思维提示对所有模型都带来了负向收益；在VQA-RAD上，推理模型只获得了很小的提升，非推理模型倒是获得了轻度提升。在OmniMedVQA上，提高推理强度的影响很小且不稳定，有时更长的推理链会增加召回率，但同时也会引入更多的幻觉细节。

随后，研究者人工审查了模型生成的解释，重点判断其事实性、视觉grounding以及与最终答案的一致性。审查发现了三类反复出现的问题。第一类是答案正确但逻辑错误，模型给出了看似合理但实际上包含了虚假视觉发现的解释。第二类是视觉误解被放大，模型在最初看错图像后，将错误感知沿着后续推理继续扩展。第三类是结构完整但内容空洞，模型生成的推理步骤语法流畅、层次清晰，但在临床上完全无关，或者根本无法支持最终的答案。

这些结果说明，解释流畅并不等于推理有效。大型模型能够生成结构化且令人信服的医学解释，但这些解释可能包含不存在的图像特征、错误的医学逻辑，或者与真实决策过程毫无关系的叙述。从临床转化的角度看，模型的推理过程本身也需要独立验证，不能因为它能够“解释”，就认为它具有了可靠的可解释性。

失败模式分类

综合六类压力测试的结果，研究者将模型的失败模式归纳为三个阶段：输入处理、推理与推断、输出沟通。在输入处理阶段，模型可能出现视觉误感知、拒答校准不当或忽视某个模态的问题。在推理阶段，模型可能依赖启发式线索、生成不支持结论的解释，或者在输入、输出和推理之间出现逻辑不一致。在输出沟通阶段，模型可能用流畅的语言掩盖事实错误，或给出不安全、不完整的建议。

这些失败看起来是技术问题，但在医疗环境中，它们可能转化为实实在在的临床风险。例如，视觉误感知可能导致漏诊或误报；拒答校准错误可能导致不安全的猜测或延误诊疗；错误的解释可能误导医生或患者；不安全的建议可能导致诊断或治疗上的伤害。因此，健康AI的稳健性评估，必须把模型行为和潜在的临床后果联系起来，而不应该只报告一个平均准确率了事。

图3：输入扰动测试揭示模型对格式、干扰项和视觉替换的快捷线索依赖。

反向评估基准：我们到底在测量什么？

压力测试发现，高基准分数并不能保证模型行为稳健。模型在标准条件下表现良好，但在图像被移除、答案被重排、干扰项被替换或视觉输入被误导时，就可能失败。更重要的是，这些失败模式在不同基准之间差异很明显。例如，NEJM在移除图像后性能下降较大，说明它更依赖视觉理解；JAMA的分数相对稳定，提示许多题目仅凭文本就能作答。同样，不同基准对链式思维提示的反应也不同，说明它们对推理复杂度的要求并不一致。

这就引出了一个关键问题：如果模型能在某些基准上取得高分，但在压力测试中却失败了，那么这些基准到底测量了什么？它们测量的是视觉grounding、医学推理、模式回忆、答案排除能力，还是对文本线索的利用？如果不搞清楚每个基准的真实测量目标，就很容易把排行榜的进步误读为真实临床就绪度的提升。

为此，研究者对九个代表性健康AI基准进行了一次由临床医生参与的结构化审查。他们设计了一套覆盖十个医学相关维度的评价准则，用来描述每个基准对模型提出的诊断需求。这些维度包括推理复杂度、视觉复杂度、临床上下文依赖、不确定性处理、视觉细节要求和多视角整合等。每个基准在每个维度上，都由三名具备资质的临床医生独立标注，并计算了一致性。总体来看，标注一致性达到了中等到较强的水平，说明这些维度是具备可操作性的。

临床医生参与的基准画像

研究者强调，每个画像维度都对应着临床上有意义的诊断需求，而不是抽象的数据集属性。例如，“是否仅凭文本即可回答”这一维度反映的是模型是否可能在不真正阅读影像的情况下，仅仅依赖病史、疾病流行率或模板化的推理来作答。在真实临床中，这对应着一种危险行为：医生或AI系统在影像可用时，却没有充分利用影像证据，导致过度自信的诊断。类似地，推理复杂度、不确定性处理和视觉细节要求，则对应着临床中常见的错误来源，比如过早下结论、不能承认模糊性，或者误读了细微的影像发现。

通过临床医生的标注，研究者将不同基准投影到了“推理复杂度”和“视觉复杂度”构成的二维空间中。结果一目了然：常用的多模态健康AI基准差异非常显著。NEJM在推理和视觉复杂度上都较高；JAMA的推理要求较高，但多数题目更容易通过文本解决；VQA-RAD、PMC-VQA和MIMIC-CXR更依赖图像，但推理复杂度较低；OmniMedVQA在两个维度上都相对较低。

这些差异解释了压力测试中观察到的基准特异性失败。例如，模型可能在VQA-RAD这类图像定位或视觉问答任务中表现良好，但在NEJM这类需要结合图像解释、临床背景和医学知识进行诊断推理的任务中，表现就非常脆弱。因此，不能简单地把所有医学多模态基准都视为等价的模型能力指标。

对模型评估与设计的启示

研究者认为，基准画像不应该仅仅作为排行榜的补充信息，而应该成为解释模型表现的诊断工具。不同基准的设计假设、推理需求和视觉需求，需要被明确记录。模型分数也不应该简单地在异质任务中求平均，而应该根据有医学意义的维度进行分解报告。想象一下，如果一个模型要被部署到影像诊断场景，它只在JAMA这类文本可解性较强的数据集上拿了高分，这显然不能证明它适合NEJM这类真正的视觉诊断任务。

从这个角度看，基准应该被看作诊断工具，而不是优化目标。排行榜分数应该和基准画像一起报告；基准的选择应该匹配预期的部署场景；评估协议应该常规性地纳入对抗测试和压力测试。特别是对于高风险部署的模型，压力测试的结果应该和准确率一起报告，并成为模型发布审计的一部分。否则，基准驱动的进步可能会强化狭窄的优化，而掩盖真实临床使用中的脆弱性。

图4：多模态健康 AI 基准在推理复杂度和视觉复杂度上存在显著差异。

讨论

这项研究清晰地表明，当前的健康AI基准可能夸大了大型前沿模型的应用准备度，因为它们没有充分捕捉模型在现实扰动、不确定性和输入冲突下的行为。尽管许多领先模型在排行榜上表现出色，但在轻微的输入变化下，它们仍然会出现不一致的行为、依赖表面模式和脆弱的推理。这实际上挑战了“基准成功等于医学可用”这个常见假设。

当前基准提供了一个方便但不完整的能力窗口。许多基准强调答案的正确性，却没有检验答案是否来自医学上有效的推理、多模态理解和稳健泛化。很多任务采用了多选题格式，而这种格式本身就和真实健康应用中的开放式决策、纵向病史整合和医患互动存在差距。因此，这项研究的结果，应该被理解为对当前基准实践的批判，而不是对所有临床场景中模型行为的完整评估。

模型可以通过浅层线索获得高分，比如偏好某个答案选项的位置、熟记常见的选项组合、使用模板化的回答，或者依靠训练中记忆的图像—答案关联。推理模型可能会提高基准分数，却仍然生成充满幻觉或不合理的解释。强化学习方法也可能优化的是token层面的奖励信号，而不是忠实的医学推理。最终可能会出现一种误导性的“进步”：数字分数提高了，但行为可靠性并没有相应提高。

健康AI的稳健评估是多维的。模型需要有能力处理缺失或噪声数据，需要在不确定性下表达谨慎，需要能够跨越时间、模态和上下文进行推理，还需要给出临床可解释且事实可信的理由。医学和数学或编程不同，因为真实的医疗问题往往没有单一的清晰输入，而是常常包含模糊性、缺失信息、罕见情况和情境依赖。直接把链式思维或多智能体规划这类通用推理策略迁移到医学场景，并不能解决所有问题。

研究者还强调，健康AI的就绪度不仅仅取决于模型的能力，还取决于部署的可行性。闭源API模型可能在基准上表现强劲，但在医疗机构中会面临数据驻留、审计可见性、持续运营成本、监管流程整合和模型更新透明度等限制。开源或本地部署的模型，则可能在数据治理和系统检查方面更加可控。因此，任何关于模型就绪度的声明，都必须结合具体的机构、监管和运行环境来解释。

当然，这项研究也存在一些限制。研究者评估的是健康基准和压力测试中的模型行为，而不是前瞻性的真实临床工作流表现。许多任务采用了多选题格式，不能覆盖开放式诊断、长期病程、真实医患互动和临床决策链条。压力测试也只覆盖了一些典型的失败模式，不能穷尽健康应用中的所有不确定性。私有X光数据集的规模较小，模态范围有限，只能作为支持性证据。而且，随着前沿模型和基准的持续更新，这类评估也需要反复进行。

总体而言，研究者提出了一套模块化的压力测试框架。每一类测试都针对一个不同的脆弱性，比如模态忽视、错误快捷线索、视觉grounding不稳或过度自信推理。通过隔离这些行为，压力测试能够在模型和任务之间进行系统性的比较，揭示出单一准确率指标所掩盖的问题。未来，健康AI基准应该附带推理和视觉复杂度的元数据，评估协议应该纳入压力测试，基准应该被用作揭示模型能力与限制的工具，而不是排行榜优化的终点。随着大型前沿模型持续发展，健康应用中的评估体系也必须同步升级。

来源：https://cloud.tencent.com.cn/developer/article/2699951

人工智能