佛罗里达大学揭示多模态大模型临床评分存在潜在缺陷

时间：2026-05-27 10:34

佛罗里达大学研究发现，多模态大语言模型在临床画钟测试评分中存在系统性偏差，呈现“中心趋势效应”，即压低高分、抬高低分。该现象在多个主流模型中普遍存在，且难以通过提示词调整消除。研究警示，在医疗等高危领域，仅依赖整体准确率可能掩盖模型在关键极端分数上的严重失误，需

近期，一项由佛罗里达大学跨学科团队完成的研究，在arXiv预印本平台发布，为我们深入评估人工智能在严肃医疗诊断任务中的可靠性，提供了一个极具价值的警示案例。这项研究聚焦于一个核心问题：当AI扮演“临床评估者”时，其判断是否真的客观公正？

AI担任“考官”：潜藏的系统性偏差

设想一个场景：你需要对一幅由患者绘制的画作进行0到5分的评级。0分意味着完全无法识别，5分则代表完美精确。如果让当前最先进的多模态AI模型来完成这项评分，结果会怎样？

许多人可能认为，AI必然是客观、精准的，不受人类主观情绪影响。然而，佛罗里达大学的研究揭示了一个令人警惕的现象：这些顶尖的AI系统在评分时，普遍存在一种“趋中倾向”。它们似乎不愿给出极端分数，总是习惯性地向中间分数靠拢——本该得0分的画作可能被评1分，而理应得5分的作品却只得到4分。在医疗筛查这类对准确性要求极高的场景中，此类偏差可能带来严重后果。

研究以临床上广泛应用的“画钟测试”为核心场景。该测试要求患者画一个钟表并指向特定时间，专业人员根据画作质量评分，以筛查认知障碍。研究团队将此项任务交给了包括GPT-5、GPT-5.4、Gemini 2.5 Pro和Claude 4 Sonnet在内的多款主流多模态大模型，同时以专门训练的深度学习模型作为对照，在两个公开数据集上进行了系统性评估。

他们观察到的核心问题，在统计学上被称为“中心趋势效应”。简言之，就是AI评分存在不自觉的“趋中偏差”。这种偏差并非随机错误，而是有规律的、在不同模型间一致出现的系统性倾向，且难以通过简单的指令调整来根除。这一发现，为所有计划将AI应用于临床评估的设想敲响了警钟。

画钟测试详解：为何AI自动评分至关重要

画钟测试在临床神经心理学领域已有数十年的应用历史。其原理在于：认知功能健全者能够准确画出钟表盘面与指针，而认知功能受损者则可能在数字布局、指针指向等方面出现明显错误，这些错误能有效反映个体在空间感知与执行功能方面的潜在缺陷。

目前最常用的Shulman六分制评分体系，将画作分为0至5分。0分代表无法辨认；1分代表严重扭曲；2分代表中度缺陷；3分代表轻度问题；4分代表基本正确；5分代表完整精确。这不仅仅是简单的数字排序，每个分数等级之间的差异都具有明确的临床指示意义——决定患者是否需要进一步介入治疗，往往就取决于他是得到3分还是4分，或是0分还是1分。

人工评分耗时且易受评分者间差异影响，难以满足大规模社区筛查的需求。因此，开发计算机自动评分系统成为自然选择。早期方法依赖于手工提取特征，随后深度学习的兴起使得卷积神经网络能够直接从图像中学习评分规律，据报道准确率可超过96%。近年来，具备强大图像理解能力的多模态大语言模型开始被探索用于此类任务，引发了业界广泛关注。

然而，AI系统在扮演“评分者”角色时是否存在固有的、系统性的评分偏差，此前却缺乏深入研究。人们往往更关注整体准确率，却忽视了一个关键问题：AI在哪些具体的分数区间上更容易犯错？其错误是否具有固定的方向性？佛罗里达大学的这项研究正是为了填补这一知识空白。

研究方法设计：专业模型与通用模型的同台竞技

研究设计了一场严谨的对比实验，让两类模型在同一批测试图像上进行评分，并详细比较其表现差异。

第一类是经过专门监督训练的深度学习模型，堪称“经过特训的专业选手”。研究团队使用了来自美国国家健康与老龄化趋势研究的画钟测试图像大型数据库，该库包含超过6.3万张图像。深度学习模型在此数据上进行了充分的训练，学会了从图像特征到临床评分的映射关系。参与对比的模型包括基于ResNet-101架构的卷积神经网络，以及两个基于Vision Transformer架构的变体模型——一个用于有序分类，另一个用于连续回归预测。

第二类是多模态大语言模型，属于“仅凭指令上场的新手”。GPT-5、GPT-5.4、Gemini 2.5 Pro和Claude 4 Sonnet这四款模型，此前从未接触过该研究的画钟图像数据库，也未接受任何针对该任务的专项训练。研究团队仅向它们提供一张画钟图像和用自然语言描述的评分规则，要求其返回一个0到5的整数分数。所有测试均在“零样本”条件下进行，即AI完全依靠对文字规则的理解来打分，没有看过任何已标注的示例。

为确保评估的公平性与揭示性，研究团队精心构建了一个包含597张图像的均衡测试集，其中每个分数等级（0到5分）都包含大约100张图像。这种均衡设计至关重要，因为现实世界的数据往往高分样本居多，若不进行均衡处理，模型只需学会给大多数图像打高分就能获得不错的整体准确率，从而掩盖其在识别极端分数（尤其是低分）上的真实能力缺陷。所有参与评测的模型都在完全相同的这597张图像上运行。

此外，研究团队还准备了一个来自泰国临床人群的、包含386张纸质画钟图像的独立外部数据集，用于检验研究发现是否具有跨人群、跨文化的普适性。

整体性能数据：AI评分准确度一览

在整体性能指标上，经过完整训练的ViT-Ordinal模型表现最佳。其平均绝对误差为0.52分，这意味着平均每张图的预测分数与真实分数仅相差约0.5分；“容忍性一致率”（预测分数与真实分数差值不超过1分的比例）高达91%；在区分认知正常与受损的二分类任务中，其特异性达到85%，敏感性达到91%。这表明，经过专门训练的模型能够相当准确地捕捉画作质量的细微差别。

多模态大语言模型的整体表现则呈现出复杂性。GPT-5的平均绝对误差为0.67，容忍性一致率为92%，在所有大语言模型中综合表现最好；GPT-5.4的平均绝对误差为0.75，一致率为89%；Gemini 2.5 Pro的平均绝对误差为0.84，一致率为82%；Claude 4 Sonnet的平均绝对误差为0.87，一致率为81%。

如果单看容忍性一致率，GPT-5的92%甚至略高于最优深度学习模型的91%，两者在统计上并无显著差异。若仅凭此单一指标，很容易得出“大语言模型表现与专业模型相当”的结论。但真正关键的问题，恰恰隐藏在这些平均数字的背后。

核心发现：AI在极端评分上的“保守主义”倾向

当研究团队按真实分数分组深入分析各模型的表现时，一个清晰的、令人担忧的规律显现出来。

对于真实得分为0分的图像（即画作完全无法辨认），GPT-5在零样本条件下仅有35%的概率给出正确的0分，其余近60%的图像被错误地预测为1分。这意味着，对于那些画得最差、最需要被识别出来的严重病例，AI反而最容易“手下留情”，给出偏高的分数。

在光谱的另一端，对于真实得分为5分的图像（画得非常准确），GPT-5只给出了22%的正确5分预测，大多数图像被降级评为4分。一个值得玩味的细节是：在真实得分为4分的图像中，GPT-5有26次打出了5分，这说明它在技术上完全有能力使用最高分；但当面对真正的5分完美图像时，它给出5分的次数反而只有22次。这种“有能力给高分却不给”的模式，清晰地表明这不是模型感知能力的局限，而是一种系统性的评分保守倾向。

从整体分数分布图来看，这一现象更为直观。经过完整训练的ViT模型的预测分数分布与真实分布高度吻合。而所有大语言模型的预测分布则呈现出明显的“压缩”形态：0分和5分的预测频次远低于真实情况，而中间的1分和4分则被显著抬高。仿佛有一种内在机制，将原本两端高、中间低的分布强行向中心挤压。

研究团队通过“校准斜率”这一统计量来量化这种压缩程度。统计检验结果显示，GPT-5的校准斜率显著低于ViT-Ordinal模型，且其产生向中间分数倾斜错误的比率（34.0%）显著高于ViT-Ordinal模型（25.6%）。

Gemini 2.5 Pro和Claude 4 Sonnet的情况更为极端。在零样本条件下，Gemini 2.5 Pro给100张真实5分图像打出5分的次数仅有3次，其余97张全部被压低至4分或更低。这意味着，如果使用此AI进行认知功能筛查，几乎所有实际正常的老年人都会被标记为“可能存在轻微问题”，导致极高的误报率。

提示词工程能否纠正AI的评分偏差？

研究团队提出了两种可能的解释，并通过实验进行验证。

第一种解释是：AI在零样本条件下可能因缺乏具体参照而趋于保守。为此，团队尝试了“少样本学习”提示，即在指令中加入每个分数等级各5张已标注的参考图像作为示例。结果显示，少样本提示带来了整体性能的改善：GPT-5的平均绝对误差从0.67降至0.56，对5分图像的准确率从22%大幅提升至52%。然而，核心问题并未根除。在低分端，0分图像的准确率仅从35%小幅提升至41.2%，仍有近60%的严重受损图像被错误抬高。“向中间压缩”的整体偏差结构依然存在。

第二种解释是：提示词中的医学术语可能激活了AI内置的“安全谨慎”模式。团队设计了“去临床化”的提示词，将所有神经心理学相关的专业表述替换为中性语言。结果出乎意料：去掉临床语境后，GPT-5的表现全面下滑，平均绝对误差增大，一致率下降，对5分图像的准确率更是从22%暴跌至5%。向中间压缩的错误反而变得更加严重。

这一发现至关重要，它表明临床专业术语并非导致保守倾向的根源。相反，这些术语为AI提供了必要的领域背景知识，帮助其更准确地理解任务要求。去掉专业术语，等于将AI置于更陌生、更模糊的情境中，反而导致其表现恶化。

两个假设均被实验数据否定后，研究团队得出结论：这种向中间分数压缩的评分倾向，并非简单的提示词设计问题，而是当前一代多模态大语言模型在进行有序量表评分时的一种内在行为特征。

外部数据验证：偏差规律具有普适性

为了确认上述发现并非特定数据集带来的偶然结果，研究团队在来自泰国临床人群的386张画钟图像上再次测试了GPT-5。这批图像具有完全不同的地理、文化和采集背景。

结果显示，其错误模式与在美国NHATS数据集上观察到的完全一致：低分图像被系统性高估，高分图像被系统性低估，向中心收拢的趋势清晰可辨。这证明，中心趋势效应是一种跨数据集、跨人群稳定存在的AI评分行为规律。

为何“平均误差相近”不等于“具备临床可用性”

这项研究的一个重要启示，在于揭示了仅用单一平均指标来评价AI评分系统的巨大局限性。

回顾GPT-5的数据：平均绝对误差0.67，容忍性一致率92%，乍看之下表现尚可。但拆解到每个具体的分数等级后会发现，这个“还不错”的平均成绩，是通过在中间分数段（2分、3分）表现尚可，同时在两端（0分、5分）严重失准而“平均”出来的。对于认知障碍筛查工具而言，这恰恰是最危险的出错模式。

在真实的临床决策中，0分与1分之间、4分与5分之间，虽然仅一分之差，却可能对应着截然不同的临床意义和后续处理路径。若AI系统性地压低5分图像，意味着大量认知功能完全正常的老年人会被误判为“存在轻微异常”，引发不必要的进一步检查、焦虑和心理负担。反之，若系统性地抬高0分图像，则意味着部分真正需要紧急关注的严重患者可能被漏诊，错失早期干预的最佳时机。

研究团队用具体数据量化了这种影响。以“将3分及以下判定为认知受损”的常用筛查规则为例，不同模型在敏感性（识别出真患者的比例）和特异性（识别出真正常人的比例）上差异巨大。Gemini 2.5 Pro的敏感性高达99%，几乎不漏诊任何患者，但其特异性仅为28%，这意味着高达72%的正常人会被错误地标记为异常——如此高的误报率在实际筛查中是完全无法接受的。相比之下，经过完整训练的ViT-Ordinal模型在保持91%高敏感性的同时，将特异性提升至85%，取得了更优的临床效用平衡。

这一对比清晰地表明：一个在整体一致率指标上与专业训练模型持平甚至略高的大语言模型，在实际临床筛查任务中的可靠性和可用性可能截然不同。单一的平均指标会掩盖这种关键差异，唯有进行分数级别的细粒度偏差分析，才能揭露其真实的失效模式与潜在风险。

探究根源：AI为何偏爱“中间分数”

研究团队对这种现象的潜在成因进行了分析推测。

中心趋势效应在人类评分者中早已被心理学研究所记录。当面对不确定的判断时，人类倾向于给出中间分数，因为这是一种保守的、“不会犯太大错误”的策略。大型语言模型通过海量人类生成的数据进行训练，特别是经过“基于人类反馈的强化学习”来对齐人类价值观和偏好，很可能将人类评分者的这种保守倾向也学习并内化了。

另一个可能因素是训练数据本身的分布特性。在绝大多数的文本和图像数据中，极端情况本就罕见，中间状态才是常态。模型在预测不确定时，会自然地倾向于选择统计上更常见的中间值。不过，研究团队也指出，由于测试集是均衡采样的，且AI并未见过训练标签的分布，单纯的数据不平衡并不能完全解释这种强烈的系统性倾向。

模型内置的安全机制也可能是一个考虑因素——AI在涉及医疗等高风险场景时可能被设计得格外谨慎。然而，“去临床化”提示词实验的结果推翻了这一推测：去掉医学语境反而让问题更严重，说明临床语境本身并非触发保守评分的直接原因。

研究局限与未来展望

研究团队也客观列出了本工作的局限性。所有实验均在Shulman评分体系框架内进行，其他画钟测试评分体系或其他类型的临床量表是否存在类似问题，有待进一步验证。此外，研究仅测试了“直接使用现成通用AI”的场景，未探索轻量级微调或专门的后处理校准技术能否有效克服这种倾向。

团队指出，大语言模型用于其他类型的有序量表评分时，是否存在类似的中心趋势效应，目前尚属未知，但这很可能是一个普遍现象，值得在更多医疗评估、心理测评乃至教育评分场景中进行系统性检验。

一个自然的后续研究方向是探索“轻量级校准”方法——在不对大语言模型进行全面重训练的前提下，通过后处理步骤来修正其预测分数的分布偏差。这类方法在传统机器学习中已较为成熟，将其应用于大语言模型是否同样有效，是一个极具实用价值的探索方向。

核心结论与行业启示

归根结底，这项研究揭示了一个在AI技术日益渗透高风险领域时必须高度重视的警示：一个在总体指标上看起来表现良好的AI系统，可能在最关键、最需要准确的决策点上悄悄失灵，而如果你只关注平均数，将根本无法发现这个致命问题。

就画钟测试这一具体应用而言，当前状态下的通用多模态大语言模型不应单独承担临床评分任务，尤其是在需要精准识别极端分数（最严重和最正常案例）的场景中。更合理的应用方式，是将其作为初筛工具或辅助参考，为人类专家提供预判，但最终的诊断评分仍需依赖经过专门训练、经过充分验证的监督学习模型或由经验丰富的临床专家做出。

更广泛地说，这项研究提醒所有AI开发者和应用方：在将任何AI系统部署到医疗、司法、金融等高风险决策场景之前，必须进行细粒度的、分类别的性能审计与偏差分析，绝不能仅仅依赖整体准确率或平均误差等单一指标。一个在测试集上平均绝对误差为0.67的系统，可能在某些特定子群体或临界情况下的表现远比数字所暗示的糟糕。在这些关乎人类健康与安全的领域，对细节的失察，影响的将是真实个体的命运。

对于关注人工智能与医疗健康的读者而言，这项研究意味着：当听到某款AI在某项医疗任务上达到“专家级准确率”时，我们应保持审慎，并深入追问：这个准确率是在什么数据集、什么评估条件下测量的？它在边缘案例和极端情况下的表现如何？那些被AI判定为最严重或最正常的个案，它处理得是否正确可靠？这些问题的答案，才是决定一个AI系统能否被真正信任并投入临床实践的关键。

常见问题解答

Q1：画钟测试中，大语言模型打分偏向中间分数有什么实际危害？

A：在认知障碍筛查的实际应用中，0分通常代表画作完全无法辨认（提示严重认知受损），5分代表完全正常。大语言模型系统性地将0分抬高为1分、将5分压低为4分，会导致双重风险：一方面，真正需要关注的严重受损患者可能被漏诊，延误治疗；另一方面，认知功能正常的健康老年人则可能被误判为存在轻度异常，引发不必要的焦虑和过度医疗检查。这种系统性偏差对临床决策的干扰，远比随机的、无方向的打分错误更为严重。

Q2：多模态大语言模型在打分时为什么会产生“中心趋势效应”？

A：目前主要有两种推测。其一，模型通过海量人类反馈数据训练，而人类评分者本身就有“避免使用极端分数”的认知倾向，模型可能将这种保守策略内化为自己的行为模式。其二，在模型的训练数据中，极端情况（极好或极差）的样本本就稀少，中间状态更为常见，因此模型在不确定时，会倾向于预测概率更高的中间值。实验已排除了“临床术语触发保守模式”的猜测，因为去除专业语境后，模型的趋中倾向反而加剧。

Q3：少样本提示能完全解决大语言模型在临床评分中的中心趋势问题吗？

A：不能完全解决，只能在一定程度上缓解。实验表明，加入少量评分示例后，GPT-5对5分图像的识别准确率从22%提升到了52%，整体性能有所改善。然而，在最为关键的0分（代表最严重受损）端，准确率仅从35%小幅提升至41.2%，仍有约60%的严重异常图像被错误地评为更高的分数。这表明，向中间分数压缩的系统性偏差结构并未被根本性纠正，提示词工程有其局限性。

来源：https://www.163.com/dy/article/KTSSL6UM0511DTVV.html

多模态大模型

上一篇国货航增购空客A350F货机订单总量已达10架 下一篇飞傲Type-C数字音频线发布 LINK系列69元起

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。