新闻分析｜理论知识不输专家，AI为何仍不能替代医生

时间：2026-04-21 14:06

新闻分析｜理论知识不输专家，AI为何仍不能替代医生头痛是不是脑梗的前兆？咳嗽要不要拍个片子？体检报告上的指标异常意味着什么？在去医院之前，越来越多人习惯先把健康问题抛给人工智能（AI）。输入症状、上传报告，几秒钟后，一份条理清晰、看起来相当专业的分析就出现在屏幕上。对不少人来说，AI俨然成了一个“

新闻分析｜理论知识不输专家，AI为何仍不能替代医生

头痛是不是脑梗的前兆？咳嗽要不要拍个片子？体检报告上的指标异常意味着什么？在去医院之前，越来越多人习惯先把健康问题抛给人工智能（AI）。输入症状、上传报告，几秒钟后，一份条理清晰、看起来相当专业的分析就出现在屏幕上。对不少人来说，AI俨然成了一个“24小时在线”的医学咨询窗口。但这真的意味着，AI已经会看病了吗？

新闻分析｜理论知识不输专家，AI为何仍不能替代医生

标准化测试的“高分选手”

先来看一组数据。德国马尔堡大学等机构团队近期发布的一项研究显示，在针对急性肾损伤的标准化知识测试中，多款AI大语言模型的平均得分，竟然超过了参与测试的医学专业人员。

这项研究选取了13个公众可自由使用的大语言模型，与123名志愿者进行“同台竞技”。这些志愿者来自2025年德国内科学会年会的参会人员，其中不乏内科执业医生。测试采用同一套急性肾损伤知识问卷，包含两个模拟病例和15道选择题。结果很有意思：接受测试的大语言模型平均答对了约90%的题目，多个模型甚至拿到了满分；相比之下，志愿者的答题正确率约为48.7%，而且人类的答题时间明显更长。

研究人员据此认为，在标准化测试这种特定情境下，大语言模型已经能够相当可靠地调取并应用符合医学指南的知识，展现出为临床工作快速提供事实性信息的潜力。无独有偶，年初发表于《Cureus》医学科学杂志的另一项研究也指出，一些大语言模型在美国医师资格标准化测试中的表现，已经可以比肩专业人员。在105道选择题的测试中，GPT-4 Turbo模型的正确率高达90.99%。

临床过程的“推理短板”

然而，标准化测试中的高分，真的能等同于真实的临床诊疗能力吗？答案恐怕是否定的。问题的核心在于，看病远不止是回答一套标准化的选择题。

美国麻省总医院布里格姆医疗中心等机构的研究人员，最近在《美国医学会杂志·网络开放》上发表的研究，就点出了AI的“阿喀琉斯之踵”：大语言模型在临床推理方面的能力仍然存在明显短板。研究发现，在相关数据齐全的情况下，这些模型通常能给出比较准确的最终诊断；但在病例早期、信息仍然匮乏时，它们往往不具备关键的“鉴别诊断”能力。

为了还原真实的临床过程，这项研究采用了分步输入信息的方式，评估了21个大语言模型对29个标准化临床案例的诊断情况。研究人员先输入患者年龄、性别和症状等基础信息，再逐步补充体格检查和实验室结果。每个阶段模型的表现都由医学专业学生进行评估打分。

结果显示，所有受测试模型在超过80%的情景下，都未能在信息尚不完整时给出恰当的鉴别诊断。也就是说，它们无法准确判断最可能的病因，或有效排除严重疾病，从而为下一步的检查和排查提供可靠方向。

“鉴别诊断是临床推理的核心，也是目前AI尚无法复制的‘医学艺术’的基础。”研究论文通讯作者马克·苏奇道出了关键。现阶段AI在临床医学中的真正潜力，在于辅助而非取代医生的推理过程。

这一点也得到了其他研究的印证。哈佛大学医学院和斯坦福大学等机构年初在《自然-医学》杂志发表的研究显示，大语言模型在标准化医学考试中表现优异，但一旦切换到基于真实医患对话记录进行诊断时，就显得明显吃力。研究通讯作者普拉纳夫·拉杰普尔卡尔教授解释说，医疗对话是动态的，需要在恰当时机提出恰当问题，并将零散信息整合起来进行症状推理，这种独特挑战远非答题可比。“当场景从标准化测试转向自然对话时，即使是最先进的AI模型，诊断准确性也会显著下降。”

医生主导下的人机协作

既然AI目前还无法独立胜任诊疗工作，那么它应该以何种身份进入医疗实践？未来的方向，或许不在于“替代”，而在于“协作”。

在近期开幕的2026年德国内科学会年会上，德国杜伊斯堡－埃森大学人工智能医学研究所所长延斯·克莱西克指出，随着AI发展，医生与计算机的协作正在加强。数字系统不再仅仅是被动提供支持的工具，而是通过病例记录、协调流程等方式，更主动地介入医疗过程。“这将从根本上改变医疗服务。”他认为，要让AI真正发挥潜力，前提是拥有高质量、结构化且可互操作的数据，以及足够可靠的技术基础设施。

但必须明确的是，医生的主体责任并不会因此削弱。克莱西克强调，人的因素仍然至关重要，始终需要由具备专业能力、能够理解并合理使用AI技术的医生来推动和把关。

在医生主导下的人机协作模式，其效果已经得到研究支持。斯坦福大学等机构研究人员近期在《自然合作期刊-数字医学》上发表的一项随机对照试验显示，在经过精心设计的人机协作流程中，医生的诊断准确性可以从传统资源条件下的75%，提升至80%以上。

当然，在拥抱技术的同时，也必须警惕伴随而来的风险。美国密苏里大学医学院副教授法里斯·阿拉赫达卜提出了一个值得深思的观点：经验丰富的临床医生通常能够识别AI提供的错误建议，而医学生和年轻医生往往缺乏相应的判断力，难以识别那些细微却可能致命的错误。

更隐蔽的风险或许在于，过度依赖AI可能会在不知不觉中削弱医生的批判性思维。医生可能会将推理过程“外包”给AI。模型给出的答案越流畅、越完整、越显得正确，使用者就越可能放弃独立检索信息、批判性思考以及知识整合。长此以往，那些本应在实践中持续磨练的核心能力，将面临退化的风险。这才是我们在推进AI医疗应用时，需要时刻警醒的关键所在。

来源：https://www.163.com/dy/article/KR0116NO05346RC6.html

人工智能

上一篇Square Enix开发漫画排版AI工具，每年可节省3000工时 下一篇机器人“自主跑”赛队数量破纪录，北斗时空智能提供关键支撑

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-01

OpenClaw手机App上线，结果翻车了

OpenClaw 官方宣布，已正式推出 iOS 和 Android 原生移动 App，用户如今可以在手机上使用这款主打“能真正帮你做事”的个人 AI 助手。官方在 X 上给出的定位也很直接：把 Agent 放进口袋里，让用户可以在移动端处理频道消息、任务和回复。从功能上看，OpenClaw 移动端并

科技数码 · 2026-07-01

优必选CEO周剑：家庭机器人生态核心投入过半精力

先说几个核心判断：优必选正在布局一盘长远战略。创始人兼CEO周剑在近期一场媒体沟通会上，直接亮出了公司未来的发展路线——工业、商用、家庭陪伴机器人三条业务主赛道并行推进，现阶段每条线各占约一半精力。一边是已经能够稳定创造收入的工业场景，另一边则是他眼中“最具想象力与未来空间”的家庭陪伴领域。工业人形

科技数码 · 2026-07-01

CPO/NPO/OIO开启封装级光连接价值空间，技术路线尚未收敛

6月30日，申银万国在光连接系列研报中重点指出，MPO光连接器领域的投资机会值得高度关注。通俗来说，随着AI算力集群持续扩张，光互联升级带来的连锁效应——数据中心光纤通道数量、前面板端口密度、机柜内光纤管理复杂度——均在同步攀升。光连接器的角色早已超越传统的低价值标准件，如今它直接决定着链路插损、可

科技数码 · 2026-07-01

龙岗AR实景剧本游内测体验短板有效破解之道

在今年龙岗区第二届人工智能与机器人发展大会上，区级部门一次性推出了7个AI“龙搭子”。其中，名为“龙导游”的成果成为文商旅融合领域的核心亮点。据南都N视频记者了解，依托“龙导游”打造的全区全域AR实景剧本游“龙岗大陆”，已在今年五一假期发布了内测版本。经过一个月市场验证后，该项目正式启动面向全社会的

科技数码 · 2026-07-01

南下资金6月30日净买入中芯国际与建滔积层板

6月30日，南下资金持续大举买入港股，单日净流入金额高达58 95亿港元。接下来，我们直接盘点哪些个股获得资金青睐、哪些遭到减持：净买入方面，中芯国际领跑全场，单日吸金19 33亿港元；建滔积层板紧随其后，净买入10 59亿港元；腾讯控股获得7 65亿港元净流入；智谱（02513 HK）也有6 5