新闻分析|理论知识不输专家,AI为何仍不能替代医生
新闻分析|理论知识不输专家,AI为何仍不能替代医生
头痛是不是脑梗的前兆?咳嗽要不要拍个片子?体检报告上的指标异常意味着什么?在去医院之前,越来越多人习惯先把健康问题抛给人工智能(AI)。输入症状、上传报告,几秒钟后,一份条理清晰、看起来相当专业的分析就出现在屏幕上。对不少人来说,AI俨然成了一个“24小时在线”的医学咨询窗口。但这真的意味着,AI已经会看病了吗?
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

标准化测试的“高分选手”
先来看一组数据。德国马尔堡大学等机构团队近期发布的一项研究显示,在针对急性肾损伤的标准化知识测试中,多款AI大语言模型的平均得分,竟然超过了参与测试的医学专业人员。
这项研究选取了13个公众可自由使用的大语言模型,与123名志愿者进行“同台竞技”。这些志愿者来自2025年德国内科学会年会的参会人员,其中不乏内科执业医生。测试采用同一套急性肾损伤知识问卷,包含两个模拟病例和15道选择题。结果很有意思:接受测试的大语言模型平均答对了约90%的题目,多个模型甚至拿到了满分;相比之下,志愿者的答题正确率约为48.7%,而且人类的答题时间明显更长。
研究人员据此认为,在标准化测试这种特定情境下,大语言模型已经能够相当可靠地调取并应用符合医学指南的知识,展现出为临床工作快速提供事实性信息的潜力。无独有偶,年初发表于《Cureus》医学科学杂志的另一项研究也指出,一些大语言模型在美国医师资格标准化测试中的表现,已经可以比肩专业人员。在105道选择题的测试中,GPT-4 Turbo模型的正确率高达90.99%。
临床过程的“推理短板”
然而,标准化测试中的高分,真的能等同于真实的临床诊疗能力吗?答案恐怕是否定的。问题的核心在于,看病远不止是回答一套标准化的选择题。
美国麻省总医院布里格姆医疗中心等机构的研究人员,最近在《美国医学会杂志·网络开放》上发表的研究,就点出了AI的“阿喀琉斯之踵”:大语言模型在临床推理方面的能力仍然存在明显短板。研究发现,在相关数据齐全的情况下,这些模型通常能给出比较准确的最终诊断;但在病例早期、信息仍然匮乏时,它们往往不具备关键的“鉴别诊断”能力。
为了还原真实的临床过程,这项研究采用了分步输入信息的方式,评估了21个大语言模型对29个标准化临床案例的诊断情况。研究人员先输入患者年龄、性别和症状等基础信息,再逐步补充体格检查和实验室结果。每个阶段模型的表现都由医学专业学生进行评估打分。
结果显示,所有受测试模型在超过80%的情景下,都未能在信息尚不完整时给出恰当的鉴别诊断。也就是说,它们无法准确判断最可能的病因,或有效排除严重疾病,从而为下一步的检查和排查提供可靠方向。
“鉴别诊断是临床推理的核心,也是目前AI尚无法复制的‘医学艺术’的基础。”研究论文通讯作者马克·苏奇道出了关键。现阶段AI在临床医学中的真正潜力,在于辅助而非取代医生的推理过程。
这一点也得到了其他研究的印证。哈佛大学医学院和斯坦福大学等机构年初在《自然-医学》杂志发表的研究显示,大语言模型在标准化医学考试中表现优异,但一旦切换到基于真实医患对话记录进行诊断时,就显得明显吃力。研究通讯作者普拉纳夫·拉杰普尔卡尔教授解释说,医疗对话是动态的,需要在恰当时机提出恰当问题,并将零散信息整合起来进行症状推理,这种独特挑战远非答题可比。“当场景从标准化测试转向自然对话时,即使是最先进的AI模型,诊断准确性也会显著下降。”
医生主导下的人机协作
既然AI目前还无法独立胜任诊疗工作,那么它应该以何种身份进入医疗实践?未来的方向,或许不在于“替代”,而在于“协作”。
在近期开幕的2026年德国内科学会年会上,德国杜伊斯堡-埃森大学人工智能医学研究所所长延斯·克莱西克指出,随着AI发展,医生与计算机的协作正在加强。数字系统不再仅仅是被动提供支持的工具,而是通过病例记录、协调流程等方式,更主动地介入医疗过程。“这将从根本上改变医疗服务。”他认为,要让AI真正发挥潜力,前提是拥有高质量、结构化且可互操作的数据,以及足够可靠的技术基础设施。
但必须明确的是,医生的主体责任并不会因此削弱。克莱西克强调,人的因素仍然至关重要,始终需要由具备专业能力、能够理解并合理使用AI技术的医生来推动和把关。
在医生主导下的人机协作模式,其效果已经得到研究支持。斯坦福大学等机构研究人员近期在《自然合作期刊-数字医学》上发表的一项随机对照试验显示,在经过精心设计的人机协作流程中,医生的诊断准确性可以从传统资源条件下的75%,提升至80%以上。
当然,在拥抱技术的同时,也必须警惕伴随而来的风险。美国密苏里大学医学院副教授法里斯·阿拉赫达卜提出了一个值得深思的观点:经验丰富的临床医生通常能够识别AI提供的错误建议,而医学生和年轻医生往往缺乏相应的判断力,难以识别那些细微却可能致命的错误。
更隐蔽的风险或许在于,过度依赖AI可能会在不知不觉中削弱医生的批判性思维。医生可能会将推理过程“外包”给AI。模型给出的答案越流畅、越完整、越显得正确,使用者就越可能放弃独立检索信息、批判性思考以及知识整合。长此以往,那些本应在实践中持续磨练的核心能力,将面临退化的风险。这才是我们在推进AI医疗应用时,需要时刻警醒的关键所在。
相关攻略
“湾区数超”复赛启幕!178 支队伍齐聚东莞,竞逐数据创新新高度 4月20日,广东省首届高质量数据集创新大赛的复赛阶段,在东莞数据标注产业园正式拉开帷幕。作为全省数据要素领域的一场重磅赛事,这次复赛吸引了178支顶尖队伍。他们以数据为刃,以创新为锋,展开了一场专业性与实战性兼备的巅峰对决,无疑为当前
英伟达CEO黄仁勋:AI不会取代你,但会用AI的人可能会取代你 关于人工智能对就业的冲击,业界争论已久。效率提升的诱惑与岗位消失的担忧,始终像一枚硬币的两面。最近,英伟达CEO黄仁勋在斯坦福大学的一场分享中,再次为这场讨论提供了他的视角。 黄仁勋将人工智能比作又一次“现代工业革命”,并强调了一个核心
斯坦福权威报告:阿里AI贡献全球第三 中国第一 最近,斯坦福大学人工智能研究所发布的《2026年人工智能指数报告》,在业内引起了不小的关注。这份自2017年起每年发布的报告,联合了全球学术、产业与政策领域的专家,旨在对人工智能的技术进步、经济与社会影响提供客观分析,其权威性早已得到业界公认。 今年的
滴滴签约香港引进办,智慧出行深耕本地新契机 4月20日,香港引进重点企业办公室(简称“引进办”)迎来重要签约时刻。在财政司司长陈茂波的见证下,滴滴出行正式签约,成为引进办新一批重点引进企业之一。此举标志着这家科技巨头将在香港获得更系统性的政策支持,进一步拓展其业务版图与战略布局。 引进办的使命在于吸
全国首份人工智能开源生态共识在粤发布,司法护航创新共治 4月20日,一场聚焦人工智能前沿司法需求的倡议暨研讨活动在广东省高级人民法院举行。活动以“司法护航创新•开源共治共赢”为主题,吸引了来自全国人工智能产业链的24家头部科技企业、行业协会、开源基金会及社区的代表,连同业界知名专家学者、行政机关负责
热门专题
热门推荐
说实话,每次看到别人在商务路演时拿出那种设计精良、气质高端的PPT,你是不是也暗自羡慕过?但咱们既不是专业设计师,又抽不出大把时间琢磨排版配色——这种困境我太懂了。好在现在有了Gamma这样的智能平台,它内置的模板系统能让你快速产出专业级PPT。今天我就以最经典的极简黑金风格为例,带你走一遍具体操作
苹果换帅:库克转任执行董事长,硬件负责人特努斯接任CEO 封面新闻记者 易弋力 科技界的一则重磅人事变动,终于在当地时间4月20日尘埃落定。美国苹果公司正式宣布,任命公司内部元老、长期执掌硬件业务的约翰·特努斯为下一任首席执行官,接替自2011年起便掌舵公司的蒂姆·库克。与此同时,苹果公司也确认,库
三角洲行动长弓溪谷藏宝堆位置全攻略 各位特战队员,S9赛季全新登场的“藏宝堆”你们都收集齐了吗?这并非普通的地形装饰,而是地图上带有独特牛角标记的珍贵容器。其背景源于阿萨拉人在收藏大师马苏德引领下开展的祈福仪式,为《三角洲行动》的战场探索增添了丰富的趣味性与文化深度。 《三角洲行动》长弓溪谷藏宝堆全
育碧近日透露,《刺客信条》系列的全新多人作《刺客信条CODENAME INVICTUS》正在稳步开发中 《刺客信条》的粉丝们,准备好迎接一次碘伏性的体验了吗?育碧不久前释放了一个重磅消息:系列的全新多人游戏《刺客信条CODENAME INVICTUS》正在稳步推进中。这一次,开发团队将重心完全转向了
一、访问学科网官网并进入注册页面 想用学科网的各种教学资源,第一步得有个自己的账号。这事儿得从官网走最靠谱,毕竟现在各种山寨网站不少,走错了门,不光注册不成,还可能碰到麻烦。我建议你直接打开浏览器,手动输入www zxxk com这个地址,这样能确保万无一失。 进来之后别眼花,首页内容挺多的。你直接





