最新研究:生成式AI尚无法独立承担临床推理诊疗任务
美国麻省总医院MESH孵化器团队最新研究:生成式AI的临床推理能力评估
最近,《JAMA Network Open》上发表了一项挺有意思的研究,来自美国麻省总医院MESH孵化器团队。他们干了一件事:系统性地测试了当前主流生成式AI的临床推理能力到底怎么样。结果呢?有点出人意料,又在意料之中。研究选取了包括ChatGPT、DeepSeek、Claude在内的21种主流大语言模型,用29个真实临床病例模拟了动态诊疗的全过程。结论很明确:当前这些AI在最终诊断上表现尚可,但在最核心的鉴别诊断环节,短板暴露无遗,距离独立承担临床诊疗任务,还有很长的路要走。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
贴近真实的测试设计
这项研究的设计思路很巧妙,它没有采用那种静态的、考卷式的问答。相反,研究人员刻意还原了真实的临床场景:他们从已确诊的病例库里挑出29个典型病例,然后像医生接诊一样,逐步向AI模型释放信息——先是症状,然后是实验室检查数据,接着是影像结果。这种“挤牙膏”式的信息投放方式,完美模拟了医生在现实中逐步获取线索、逐步推理的动态过程。参与测试的21款模型,基本囊括了市面上知名度最高的头部产品,像ChatGPT、DeepSeek、Claude、Gemini、Grok等,一个都没落下。
矛盾且值得玩味的实验结果
实验数据出来后,呈现出一个非常矛盾的局面。一方面,当AI模型拿到患者的全部信息后,所有模型给出正确最终诊断的准确率都飙到了90%以上。单看这个数字,已经接近一位合格执业医师的水平了,听起来相当不错。
但另一方面,故事在临床推理最核心的环节——鉴别诊断这里,发生了转折。结果可以说是不尽如人意。超过80%的参测模型,根本完不成系统性的鉴别诊断流程。它们既无法合理地罗列出所有需要排除的潜在疾病,也没法结合已有信息,逻辑清晰地进行病因筛选和排除。说白了,很多模型的“思考”方式,本质上还是“关键词匹配”,然后直接蹦出一个结论,中间缺少符合医学规范的那条严谨的推理链条。为了更科学地量化这种差距,研究团队还专门引入了PrIME-LLM这个综合评价指标,这为后续行业优化模型能力,提供了一个挺不错的统一标尺。
给过热预期降降温
话说回来,最近几年,生成式AI在医疗领域的落地速度确实快得惊人。从自动书写病历、辅助影像阅片,再到回答患者咨询,AI的身影已经渗透到医疗流程的多个角落。于是,市场上开始出现一种观点,认为AI很快就能参与核心诊疗,甚至替代部分医生工作。
但这项研究的结论,恰恰给这种过热的预期泼了一盆“清醒剂”。它证明,当前生成式AI的能力边界依然清晰,临床推理这道核心关卡,它还没能真正突破。这就像是一个学生,虽然能背下标准答案(最终诊断),但一遇到需要详细解题步骤和分析过程的题目(鉴别诊断),就露怯了。
未来的方向:从辅助走向核心?
所以,研究的指向很明确:当前主流的生成式AI,尚不具备独立承担临床诊疗任务的资格。它的合理定位,依然是作为辅助工具,帮助医护人员从那些重复性高、负担重的工作中解放出来。
不过,这项研究暴露出的问题,反而指明了接下来的研发方向。业内人士普遍认为,大模型需要在医学推理逻辑的训练上投入更多精力。怎么投入?或许就是更紧密地结合真实的临床路径和决策树,去优化模型的“思考”方式。只有这样,AI才有可能逐步从边缘辅助,向核心诊疗环节谨慎地、一步一步地靠近。这条路,注定需要耐心和扎实的功夫。
相关攻略
2026年4月16日,科大讯飞正式推出AM50 Pro AI智能鼠标 2026年4月16日,国内人工智能领域的代表企业科大讯飞,正式向市场推出了一款颇具新意的产品——AM50 Pro AI智能鼠标。这款新品定价498元,提供了黑、白、红三种经典配色供用户选择。它的核心卖点,是将大语言模型能力直接集成
2026年4月:一场由安全更新引发的AI桌面应用风波 2026年4月,AI领域发生了一件颇有意思的插曲。开发了知名AI编程工具Claude Desktop的Anthropic公司,意外地卷入了一场舆论争议。事件的导火索,是微软在今年3月推送的一个Windows安全更新——KB5079473。谁能想到
2026年4月16日:开源AI工具NewAPI曝高危支付漏洞,中小创业者需紧急排查 就在昨天,开源AI大模型接口聚合管理系统NewAPI(项目归属QuantumNous)被曝出一个高危支付逻辑漏洞。这事儿可不小,它直接动摇了这套流行系统的付费根基。简单来说,当管理员在Stripe支付模块上配置疏忽时
4月2日,阿里发布千问新一代大语言模型Qwen3 6-Plus。千问3 6拥有原生多模态理解和推理能力,整体性能大幅增强,在智能体编程SWE-bench系列评测、真实世界智能体任务Claw-Eval
4月1日消息,随着AI不断深入日常生活,大家有没有发现AI越来越会拍彩虹屁了?近期发表在权威期刊《Science》上的一篇论文,对目前全球最先进的11个大语言模型进行了系统评估,揭露了一个有趣的真相
热门专题
热门推荐
通过AirDrop功能,可在iPhone16之间快速传输已安装的App,无需重新下载。 省去重新下载的等待,直接在两部iPhone 16之间“搬运”已经安装好的App——这个用AirDrop传App的功能,确实方便。不过,想顺利操作,有几个关键前提得先摆正。 准备工作与条件确认 开始之前,最好花一分
修改iPhone17设备名称的核心步骤 想给你的iPhone17换个独具特色的名字吗?其实很简单,整个操作的核心路径就在「设置」>「通用」>「关于本机」>「名称」里,几步就能完成自定义。 为什么要修改iPhone17的设备名称? 给iPhone17改个名,可不仅仅是图个新鲜。它在蓝牙配对、使用Air
解除iPhone14隐藏ID的核心方法是联系原机主或提供购买凭证,通过官方渠道重置Apple ID 手里突然多出一台被锁的iPhone 14,用起来处处受限,这事儿确实头疼。好消息是,只要遵循官方路径,问题基本都能解决。关键在于,你得有耐心走完正规流程。 什么是iPhone隐藏ID? 简单来说,iP
通过“查找”应用或iCloud网站,登录Apple ID即可实时定位iPhone 17,即使设备离线也能显示最后已知位置。 使用“查找”应用定位iPhone 17 如果你手边还有别的苹果设备,比如iPad或者Mac,最省事的方法就是直接用上面的“查找”应用。打开应用,登录和iPhone 17同一个
iPhone 16通知权限设置与微信提示音修复指南 微信消息突然“静音”了?先别急着怀疑手机坏了。在iPhone 16上,通知体系和声音管理比以往更精细,有时只是某个开关没到位。接下来,咱们就把系统通知中心、应用权限、勿扰模式这几个关键环节捋清楚,帮你快速找回失联的提示音,避免错过重要信息。 iPh





