AI聊天机器人临床推理能力能否媲美专业医生
让计算机辅助医生做临床决策,这个想法其实不算新鲜。早些年,这类系统大多是基于人工编写的规则库在运转,比如设定一些症状识别逻辑、检查指标的阈值,或者药物之间的相互作用规则。随着人工智能技术,特别是大语言模型的快速发展,让AI参与更复杂的临床推理,自然就成了一个备受瞩目的方向。

就在今年4月底,《科学》期刊上发表了一项引人关注的研究。结果显示,OpenAI的大语言模型在基于真实急诊室病历的几项临床推理任务中,表现已经超过了医生。
这个发现出现的时机很有意思。当前,医疗聊天机器人领域正处在一个争议不断的阶段:一方面,有些研究展示了它们令人印象深刻的诊断能力;另一方面,也有不少报告指出了问题,比如模型会“捏造”引用文献、给出错误建议,而且评估方式一变,结果可能大相径庭。尽管存在这些不确定性,面向医疗专业人士的AI产品已经开始进入市场试水,例如OpenAI今年就推出了面向临床医生和医疗机构的ChatGPT版本。
这次被测试的模型是o1-preview(虽然它已被更新的版本取代),但其表现足以让研究团队感到振奋。他们建议,应该在真实病例中进一步测试大语言模型,并探索在特定的诊断决策节点,引导医生向AI寻求“第二意见”的工作流程。
在纽约伊坎医学院从事AI医学影像研究的Mickael Tordjman对此表示认同,他认为现在正是将研究焦点转向真实世界应用的好时机。“我们确实需要更多来自前瞻性临床试验的证据,”他指出,“更新的模型,或者专门为医疗用途训练的模型,或许能带来更好的表现。”
光环下的隐忧:准确性与“幻觉”并存
尽管《科学》论文的作者们在发布会上对AI的医疗潜力表达了乐观,但他们同样强调了当前大语言模型的重要局限,并对研究结果可能被误读感到担忧。共同作者、哈佛医学院的AI研究者Arjun Manrai明确表示:“我们的研究结果绝不意味着AI将要取代医生。”
另一位共同作者、波士顿Beth Israel Deaconess医疗中心的医学教育者Adam Rodman也表达了类似的谨慎:“别误会,这结果真的很酷。但这些发现未来会被如何解读和使用,确实让我有些不安。”
这种不安并非空xue来风。其他研究医疗聊天机器人的学者近期也发现了质疑其可信度的理由。例如,有研究指出,几款主流聊天机器人在回答开放性健康问题时,近一半的回答存在缺陷——它们会自信地编造信息和文献引用,而且无论答案正确与否,都采用同样笃定的语气。
“这些模型每天都在被使用,其中蕴含的风险既没有被充分量化,也没有得到有效控制。”另一支哈佛研究团队的成员Arya Rao这样评价。
面向医生:一个不同的挑战场景
目前,大量研究集中在聊天机器人回答普通公众的健康咨询上,也就是人们在犹豫要不要去看医生时可能会问的问题。然而,将大语言模型作为面向医生的临床决策支持工具,则是完全不同的任务场景。医生更清楚该提供哪些关键信息来帮助模型做出准确判断,也具备识别明显错误的专业知识背景。
但即便如此,识别AI的“幻觉”内容对医生来说依然是一大挑战。“无论对错,模型的表现都同样令人信服,”Rodman指出,“所以,我们必须找到那些错误率最低的应用流程。”
有趣的是,即便是同样聚焦于医生端临床推理任务的研究,也可能因为对“成功”的定义不同,而得出截然不同的结论。就在《科学》论文发表后不久,4月13日发表于《JAMA Network Open》的一篇论文中,Rao及其同事对21个大语言模型进行了类似的测试。和《科学》研究一致,许多模型在给出最终诊断上表现良好,包括o1系列的模型。然而,Rao团队在“鉴别诊断”这项任务上,给大语言模型打了较低的分——因为他们采用了不同的评估体系。
所谓鉴别诊断,就是要求列出患者症状所有可能的病因。举个例子,如果一个模型在7个可能的诊断中正确列出了6个,按照某些评分标准,这可以算作86%的高准确率;但在Rao的评估体系里,这可能被判定为一次不可接受的失败。
你看,问题就在这里。目前,业界还没有一个统一的“评分标准”。“这仍然是一项进行中的工作,”Tordjman坦言,“目前并没有评估大语言模型临床推理能力的完美方法。”
真实世界的测试与未来的协同
在《科学》的研究中,团队使用了多组医学案例集来测试OpenAI的模型,这些案例类似于高难度的开放式医学考试题。给模型的指令有时很长,里面混杂着可能是无关信息,也可能是关键诊断线索的细节。
“我们进一步证明了,这种优异表现同样适用于真实世界场景。”Rodman说。研究的一部分使用了76个真实的急诊就诊案例。他们要求大语言模型和医生在诊疗的不同阶段(患者刚抵达时、医生完成初步评估后、转入其他科室后)分别给出诊断。随着获得的信息越来越多,无论是AI还是人类,准确率都有所提升,但大语言模型始终保持着微弱的优势。例如,在最终检查点,模型给出“精确或非常接近”诊断的比例达到了82%,而参与对比的两位医生则分别为79%和70%。
我们熟知的大语言模型诞生至今还不到十年,整个领域正以惊人的速度演变。主流模型的迭代速度,已经超过了医学研究和学术文献通常的发表节奏。与此同时,关于监管、责任归属等一系列关键问题,仍然悬而未决。鉴于无数患者和医生已经在日常中开始使用这些工具,研究人员向媒体表示,迫切需要对它们的优势、风险以及最佳使用方式进行更深入的了解。
尽管将AI表现与人类医生进行比较对研究很重要,但Manrai认为,更关键的问题在于医生未来将如何实际使用这项技术。“我们必须迅速从‘AI对战人类’的思维框架里跳出来,”他强调,“转而思考人类如何与这项技术协同互动。”
面对诸多尚未解答的问题,哈佛的Rao表达了她的看法:技术发展的速度如此之快,医学界无法袖手旁观。“保持谨慎和持续评估固然重要,但或许,推动负责任的创新更为迫切,”她说,“我们不想给这项技术泼冷水——我们认为,负责任的创新才是正确的方向。”
Q&A
Q1:大语言模型在临床推理方面表现如何?
根据2025年4月发表于《科学》期刊的研究,OpenAI的o1-preview模型在基于真实急诊室病历的多项临床推理任务中超越了医生。在最终诊断节点,该模型给出精确或接近正确诊断的比例为82%,两位医生分别为79%和70%。随着诊疗过程中信息量的增加,模型与医生的准确率均有提升,但模型始终保持领先。
Q2:评估大语言模型临床推理能力有没有统一标准?
目前尚无统一的评估标准。不同研究团队采用不同评分体系,可能导致结论差异显著。例如,在鉴别诊断评分上,同样是7个可能诊断中答对6个,有的体系评为86%,有的则判定为不可接受的失败。研究人员普遍认为,建立标准化评估方法仍是一项亟待完成的工作。
Q3:大语言模型在医疗应用中有哪些主要风险?
主要风险包括:模型可能产生“幻觉”,即捏造信息或引用文献,且无论对错均以自信语气呈现,医生难以察觉;近半数健康问题回答存在缺陷;此外,监管与责任归属问题尚未明确。研究人员强调,相关风险目前既未被充分量化,也未得到有效控制,需要通过前瞻性临床试验进一步验证。
相关攻略
让计算机辅助医生做临床决策,这个想法其实不算新鲜。早些年,这类系统大多是基于人工编写的规则库在运转,比如设定一些症状识别逻辑、检查指标的阈值,或者药物之间的相互作用规则。随着人工智能技术,特别是大语言模型的快速发展,让AI参与更复杂的临床推理,自然就成了一个备受瞩目的方向。 就在今年4月底,《科学》
如今,大型语言模型已广泛应用于我们的日常工作与生活场景。从智能对话到复杂任务处理,它们展现出强大的理解与生成能力。然而,当面对数万字的长篇文档,或需要回顾数十轮对话历史的复杂场景时,许多AI助手便会响应迟缓、力不从心。其核心瓶颈在于传统的信息处理机制——如同在无索引的浩瀚书海中逐页查找,效率自然低下
你是否曾与ChatGPT等AI助手进行过长对话?聊得越久,是否感觉它的反应似乎变慢了,甚至偶尔会“卡住”?这背后并非错觉,而是当前大型语言模型面临的一个核心瓶颈:其“记忆系统”在长文本处理上效率低下。最近,一项由宾夕法尼亚州立大学牵头,联合康涅狄格大学、卡内基梅隆大学及加州大学洛杉矶分校的研究,为这
距离苹果2026年全球开发者大会(WWDC)揭幕还有不到一个月,科技圈已经提前热闹起来。根据知名记者马克·古尔曼的最新爆料,代号“Ra ve”的iOS 27系统将带来一项标志性变化:诞生已15年的Siri,将以独立应用的形式重磅回归。 这绝非一次简单的图标重现。新版Siri被定位为“全天候在线智能体
基于通义千问模型构建AI聊天机器人,提供五种方案:零代码验证可用CSDN星图镜像快速部署WebUI;高性能生产服务推荐vLLM结合Chainlit;免运维弹性伸缩可选阿里云函数计算;集成现有系统可直接调用DashScopeSDK;深入理解模型机制则可通过本地部署进行开发。
热门专题
热门推荐
华硕ROG正式发布2026款枪神、魔霸及魔霸新锐系列游戏本并开启预约。枪神系列分为标准版与超竞版,均搭载酷睿Ultra9处理器,超竞版可选RTX5090显卡并配备光显矩阵屏。魔霸系列采用AMD锐龙处理器,高配可选锐龙99955HX3D与RTX5070Ti显卡。魔霸新锐系列主打性价比,配备RTX5060显卡,面向预算有限的玩家。
内存价格高企,单通道DDR5成为高性价比装机方案,但会降低游戏性能。测试显示,锐龙59600X凭借Zen5大核架构及对内存低延迟的优化,在搭配单条DDR56000内存时,游戏性能损失较小。相比之下,酷睿Ultra200SPLUS系列更依赖高带宽,单通道下性能下滑明显。在多款热门电竞网游实测中,锐龙59600X性能领先,且整机性价比优势显著。
神牛发布ML40系列摄影灯,包含ML40Bi和ML40R两款。ML40Bi售价568元,内置锂电池,支持边充边用及NFC快速连接,侧重便携智能。ML40R售价698元,具备更广色温调节范围,侧重专业色彩控制。两者均采用磁吸设计,兼容丰富附件,满足不同布光需求。
华硕TUFGaming系列推出新款850W白金重炮手氮化镓电源,到手价849元。该电源符合ATX3 1规范,长度150mm,采用全模组设计,配备12V-2×6接口支持600W峰值功率。其获得双白金效率认证与A-噪声认证,内部使用氮化镓元件与长寿电容,搭配135mm静音风扇,并提供8年质保,主打高效、安静与持久稳定。
FalconUSD(USDF)是一种与美元挂钩的稳定币,旨在为Web3生态系统提供可靠的交易媒介和价值储存工具。其运作依赖于储备资产支持和透明审计机制,在DeFi、跨境支付等场景有应用潜力。了解其技术原理、市场定位及潜在风险,有助于理性评估这一新兴数字资产的价值与前景。





