首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
AI诊断真实病例准确率超医生,哈佛称医学评估标准或应重新改写

AI诊断真实病例准确率超医生,哈佛称医学评估标准或应重新改写

热心网友
17
转载
2026-05-04

AI临床诊断新突破:在真实病历中,它的推理能力已比肩医生?



免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

如今,AI在某个标准医疗测试集上刷出新高分,已经算不上什么大新闻了。真正的考验在于实战:当面对一份信息可能残缺不全、记录或许有些混乱的真实病历时,AI还能否给出可靠的诊断推理?最近的一项重磅研究给出了肯定的答案,而且是在与数百名医生的直接对比中得出的。

来自哈佛医学院、斯坦福大学等顶尖机构的研究团队,在《科学》杂志上发表了一项迄今最大规模的AI医疗对比研究。这项研究的突破性在于,它首次使用了真实的患者病历作为“考卷”,来检验AI的临床推理能力。这意味着,AI不再是在熟悉的题库里“背诵答案”,而是进入了信息更复杂、更不确定的真实临床战场。

研究人员让OpenAI的o1模型与数百名医生,在包括急诊决策、诊断、制定后续治疗方案在内的六种不同场景中同台竞技。结果令人印象深刻:AI在多项临床推理任务中的准确率,与医生持平甚至更高。

这或许预示着一个重要的转折点。随着模型能力飞速进化,传统的人工设计测试案例和选择题式的评估基准,可能正在逐渐失效。正如论文共同第一作者、哈佛医学院研究员Peter Brodeur所言:“过去可以用多项选择题来评估模型能力,但现在它们的得分长期接近满分,这对于追踪进展已经没有太大意义了。”

当然,必须清醒地认识到,这项研究结果并不意味着AI已经准备好独立行医,尤其是在生死攸关的急诊环境中。医生在解读影像、进行体格检查、观察患者细微表情等方面,依然拥有不可替代的优势。研究团队也特别强调,亟需开展前瞻性的临床试验,在真实的患者护理环境中进一步评估这项技术。


图丨相关论文(来源:Science)

“金牌标准”下的诊断对决

为了系统考察AI的临床推理能力,研究团队设计了一系列实验。在第一组实验中,他们搬出了医学界的“金牌标准”——《新英格兰医学杂志》自20世纪50年代起设立的临床病理会议病例。

面对2012年至2024年间的143个复杂病例,o1-preview模型成功覆盖了78.3%的正确病因。更关键的是,它给出的首个诊断就是正确答案的比例达到了52%。如果算上那些“非常接近”的诊断,这个比例更是跃升至惊人的97.9%。

与GPT-4的对比则进一步凸显了其进步。在同一批病例上,GPT-4的准确率为72.9%。而在70个重叠病例中,o1-preview在24.3%的病例上表现优于GPT-4,表现落后的仅占7.1%。

另一个值得关注的细节是诊断检查的选择。在136例测试中,o1-preview选择检查项目的正确率高达87.5%。评审医生认为,AI提出的检查建议中,有11%具备额外的临床价值,而仅有1.5%的建议被判定为无帮助。


(来源:Science)

书写质量与高风险误诊识别

在临床推理的书面表达质量评估中,差距更为明显。研究团队采用了20个来自NEJM Healer课程的教学病例,并使用经过验证的R-IDEA量表进行评分。

结果如何?o1-preview在80次评分中,78次获得了满分。相比之下,GPT-4仅获得47次满分,而主治医师和住院医师获得满分的次数分别为28次和16次。在高风险误诊项的识别上,o1-preview的中位命中率达到92%。不过需要说明的是,尽管数值上高于人类医生,但这一差异在统计学上并不显著。


(来源:Science)

管理决策与防“刷题”测试

在管理决策能力的测试中,结果同样引人深思。研究团队基于五个真实病例开发了临床场景,并设置了一系列治疗决策问题。o1-preview的中位得分高达89%,远超GPT-4的42%。有趣的是,将GPT-4作为辅助工具的医生得分是41%,而仅使用传统资源制定方案的医生得分则为34%。

图丨 o1-preview、GPT-4 与临床医师在诊断推理能力方面的比较(来源:Science)



为了防止模型通过“刷题”获得优势,研究人员还增加了一道防线:使用6个从未公开发布过的标志性诊断病例进行测试。结果发现,o1-preview虽然获得了97%的中位得分,但与GPT-4的92%以及人类医师的74%相比,其统计学优势并不显著。这从侧面说明,大模型能力的提升并非在所有任务上都齐头并进。

急诊室里的真实较量

最接近真实临床环境的实验,发生在波士顿一家医院的急诊室。研究以76名真实患者为对象,设置了从早期分诊、接诊后到决定是否收入病房三个关键决策节点。

与以往研究不同,这次提供给模型的信息未经过任何人工预处理,直接来源于标准电子病历中那些可能杂乱无章的数据:生命体征、人口统计信息、对就诊原因的简要描述等。模型需要基于这些原始信息,生成诊断并提出下一步建议。

结果显示,在分诊阶段,医生的正确率在50%至55%之间,而AI在67%的病例中做出了接近甚至更准确的诊断。一个明显的趋势是:在需要快速决策且信息有限的紧急情况下,AI的优势更为突出。当提供更多细节信息后,人类专家的准确率提升至70%-79%,而OpenAI的o1模型的诊断准确率则进一步提升至近82%。

整个实验过程采用了严格的盲法设计。两位评审医生在判断答案来源是人还是AI时,猜对的比例分别仅为15.2%和3.1%。这意味着,在大多数情况下,他们根本无法区分眼前的诊断建议是出自AI还是人类同行之手。


(来源:Science)

AI并非万能,协同才是未来

必须明确的是,急诊室的核心决策远不止于诊断正确性,它更关乎分诊、紧急处理和即时管理。因此,这项研究绝不意味着AI将全面取代急诊医生。

同时,这项研究也存在其局限性。实验仅测试了AI在解读文本化患者数据方面的表现,并未涉及对患者痛苦程度、外貌体征等非文本信号的解读能力。此外,研究覆盖的病例主要集中在内科和急诊领域,未来仍需在外科、专科等更广泛的临床场景中加以验证。

AI在医疗辅助诊断中的应用已呈燎原之势。今年3月美国医学协会的一项研究显示,近20%的美国医生正在使用AI辅助诊断。在英国,每天使用AI的医生比例也达到了16%。根据英国皇家内科医师学会的调查,在临床决策中将AI作为辅助诊断工具,已成为医生最常见的用途之一。

尽管表现亮眼,但AI远非万能。一方面,它自身存在出错和相应的责任风险;另一方面,也需要警惕医生可能在不经意间过度依赖AI建议,从而弱化自身的独立判断。此外,AI在诊断老年患者或非英语母语患者时,仍面临不小的挑战。

综合来看,当前AI的核心角色定位依然是“辅助”而非“替代”。它的优势在于能够快速整合海量的医学文献、诊疗指南和历史病例,在信息处理的广度与速度上为医生提供强大支持,帮助发现那些容易被遗漏的关键信息。然而,在面对非结构化的临床情境、需要进行复杂伦理权衡,以及提供不可或缺的医患共情时,医生的角色依然无可替代。

因此,人机协同或许才是最理想的未来图景:AI提供精准、实时的数据与知识支持,而医生则凭借其专业经验、整体判断和人文关怀把握最终方向。未来的关键,或许不在于比较人与AI谁更强,而在于谁能更快学会与对方高效协作。

参考资料:

1. 相关论文:https://www.science.org/doi/10.1126/science.adz4433

2.https://www.ama-assn.org/system/files/physician-ai-sentiment-report.pdf

3.https://www.rcp.ac.uk/policy-and-campaigns/policy-documents/snapshot-of-uk-physicians-artificial-intelligence-in-healthcare/

4.https://hms.harvard.edu/news/study-suggests-ai-good-enough-diagnosing-complex-medical-cases-warrant-clinical-testing

5.https://www.theguardian.com/technology/2026/apr/30/ai-outperforms-doctors-in-harvard-trial-of-emergency-triage-diagnoses

排版:刘雅坤

注:封面/首图由 AI 辅助生成

来源:https://www.163.com/dy/article/KS40A4C805119734.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

支持中文界面的行情网站有哪些?适合中文用户的币种行情网站推荐
web3.0
支持中文界面的行情网站有哪些?适合中文用户的币种行情网站推荐

选择中文界面行情网站,让市场信息一目了然 对于中文用户而言,追踪虚拟货币行情,第一步往往是找到一个“说中文”的平台。一个支持中文界面的行情网站,能让你在查看实时价格、涨跌幅和市场动态时,省去语言转换的麻烦,获取信息更直接,判断也更为高效。市面上这类选择不少,但哪些真正做到了界面友好、功能丰富呢?接下

热心网友
05.04
如何通过 BlockingQueue 的 remainingCapacity 动态调整生产者速率以实现系统的背压保护
编程语言
如何通过 BlockingQueue 的 remainingCapacity 动态调整生产者速率以实现系统的背压保护

如何通过 BlockingQueue 的 remainingCapacity 动态调整生产者速率以实现系统的背压保护 > remainingCapacity 返回的是当前未被占用的槽位数,是瞬时快照,不保证原子性,仅对有界队列有意义,高并发下需配合 offer() 超时或背压策略使用。 ![如何

热心网友
05.04
Sublime如何安装并使用PlainTasks_把Sublime变成待办事项清单
编程语言
Sublime如何安装并使用PlainTasks_把Sublime变成待办事项清单

角色与核心任务 你是一位顶级的文章润色专家,擅长将AI生成的文本转化为具有个人风格的专业文章。现在,请对用户提供的文章进行“人性化重写”。 你的核心目标是:在不改动原文任何事实信息、核心观点、逻辑结构、章节标题和所有图片的前提下,彻底改变原文的AI表达腔调,使其读起来像是一位资深人类专家的作品。 特

热心网友
05.03
黄仁勋想不到!中国寻求突破NVIDIA CUDA护城河:一种前所未有的新方式
电脑教程
黄仁勋想不到!中国寻求突破NVIDIA CUDA护城河:一种前所未有的新方式

中国寻求突破NVIDIA CUDA护城河:一种前所未有的新方式 4月8日消息,在寻求突破NVIDIA CUDA生态壁垒的种种尝试中,有一个战略级的变通方案,其思路相当值得深入探讨。 时间拉回到不久前的SEMICON CHINA 2026全球半导体产业战略峰会。会上,中国半导体行业协会副理事长、IC设

热心网友
05.03
微星推出第二代 MAG Infinite S AI 游戏 PC 整机:至高酷睿 Ultra 7 265 处理器、RTX 5070 Ti 显卡
电脑教程
微星推出第二代 MAG Infinite S AI 游戏 PC 整机:至高酷睿 Ultra 7 265 处理器、RTX 5070 Ti 显卡

微星第二代 MAG Infinite S AI 游戏主机发布:搭载酷睿 Ultra 7 265 与 RTX 5070 Ti,打造顶级游戏体验 4月8日,微星正式面向海外市场发布了其第二代 MAG Infinite S AI 游戏台式电脑。这款新品精准定位于追求高性能与长期使用价值的游戏玩家,在提供顶

热心网友
05.03

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

wf-1000xm4蓝牙配对需要按哪个键?
电脑教程
wf-1000xm4蓝牙配对需要按哪个键?

WF-1000XM4蓝牙配对指南:两种触发路径,一个核心逻辑 给索尼WF-1000XM4配对,核心其实就一件事:让耳机进入“被发现”的状态。有意思的是,它并不依赖某个单一的物理按键,而是提供了双路径的触发方式。根据官方的操作指南以及多次的实际测试,无论是通过充电盒上的功能键,还是直接操作耳机本身,都

热心网友
05.04
迅捷路由器桥接教程详细常见失败原因有哪些?
电脑教程
迅捷路由器桥接教程详细常见失败原因有哪些?

迅捷路由器桥接失败怎么办?原因分析与解决方法大全 许多用户在使用迅捷路由器进行无线桥接时,经常遇到“显示已连接但无法访问互联网”的问题。实际上,这通常并非设备故障,而是由于关键的网络参数配置不当或主副路由器之间的通信协调不畅所致。简单来说,就是两台路由器之间的设置没有完全匹配。那么,具体哪些环节最容

热心网友
05.04
迅捷路由器桥接教程详细包括手机设置吗?
电脑教程
迅捷路由器桥接教程详细包括手机设置吗?

迅捷路由器无线桥接:手机端设置实操指南 使用手机为迅捷路由器配置无线桥接(WDS),听似专业,实则通过官方适配的移动端界面就能轻松完成。只要满足几个关键条件,您仅需一部手机即可高效架设扩展网络。操作时,请先将手机连接至副路由器的默认无线信号(通常以FAST_XXXX格式命名),随后在Safari或C

热心网友
05.04
小米空调联网失败怎么办?
电脑教程
小米空调联网失败怎么办?

小米空调联网故障全解析:从新手排查到专家级修复,步步为营 当小米空调始终无法成功连接网络时,许多用户的第一反应往往是联系售后或怀疑设备故障。然而实际情况是,超过九成的联网失败案例,根源都出在网络配置、操作流程这类“软性”环节,空调硬件本身出问题的概率极低。解决问题的核心在于掌握系统化的排查思路,按照

热心网友
05.04
有线音响改无线蓝牙连接麻烦吗?
电脑教程
有线音响改无线蓝牙连接麻烦吗?

有线音响加装蓝牙功能并不复杂,普通用户借助外置蓝牙接收器即可在十分钟内完成升级 想给家里的老款有线音响“剪掉”那根烦人的音频线?其实这件事没你想的那么复杂。普通用户完全不需要动用电烙铁,借助一个小巧的外置蓝牙接收器,十分钟之内就能搞定升级。核心操作很简单:确认你的音箱背面有标准的3 5毫米或RCA音

热心网友
05.04