首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
AI医生靠谱吗?《自然》研究证实:普通人上网搜索更实用

AI医生靠谱吗?《自然》研究证实:普通人上网搜索更实用

热心网友
78
转载
2026-02-11

AI自身的能力与人们实际运用这些能力的效率之间,存在着一道巨大的鸿沟。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

AI医生是否真的可靠?它的性能提升,难道仅仅依靠增加算力就能实现吗?今年2月10日发表在《自然·医学》上的一项新研究给出了答案,对普通大众来说,这个答案是否定的。

在该研究中,来自牛津大学等机构的科研人员招募了1298名英国参与者,让他们在10个不同的医疗场景中做出判断。例如,突发剧烈头痛该去什么医疗机构就诊,以及可能患的是什么疾病。参与者被随机分配到四个实验组:其中三个治疗组分别使用GPT-4o、Llama 3或Command R+这三种不同的大语言模型来辅助决策,而对照组则使用他们平时在家会用的任何方法,主要是互联网搜索。

当研究人员直接将医疗场景的信息输入给这些大语言模型时,它们的表现非常出色。GPT-4o在94.7%的情况下能指出至少一个相关的医学诊断,在64.7%的情况下能给出正确的医疗建议。Llama 3和Command R+的表现也大同小异。这说明它们确实掌握了大量的医学信息。

然而,当普通人使用这些相同的模型时,情况就不一样了。使用大语言模型的参与者在识别相关医学条件方面的表现变得更差,准确率只有不到34.5%。他们在判断医疗优先级方面的表现也没有超过对照组,两者的准确率均为44%左右。

换句话说,让患者自己咨询AI医生,其结果可能还不如直接上网搜索。

这一结果表明,AI本身的潜力与人类实际运用这种潜力的效率之间存在巨大落差。研究团队分析了参与者与大语言模型之间的对话记录,发现了一系列系统性的问题。首先是信息传递的不畅。大语言模型在对话中提到相关症状的比例大约在65%-73%之间,远低于它们单独工作时的表现,这说明人类患者往往没有向AI系统提供足够的信息。

超过一半的患者在最初描述症状时没有提供完整的信息。他们可能只说“头很疼”,而没有提到“突然发作”或“伴有颈部僵硬”这样的关键症状。有时候,患者会在AI的提问下逐步补充信息,但有时他们根本不补充。

研究作者们指出,相比之下,医生之所以能诊断患者,不仅因为他们知识丰富,更因为他们知道要问什么问题。一个非专业的患者可能不知道哪些症状是诊断的关键。

研究者们还发现,即使AI系统给出了正确建议,人类也不一定会采纳。参与者平均列出1.33个医学诊断作为他们的最终答案,而其准确率仅为38.7%。相比之下,大语言模型在整个对话中提及的所有诊断的正确率为34%。这意味着人类未能成功地从AI生成的多个建议中筛选出最好的那一个。

除了沟通不畅和判断失误,研究还发现了AI本身的一些问题。在一些情况下,大语言模型提供了正确的初始诊断,但当患者添加更多细节后,它反而改口提出了错误的建议。在另一些极端案例中,同一个AI对相似的症状描述给出了完全相反的建议。

比如,两名患者都描述了蛛网膜下腔出血的症状,包括突然的剧烈头痛、颈部僵硬和畏光。但AI告诉其中一个患者“躺在黑暗的房间里”休息,而另一个则建议“立即呼叫救护车”。

在人类医生的培养逻辑中,通过资格考试通常是上岗的第一步。但该研究的作者们指出,对于AI来说,考试中的成绩并不与它们在现实中表现直接相关。研究者们从医学执照考试题库中选出了与上述医疗场景相关的236道选择题让AI做,其准确率远高于在真实互动中的表现。在一些场景中,AI做题的正确率高于80%,而在患者实验中面对相同问题,准确率却低于20%。

研究团队还测试了用AI分别模拟患者和医生进行对话是否能反映真实情况。这是一种在不少研究中很流行的基准测试,不少人认为其结果应该比单纯的选择题更能反映真实互动。但该研究的结果显示,模拟患者的表现不仅总体上优于真实用户,而且这种优势与真实用户的表现几乎没有相关性。换句话说,模拟互动无法预测真实互动会成功还是失败。

研究者们认为,两个大语言模型之间的对话往往更加结构化、信息传递更顺畅,它们知道要问什么,也知道如何有效地传达医学概念。而人类患者则带来了现实世界的复杂性:焦虑、知识不足、对症状的不同理解,以及无法预测的信息共享模式。

这项研究触及了AI医疗中的一个根本问题——对于大语言模型来说,医学知识的广博性和准确性并不是在真实医疗场景中成功的充分条件。现实世界的医疗互动涉及复杂交互,无法通过传统的医学基准测试来捕捉。

这些发现对于那些正在期待AI医疗“革命”的人来说是一个清醒的提示。大语言模型或许永远不会取代医生的临床判断,但它们或许能在更加审慎、透明的设计下,成为有用的决策辅助工具——前提是我们首先解决好人与机器之间的沟通问题。

参考文献:

Bean, A. M., Payne, R. E., Parsons, G., et al. Reliability of LLMs as medical assistants for the general public: a randomized preregistered study. Nature Medicine (2026).

来源:https://www.163.com/dy/article/KLFMHHQA0514R9P4.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

俄可穿戴设备能提前预警心衰
科技数码
俄可穿戴设备能提前预警心衰

俄罗斯科研团队研发新型可穿戴设备 可提前预警慢性心衰恶化 来源:科技日报 慢性心力衰竭的早期预警,迎来了一个值得关注的新工具。近日,来自俄罗斯萨拉托夫国立医科大学的研究人员公布了一项成果:他们成功研发了一款新型可穿戴设备。这款设备的核心价值在于,它能够在慢性心衰患者出现明显临床症状之前,就发出预警信

热心网友
04.15
三星Hearapy应用免费上架:百赫兹音疗缓解晕车症状
科技数码
三星Hearapy应用免费上架:百赫兹音疗缓解晕车症状

IT之家 3 月 31 日消息,对很多人来说,晕车晕船是旅行中最常见的烦心事之一。三星悄然上线了一款名为 Hearapy 的免费应用,来解决这一令人不适的问题。该公司称,这款应用无需药物或物理缓解手

热心网友
03.31
早期识别骨关节炎:新型纳米颗粒助力诊疗新突破
科技数码
早期识别骨关节炎:新型纳米颗粒助力诊疗新突破

  新华社赫尔辛基3月1日电(记者朱昊晨 徐谦)一个国际研究团队近期在《美国化学学会·纳米》月刊上发表论文介绍,他们开发出一种新型纳米颗粒,可在计算机断层扫描(CT)时用作造影剂,更清晰地呈现关节软

热心网友
03.01
AI医生靠谱吗?《自然》研究证实:普通人上网搜索更实用
科技数码
AI医生靠谱吗?《自然》研究证实:普通人上网搜索更实用

·AI本身的能力与人类使用这种能力的效率之间存在巨大鸿沟。AI医生是否真的可靠?其性能能否仅靠增加算力来提升?2月10日发表在《自然-医学》上的一项新研究显示,对于普通人来说,答案是否定的。在该研究

热心网友
02.11
我国科学家首揭帕金森病底层功能网络机制
科技数码
我国科学家首揭帕金森病底层功能网络机制

  新华社北京2月5日电(记者熊琳、王修楠)昌平实验室科学家刘河生教授团队5日发布,团队发现了帕金森病的底层功能网络机制,并针对这一网络进行直接干预,在临床研究中取得良好成效,此次发现属世界首次。这

热心网友
02.05

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

美国就业市场稳健 全链网分析就业数据并无崩盘迹象
web3.0
美国就业市场稳健 全链网分析就业数据并无崩盘迹象

美联储官员古尔斯比表示,美国就业市场仍具韧性,并未出现分崩离析的迹象。市场担忧源于对高利率的焦虑及对数据的过度解读。当前就业数据不支持过度悲观,这为政策讨论提供了清晰起点。后续焦点将回归通胀轨迹,就业市场的实际影响将决定未来政策走向。

热心网友
05.11
OKX限额详解:认证等级、支付方式与风控规则全解析
web3.0
OKX限额详解:认证等级、支付方式与风控规则全解析

欧亿(OKX)平台的交易限额体系,主要源于其严格的多层身份认证制度。用户完成不同等级的实名认证后,会获得相应的基础提现额度。此外,平台会根据支付方式、资产类型及实时风控规则动态调整限额。理解这些规则有助于用户更顺畅地管理资产,并采取合规操作提升自身额度。

热心网友
05.11
Tether 30天冻结超5亿美元 USDT 稳定币安全监管深度解析
web3.0
Tether 30天冻结超5亿美元 USDT 稳定币安全监管深度解析

Tether在30天内冻结了超5亿美元USDT,涉及370个地址,主要集中于Tron链。此举旨在应对监管压力、打击非法活动,展现其中心化管控角色。冻结行动凸显了去中心化金融与合规要求间的张力,同时表明稳定币发行方正主动强化反洗钱等措施。这预示着加密行业合规进程加速,市场游戏规则面临重塑。

热心网友
05.11
2025至2026年国内五大GEO优化服务商实力对比与选择推荐
业界动态
2025至2026年国内五大GEO优化服务商实力对比与选择推荐

AI搜索重塑信息获取,生成式引擎成为企业竞争关键。从技术自研、平台适配、合规安全、落地效果及服务支持五个维度评估,市场有五家服务商表现突出。企业需根据自身规模、预算及行业特性选择匹配服务商。具备核心技术、全链路服务及多语种能力的头部服务商更适应市场规范化发展趋势。

热心网友
05.11
黄仁勋鼓励应届生抓住AI时代机遇开启职业生涯最佳时机
科技数码
黄仁勋鼓励应届生抓住AI时代机遇开启职业生涯最佳时机

英伟达CEO黄仁勋在毕业典礼演讲中指出,人工智能是“一代人一次的机遇”,将重塑所有行业并降低创造门槛,为年轻人带来大量机会。他鼓励毕业生善用AI以取得优势,并强调需负责任地推进技术,兼顾安全与创新,引导AI造福社会。

热心网友
05.11