首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
AI健康助手会取代搜索引擎吗?区别与未来

AI健康助手会取代搜索引擎吗?区别与未来

热心网友
19
转载
2026-01-24


(来源:麻省理工科技评论)

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

在过去二十年里,当人们感到身体不适时,往往会下意识地上网搜索相关信息。这种做法过于普遍,以至于人们常常戏称搜索引擎为“Google 医生”。但随着大语言模型的出现,越来越多人习惯于转向 LLMs 搜寻信息。根据 OpenAI 的数据,每周约有 2.3 亿人向 ChatGPT 提出与健康相关的问题。

正是在这样的背景下,OpenAI 于本月早些时候推出了新的 ChatGPT Health 产品。但这一发布时机并不理想。就在两天前,新闻 SFGate 披露了一起案件:一名名为 Sam Nelson 的青少年在去年因药物过量去世,而在此之前,他曾与 ChatGPT 进行了大量关于如何组合多种药物的对话。随着这两则消息接连出现,多名记者开始质疑,将医疗建议寄托在一种可能造成严重伤害的工具上是否明智。

尽管 ChatGPT Health 在界面上以独立的侧边栏标签形式存在,但它并不是一个全新的模型。更准确地说,它是一层封装,为 OpenAI 现有模型提供指导和工具,使其能够给出健康相关建议,其中还包括在获得用户许可的情况下,访问其电子病历和健身应用数据的功能。毫无疑问,ChatGPT 和其他大语言模型可能在医疗问题上出错,OpenAI 也反复强调,ChatGPT Health 的定位是辅助工具,而不是医生的替代品。但在医生无法及时提供帮助的情况下,人们仍然会寻求其他选择。

一些医生认为,LLMs 有助于提升公众的医学素养。普通患者往往难以在庞杂的在线医疗信息中进行判断,尤其难以区分高质量内容与看似专业但事实存疑的 ,而从理论上看,LLMs 可以代替他们完成这一筛选工作。哈佛医学院副教授、执业放射科医生 Marc Succi 表示,在过去,接诊那些先在 Google 上搜索过症状的患者时,医生往往需要花费大量精力缓解患者焦虑并纠正错误信息。但他指出,现在可以看到,不论是大学学历还是高中学历的患者,提出的问题已经接近医学院低年级学生的水平。

ChatGPT Health 的推出,以及 Anthropic 随后宣布为 Claude 提供新的健康相关功能,表明大型 AI 公司正越来越愿意正视并鼓励模型在健康领域的应用。然而,这类用途显然伴随着风险,因为 LLMs 已被充分记录存在迎合用户观点、在不确定时编造信息的倾向。

但这些风险也需要与潜在收益一并权衡。这里可以类比自动驾驶汽车。当政策制定者考虑是否允许 Waymo 在城市中运行时,关键指标并不是其车辆是否从不发生事故,而是它们是否比依赖人类驾驶员的现状造成更少的伤害。如果 ChatGPT 医生确实优于 Google 医生,而早期证据表明可能如此,那么它或许能够缓解互联网带来的大量医疗错误信息和不必要的健康焦虑。

不过,要准确评估像 ChatGPT 或 Claude 这样的聊天机器人在面向消费者的健康场景中的效果,并不容易。麻省总医院与布里格姆医疗系统的数据科学与 AI 临床负责人 Danielle Bitterman 表示,评估一个开放式聊天机器人极其困难。大语言模型在医学执照考试中成绩优异,但这些考试采用的是选择题形式,并不能反映人们在实际使用聊天机器人查询医疗信息时的方式。

滑铁卢大学管理科学与工程系助理教授 Sirisha Rambhatla 尝试通过一种方式缩小这一差距:评估 GPT-4o 在没有备选答案列表的情况下,对执照考试问题的回答表现。医学专家对这些回答进行评分后认为,只有大约一半完全正确。不过,选择题本身就被设计得较为刁钻,答案选项并不会直接暴露正确结论,这种形式仍然与用户在 ChatGPT 中输入的真实问题存在较大差距。

另一项研究在更贴近现实的测试使用人类志愿者提交的问题来评估 GPT-4o,结果发现其在约 85% 的情况下能够正确回答医疗问题。我在采访该研究负责人、宾夕法尼亚州立大学副教授、Responsible AI for Social Emancipation Lab 负责人 Amulya Yadav 时,他明确表示,自己并不认同面向患者的医疗 LLMs。但他也坦言,从技术角度来看,这些系统似乎能够胜任这项任务——毕竟,人类医生的误诊率也在 10% 到 15% 之间:“如果冷静地看待这件事,世界似乎正在改变,不管我是否愿意。”

在 Yadav 看来,对于在线寻找医疗信息的人来说,LLMs 的确比 Google 是更好的选择。放射科医生 Succi 也得出了类似结论。他将 GPT-4 对常见慢性疾病问题的回答,与 Google 搜索结果右侧有时出现的知识面板中的信息进行比较后认为,LLMs 在这一场景下可以成为更优的替代方案。

自 Yadav 和 Succi 的研究在 2025 年上半年发布以来,OpenAI 已推出了多个新版 GPT,因此有理由预期 GPT-5.2 的表现会优于前代模型。但这些研究也存在重要局限:它们主要关注简单、事实型问题,并且只考察了用户与聊天机器人或搜索工具之间的短暂互动。LLMs 的一些弱点,尤其是迎合倾向和幻觉问题,在更长时间的对话或更复杂的情境中,可能更容易显现。墨尔本大学研究技术与健康的教授 Reeva Lederman 指出,如果患者不认可医生给出的诊断或治疗建议,可能会转而向 LLM 寻求另一种意见,而具有迎合倾向的 LLM 可能会鼓励他们拒绝医生的建议。

一些研究发现,LLMs 在回应健康相关问题时会出现幻觉和迎合行为。例如,有研究显示,GPT-4 和 GPT-4o 会直接接受并基于用户问题中包含的错误药物信息展开回答。在另一项研究中,GPT-4o 经常为用户提到的虚构综合征和检测项目编造定义。考虑到互联网上充斥着存疑的医疗诊断和治疗方法,如果人们将 LLMs 视为可信来源,这种行为模式可能会加剧医疗错误信息的传播。

OpenAI 表示,GPT-5 系列模型在迎合性和幻觉倾向方面已明显优于前代模型,因此上述研究结果未必适用于 ChatGPT Health。公司还使用其公开的 HealthBench 基准,对支撑 ChatGPT Health 的模型在健康问题上的表现进行了评估。HealthBench 鼓励模型在适当时表达不确定性,在必要时建议用户寻求医疗帮助,并避免通过夸大病情来给用户造成不必要的心理压力。可以合理推测,ChatGPT Health 背后的模型在测试中符合这些要求,不过 Bitterman 指出,HealthBench 中的一些提示是由 LLMs 而非真实用户生成的,这可能会影响该基准在现实世界中的适用性。

一个避免制造恐慌的 LLM,显然优于那些让人浏览几分钟网页后就怀疑自己患癌的系统。随着大语言模型及其衍生产品持续发展,ChatGPT 医生相对于 Google 医生的优势很可能会进一步扩大,ChatGPT Health 的推出正是朝这一方向迈出的一步。通过查看医疗记录,ChatGPT 有可能获得比任何一次 Google 搜索都更丰富的个人健康背景,尽管多位专家也因隐私问题而警告不要轻易赋予其这种权限。

即便 ChatGPT Health 和其他新工具相较 Google 搜索确实带来了实质性改进,它们仍有可能在整体上对健康产生负面影响。正如自动驾驶汽车即便比人类驾驶更安全,如果因此减少了公共交通使用,仍可能带来净负面效应一样,LLMs 也可能因为促使人们依赖互联网而非医生,从而损害用户健康,即使它们提升了在线医疗信息的整体质量。

Lederman 表示,这种结果并非不可想象。她在研究中发现,以健康为主题的在线社区成员往往更信任表达能力强的用户,而不一定关注信息本身是否可靠。由于 ChatGPT 的交流方式类似一位言辞清晰的人,一些人可能会对它过度信任,甚至排斥医生的建议。但至少在目前阶段,LLMs 仍然无法取代人类医生。

https://www.technologyreview.com/2026/01/22/1131692/dr-google-had-its-issues-can-c h a tgpt-health-do-better/

来源:https://www.163.com/dy/article/KK2M7U8G05119734.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

谷歌提前量子威胁防护期:2029年加密全面升级关键
科技数码
谷歌提前量子威胁防护期:2029年加密全面升级关键

IT之家 3 月 29 日消息,谷歌正大幅提前“量子末日(Q 日)”的应急准备截止期限。所谓 Q 日,是指现有量子计算机能够破解公钥密码算法的时刻,这套算法守护着军方、银行、政府乃至全球几乎所有人长

热心网友
03.29
英伟达控盘AI热潮:揭秘千亿利润背后的造王布局
科技数码
英伟达控盘AI热潮:揭秘千亿利润背后的造王布局

文|投资者网2026年3月,旧金山歌剧院的包厢里,黄仁勋一句 "这就是有钱的感觉 ",道尽英伟达当下的行业地位——既是AI浪潮的 "造王者 ",更是掌控行业走向的顶级金主。当全球AI企业疯狂争夺算力底座时,

热心网友
03.29
谷歌TurboQuant算法受质疑,中国博士后指其论文存重大缺陷
科技数码
谷歌TurboQuant算法受质疑,中国博士后指其论文存重大缺陷

IT之家 3 月 28 日消息,谷歌研究院 3 月 25 日推出全新极端压缩算法 TurboQuant,有望重塑 AI 运行效率并解决大模型键值缓存(KV Cache)的内存瓶颈,据称可以使 AI

热心网友
03.29
谷歌龙虾“史密斯工”揭秘:黑客帝国降临现实始末
科技数码
谷歌龙虾“史密斯工”揭秘:黑客帝国降临现实始末

过去两个月,OpenClaw火得一塌糊涂。它让AI开始像一个真正能替人跑流程、调工具、接任务的数字执行者。现如今,谷歌也准备分一杯羹,外媒爆料称,谷歌正在开发一款叫做Smith的agent,不仅比O

热心网友
03.28
谷歌称存储供应链未过剩:AI需求强劲,结构性短缺持续
科技数码
谷歌称存储供应链未过剩:AI需求强劲,结构性短缺持续

谷歌近期推出TurboQuant压缩算法,称将大模型关键缓存占用减少至少6倍,这一消息一度让存储行业陷入恐慌。但在MemoryS 2026峰会上,来自三星电子、长江存储、铠侠、闪迪等多家存储厂商,以

热心网友
03.28

最新APP

暗黑之地
暗黑之地
角色扮演 03-28
你比我猜
你比我猜
休闲益智 03-26
锦绣商铺
锦绣商铺
模拟经营 03-26
儿童画画
儿童画画
休闲益智 03-25
疯狂猜词
疯狂猜词
休闲益智 03-25

热门推荐

iOS 7状态栏美化指南:4步打造个性界面
电脑教程
iOS 7状态栏美化指南:4步打造个性界面

如何利用WinterBoard为iOS7状态栏及iPhone整体界面进行个性化美化?1、 打开Cydia应用,在顶部搜索框中输入“WinterBoard”,找到对应插件后点击安装并

热心网友
03.29
抖音视频封面无法更换?3步教你解决替换问题
手机教程
抖音视频封面无法更换?3步教你解决替换问题

在使用抖音时,有时会遇到视频封面无法更换的情况,这确实会让人有些困扰。不过别着急,以下为您提供一些可能的解决办法。首先,检查网络连接是否正常。不稳定的网络可能导致操作无法及时响应,

热心网友
03.29
第二代刀片电池上车:腾势D9预售38.98万起,快充仅9分钟
编程语言
第二代刀片电池上车:腾势D9预售38.98万起,快充仅9分钟

3月29日消息,今日上午,第二代腾势D9开启预售,共推出纯电、插混两种动力六款车型,预售价区间为38 98万-48 98万元。新车将于4月正式到店,预售期内下订可享受18个月免费闪充权益。新车纯电版

热心网友
03.29
DNF次元对决:奥术神袍强度解析与实战测评
游戏攻略
DNF次元对决:奥术神袍强度解析与实战测评

DNF次元对决模式已经上线,这是一个DNF的吃鸡游戏,游戏中玩家可以获得全新的装备,比如终极圣光奥术神袍,那么DNF次元对决终极圣光奥术神袍好用吗?下面就给大家带来DNF次元对决终

热心网友
03.29
阮喻许淮颂久别重逢:双向暗恋终成圆满欢喜
娱乐
阮喻许淮颂久别重逢:双向暗恋终成圆满欢喜

谁说暗恋只能是无声的独角戏呢?若暗恋被加上了双向的箭头,那不就成了两个人的兵荒马乱了吗?青春岁月里,一场无疾而终的怦然心动,成为了许淮颂与阮喻深埋心底的秘密。遗憾错过的他们,一个将暗恋写进小说里,一

热心网友
03.29