循证医学助力中国医生临床决策顶级证据平台登录超193次

首页

热心网友

转载

2026-05-14

深夜的急诊室，一场与时间的赛跑正在上演。一位62岁的急性ST段抬高型心肌梗死（STEMI）患者，并发急性心力衰竭，血压高达185/105 mmHg，血氧饱和度低至91%。除颤仪已就位，医生“心电捕手”必须在几分钟内，为这位肾功能不全的患者，确定抗血小板药物替格瑞洛的精准剂量——既要避免标准剂量引发脑出血风险，又要防止减量导致支架内血栓形成。在浩如烟海的临床指南中，找到那条正确的剂量调整条款，决策窗口转瞬即逝。

这绝非个例。在珠江医院胸外科，主任乔贵宾教授同样在深夜伏案，为一位罕见肺病患者规划后续治疗。作为胸外科主任、主任医师和博士生导师，他日均工作超10小时，处理疑难病例已是常态。这折射出中国医生群体普遍面临的高压现状。数据显示，2024年全国诊疗人次突破百亿，三级医院承担了近三成。近九成的病床使用率背后，是超500万执业医师在支撑。每一次处方、每一项检查、每一台手术的方案，都高度依赖医生的个人知识与即时决策。

更大的挑战源于知识的爆炸式更新。以全球最大的生物医学文献数据库PubMed为例，其收录文献已超4000万篇，且每年仍以百万级速度增长。医生的压力，不仅来自海量患者，更在于必须于高负荷工作中，持续追踪最新的医学证据与临床指南。在这种结构性压力下，医疗效率的核心痛点，并非简单的流程优化，而在于医生的“决策支持”——这正是医学人工智能能够创造深层价值的战场。

通用大模型，为何在严肃医疗中频频“失灵”？

过去一年，大模型技术风靡各界，医疗领域亦掀起应用热潮。中国医生是对此最为关注的群体之一。然而，当通用大模型进入要求极端严谨的医学场景时，其能力短板暴露无遗，“幻觉”问题尤为突出。

所谓“幻觉”，即模型会生成看似合理但实则虚构的内容，例如编造不存在的学术文献。即便用户要求提供准确的DOI号进行核查，得到的链接也常常指向错误或无关的文章，严重损害了信息的可信度。

乔贵宾主任及其同事在测试通用大模型时，都深受高幻觉率的困扰。在胸外科这类容错率极低的科室，一个虚构的结论，其潜在风险不亚于一次误诊。

近期一项发表于英国皇家外科医学院官方期刊的研究，证实了这种担忧。研究指出，某些主流AI平台生成的医学参考文献中，超过三分之一可能是伪造的。例如，Grok 3的引用幻觉率高达33.6%，DeepSeek DeepThink也达到25%。这些虚假引用看起来非常逼真，甚至包含虚构的权威机构链接或具有误导性的标题。

研究还发现，近半数顶尖模型在回答医学问题时，默认不会清晰披露信息来源。这与医生工作的基石——循证医学原则完全相悖。医生的决策必须基于可靠证据，尤其是在面对知识盲区时，能否快速、准确地找到权威依据来支撑判断，成为最核心的刚需。本质上基于概率进行文本生成的通用大模型，并不天然具备这种“循证”能力。

为解决幻觉难题，行业普遍将“检索增强生成”（RAG）技术视为关键，希望通过检索外部知识库（如病历、指南、论文）来约束模型的输出。常见做法是将医学文本切片存入向量数据库，让模型“带着资料库回答问题”。

然而，效果究竟如何？一项发表于权威医学预印本平台medRxiv的最新研究给出了反直觉的结论：在医学临床文本生成任务中，引入RAG技术后，大模型的“无依据声明率”（即幻觉率）从基线5.0%飙升至43.6%，错误概率增加了8.7倍。

原因在于，临床文本高度非结构化，充满上下文依赖、时间敏感信息和相互矛盾的证据。不同患者、不同时间点的记录，医学术语重叠度极高。RAG容易检索出“语义相似但实际无关”的病历片段。模型以此为依据，便会生成针对当前患者的虚假医学叙述。因此，核心问题在于：如何确保模型找到的是正确证据、使用的是正确上下文、给出的是可被医生复核的判断？如何让每一次回答都牢牢锚定在可信的证据链上？这正是阿里健康试图破解的难题。

一切为了可靠：“氢离子”如何破局医学AI可信难题

5月13日，阿里健康正式发布了面向临床与科研医生的医学AI产品——“氢离子”，并宣布已与国家级医学顶刊达成独家内容合作。

从产品设计理念看，“证据”与“循证”被置于“AI”之前。

官方定位中，“氢离子”旨在解决“中国500万医生的一切医学问题”。“低幻觉、高循证”是其核心标签：所有回答均提供权威出处，支持一键溯源、直达信源。

阿里健康CTO祥志在发布会上表示：“在严重幻觉率控制上，我们比国内竞品领先2-3倍。”

这让人联想到医学界广泛使用的循证决策支持系统UpToDate（UTD）。但相比传统工具，“氢离子”的使用门槛更低。医生可通过自然语言、多轮对话，甚至语音和图片等多模态方式提问，系统能结合上下文持续理解与回应。

内测期间，医生的反馈集中于“可信”与“可靠”，尤其对“循证问答”功能评价很高。一位三甲医院急诊科主任医师在88天内登录了193次。

回到文章开头的急诊场景。为确认替格瑞洛剂量，医生“心电捕手”在“氢离子”中输入查询：“急性ST段抬高型心梗合并急性心衰，PCI术后替格瑞洛剂量调整（eGFR65）”。

这对医生而言，不仅是“少打开几个页面”，更是在争分夺秒的临床环境中，切实缩短了关键决策时间。

将“循证医学”写入AI基因：揭秘四层循证架构

发布会上，团队首次披露了支撑“低幻觉、高循证”能力的“四层循证架构”——从医学证据结构化、循证检索、模型对齐到专家闭环反馈，旨在将“循证医学”真正写入AI的底层逻辑。

第一层：深度理解医学证据。
并非简单“阅读文字”，而是将医学文本转化为可结构化、可评估、可追溯的证据单元。核心是运用PICO与GRADE两套经典循证框架。

PICO是一套医学问题结构化工具，指导AI像临床医生一样拆解文本：针对什么人群（P）？采用何种干预措施（I）？与什么方案对照（C）？观察什么结局（O）？

例如，针对一项减肥药研究，系统能自动生成精确证据链：18～50岁、体重超200斤、无严重心脏病的成年人（P）；每日服用新型减肥药A（I）；对照组服用安慰剂（C）；三个月后，A组平均减重10斤，对照组减重2斤（O）。这确保了“证据适配”，而非简单的语义匹配。

GRADE则为证据贴上“可信度”等级标签。这是全球循证医学的核心评级体系之一。根据该标准，大型随机对照试验（RCT）通常属于高等级证据；Meta分析综合可信度强；而个案观察则属于较低等级证据。

第二层：将PICO注入RAG，实现从“关键词检索”到“结构化降维”。
基于PICO框架，检索逻辑从“搜词”升级为“搜结构”，从根本上解决了传统RAG在医学场景下容易检索失准的问题。

例如，面对“布洛芬比对乙酰氨基酚能让儿童更快退烧吗？”这一问题，经PICO拆解后，系统不会简单搜索“布洛芬退烧儿童”，而是转化为标准循证问题：“在发热儿童（P）中，布洛芬（I）相较于对乙酰氨基酚（C），在退热速度和副作用（O）上有何临床证据？”这样检索出的文献，能更完整地回答临床问题。

第三层：强化对齐训练，规训模型“像医生一样使用证据”。
“氢离子”在后训练阶段引入了奖励模型（Reward Model）与量规评分体系（Rubrics）。奖励模型让AI学会“什么是好答案”，而量规则将循证医学的质量要求工程化为可训练、可评测的具体标准。模型最终学习的是如何生成低幻觉、可追溯、符合循证规范的回答。

然而，医学领域瞬息万变，静态模型训练无法覆盖所有长尾案例，也无法实时同步最新指南与疗法。因此，架构的最后一环交给了专家闭环反馈（Experts-in-the-Loop）。

真正有价值的数据，需要专家持续标注、更新、评定证据等级，并理清不同研究间的关联与冲突。