首页 游戏 软件 资讯 排行榜 专题
首页
AI
医疗AI新标杆:中国团队Nature子刊发布全球首个MedGPT标准

医疗AI新标杆:中国团队Nature子刊发布全球首个MedGPT标准

热心网友
19
转载
2026-01-21

衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

中国团队首次在全球顶尖期刊发表“大模型+医疗”领域的相关标准研究!

作为Nature体系中专注于数字医疗的旗舰期刊,《npj Digital Medicine》(JCR影响因子15.1,中科院医学大类1区Top期刊)此次收录的CSEDB研究,首次提出了一套用于评估医疗大模型真实临床能力的系统性框架。

它由中国AI医疗公司“未来医生”协同32位来自北京协和医院、中国医学科学院肿瘤医院、北京大学口腔医院、中国医学科学院阜外医院、中国人民解放军总医院、复旦大学附属华山医院、上海市同济医院等顶尖医疗机构的23个核心专科的一线临床专家共同制定。



CSEDB全称为Clinical Safety-Effectiveness Dual-Track Benchmark(临床安全性与有效性双轨基准),它首次为评估医疗AI真实临床能力建立了一个基于临床专家共识、覆盖全面风险维度,并将安全性与有效性分开考量的标准化基准。

通过公开实验,CSEDB直接给出了不同模型在同一标尺下的临床能力对照结果。

看到CSEDB登上Nature子刊后,GlobalMD创始人Tim Shi非常激动:

这正是我们一直在等待的市场信号!
由中国推动的标准+MedGPT的表现=真正的差异化。



从行业角度看,这项研究释放出了一个清晰的信号:

医疗AI的竞争,正在从能力展示阶段,正式进入责任定义阶段。
CSEDB凭什么被权威期刊认可?

医疗既是高价值场景,也是高风险场景,最近这条赛道上热闹非凡,包括谷歌、OpenAI、Anthropic等在内,都在加速押注医疗AI。

回看医疗AI发展至今的轨迹,有一个矛盾始终难以化解——

现有评估体系往往围绕学术数据集展开,更多关注准确率、召回率等统计指标,但鲜少回答在真实场景中部署使用会带来什么结果。

而针对人类医生设置的执业医师考试,难以覆盖真实场景所需。

“真实临床工作的复杂性远超考试。”北京协和医院胸外科主任医师梁乃新教授告诉量子位,执业医师考试是一种通过性门槛,核心是考核基础规范与“不犯错”的能力。在面对个体化治疗与多病共存的患者时,医生的核心价值在于做出追求更好的综合判断。

所以,医疗AI往往在评测榜单上表现亮眼,但很难在真实诊疗环境中验证安全性和有效性。

正是在这样的背景下,CSEDB被提出。

CSEDB由未来医生协同32位来自顶尖医疗机构23个核心专科的一线临床专家共同制定。

最为创新的地方,在于CSEDB在医疗AI评估中首次引入了“安全性”与“有效性”双轨评价体系。

与以往算总分的评测标准不同,CSEDB一条轨道专注安全性,另一条轨道衡量有效性,只有同时通过这两道门槛,模型才被认为具备临床部署的基本资格。



更关键的是,CSEDB还进一步在指标设计上引入了风险权重机制,每一项评估指标都会根据其潜在临床风险,被赋予1到5级的权重。

涉及误诊、禁忌用药等高风险情境的指标,会对总评分产生显著影响。

这种设计逻辑在评估阶段就模拟医疗决策中的风险分级体系,把“安全优先”嵌入到评分结构之中。



为了支撑好CSEDB,专家团队特意构建了一个面向真实临床问题的数据集。

整套评估体系共涵盖了2069个开放式问答条目,覆盖26个临床专科。

这些问答场景高度贴近一线实际的临床病例推演,涵盖危急重症状识别、致死性诊断失误、剂量与器官功能失配、严重过敏史忽视、常见病正确诊断、多病并存优先级、并发症预警提示等关键场景,强调模型在连续决策中的表现。

从评估逻辑上看,CSEDB关注的核心并非模型“知道多少”,而是模型“如果这样判断,会发生什么”。

这种以医疗后果为中心的设计,让它天然具备部署导向和监管友好性,同时具备向不同医疗体系扩展的潜力。

从根本上改变评估目标,兼具专业性和完整性,方法论上可复现、可推广,让CSEDB能够覆盖真实临床风险,为不同国家的不同医疗机构采用同一标尺提供了可能。

推特上有网友留言:

CSEDB被Nature子刊收录,可能有助于评估GPT的新应用。



在这套框架下,专家团队评估了全球范围内的主流大模型,包括DeepSeek-R1、OpenAI o3、Gemini-2.5、Qwen3-235B、Claude-3.7等在内,悉数接受了这套严格测试。

结果颇具冲击力——

在总体得分、安全性和有效性三个核心维度上,中国未来医生团队推出的MedGPT均位列第一。

尤其在安全性指标上,MedGPT与其他模型拉开了显著差距,更是唯一一个在安全性评分上超过有效性的模型。



临床安全和有效性持续收敛,MedGPT技术大拆箱

夺冠的MedGPT是什么来头?

它由中国AI医疗公司“未来医生”推出,是一个原生为临床使用场景设计的医疗大模型。



鉴于医疗决策本身并不均质,MedGPT的核心架构设计了快慢双系统模式。

大量临床场景其实高度常规,路径清晰、风险可控,并且在医疗场景中对响应速度要求高,快慢双系统中的“快系统”专为这类场景而设计。

它采用轻量化的推理结构,在高度结构化的医学知识约束下,快速生成候选结论,响应时间可以压缩到百毫秒量级。

简单来说,快系统追求在低风险前提下的稳定输出,避免在简单问题上过度消耗算力和推理成本。

但医疗场景里还有一些棘手的问题,比如有的患者症状不典型,或存在合并症或用药冲突的情况。这种时候,需要对其病症反复推敲,才能下诊断。

在此类复杂场景下,即便人类医生也面临较高的误判风险,而AI模型还存在幻觉问题,单一的快系统机制显然不足以保证安全性。

针对那些高复杂度、高风险场景,MedGPT则自备了一套“慢系统”。

慢系统会主动拉长推理链,引入多阶段临床演绎路径,将诊断拆解为病史分析-鉴别诊断-结论验证等多个步骤,并调用更丰富的医学知识库与专家经验进行交叉校验。

虽然存在两套系统,但MedGPT并不会说让两套系统并行给出答案然后简单择优,它会根据问题的风险等级、信息不确定性以及潜在后果,动态决定是否从快系统升级到慢系统。

为了进一步确保严谨性,MedGPT还进一步引入了专门的风险调和与控制机制“ACC层”,来处理两套系统输出之间的冲突。

当快系统给出的直觉性结论,与慢系统在深度推理中发现的风险信号出现不一致时,系统会优先触发风险约束,重新审视推理路径,必要时直接拒绝输出,并引导转向人工就医。

在训练和数据层面,MedGPT通过结构化方式内化了医学知识体系。模型内化医学知识体系后,推理时会更接近医学决策的真实路径。

注意!MedGPT还在使用中不断进化。

每周,来自超过一万名医生的两万条诊疗反馈会沉淀,纳入模型推理单元训练形成数据飞轮。从结果上来看,MedGPT每月准确率均稳定提升1.2%-1.5%。

不过,不是所有人都能根据快慢双系统复刻出另一个MedGPT:MedGPT身上还有可以被拆解、被验证,也被真实运行过的工程结果。

首先是医学逻辑被显式建模。

MedGPT主动把临床决策过程拆成结构化路径,从病史分析、初步判断,到鉴别诊断和结论验证,每一步都对应明确的医学知识来源和校验规则。

模型不再只是给结论,而是沿着一条可追溯的医学逻辑链条推进,错误不容易被“一次生成”掩盖。

其次是临床风险被量化控制。

无论是快慢双系统的分流,还是ACC层的风险调和,MedGPT把临床可能遇到的风险前置到推理过程中。

高风险场景下,系统会主动提高验证门槛,甚至触发拒答和就医引导,用工程化能力让产品划清责任边界。

最后,也是最容易被忽略的一点,那就是临床反馈形成的动态闭环。

MedGPT在真实使用中持续接收医生反馈,每周沉淀大量规则更新。

这些反馈并不只是“好不好用”的主观评价,会直接作用于慢系统的推理路径修正和风险策略调整,使模型的进化方向始终由真实诊疗场景牵引。

综上所述,医学逻辑的显式建模、临床风险的量化控制以及临床反馈的动态闭环这三层机制的叠加,让安全性与有效性在MedGPT身上持续收敛,构成了其难以被简单复刻的核心壁垒。

故而MedGPT能在CSEDB中展现出优势。



而这个尊重医学复杂性,且其设计哲学与评估标准高度一致的MedGPT,被团队设计为未来医生产品体系的核心动力引擎。

让医疗AI能力在使用中收敛

如果只把模型当成技术能力的展示,那么一时在榜单上夺冠便已足够。

然而对于未来医生团队而言,比模型能力展示更重要的,是如何将技术优势转化为真实的临床价值。

未来医生以通过CSEDB严格验证的MedGPT为核心,构建了精准匹配不同医疗角色与场景的产品矩阵:

• 患者侧的“未来医生”,7*24小时为用户提供高质量、负责任、可追溯的严肃诊疗服务,致力于“让顶级专家免费在线给全国人民看病”;
• 医生侧的“未来医生AI工作室”,深度嵌入诊疗决策流程,成为医生的智能协作者;
• 基层医疗场景下的“未来家医”,则为资源有限的基层机构提供持续、可靠的辅助支持。
• ……

这些产品让技术主动适配临床工作流,在每一个环节追求可衡量的效率提升与风险控制,目标是通过AI新技术实现优质医疗资源的无限复制,进而改变医疗资源供给不足引发的诸多困境,最终使高品质的健康与医疗服务变得人人可及。

技术能力通过CSEDB这样的评估框架得到验证,产品体系又让这些能力持续暴露在真实使用场景中反复检验,一个独特的“牵引式”进化闭环就此诞生了。

技术能力通过CSEDB的验证获得“准生证”,产品矩阵则将其置于真实场景中反复淬炼。

技术被迫遵从临床流程的严格约束,产品则通过用户反馈不断向技术提出更高、更精准的要求。二者相互牵引,驱动系统向更可用、更可控的方向持续演进。

在医疗AI这场马拉松中,短期技术领先并不罕见,长期兑现的临床价值却极其稀缺。

放在更长的时间尺度中,榜单会变化,标准也会不断升级……医疗AI的竞争,更像一场长期耐力测试。

技术、评估、产品三者的协同,正在成为医疗AI能否深入临床的决定性因素。

这正在重新定义医疗AI通往临床的核心路径,从追求榜单上的智能,转向兑现诊疗中的信任。

刊发网页:
https://www.nature.com/articles/s41746-025-02277-8

来源:https://www.163.com/dy/article/KJQ07B7P0511DSSR.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

国产设备占有率超50%,超声设备迈入AI国产化新阶段
科技数码
国产设备占有率超50%,超声设备迈入AI国产化新阶段

3月27日至29日,第三届大湾区超声论坛在广州举行。本届论坛以“造就未来 CREATE THE FUTURE”为主题,吸引了粤港澳大湾区及广西、江西、湖南、海南、云南等周边八省区的超声医学专家、学者

热心网友
03.31
AI问诊时代:未来看病模式全解读
科技数码
AI问诊时代:未来看病模式全解读

  新华社北京3月28日电(记者侠克、张骁、夏子麟)需要精密操作的血管介入手术还能依靠机器人?  在传统血管介入手术中,医生借助影像设备的引导,依靠指尖的细微触感判断导管导丝在血管内的位置,对病变器

热心网友
03.28
王晓航:平安集团构建“筛、管、治、康”AI医疗体系,MDT方案精准率近90%
科技数码
王晓航:平安集团构建“筛、管、治、康”AI医疗体系,MDT方案精准率近90%

来源:环球网【环球网科技综合报道】3月27日,中关村论坛““人工智能+产业””论坛在北京举行,平安集团首席技术官王晓航出席并发表主题演讲,介绍平安AI科技在医疗领域的最新布局和成果。平安集团首席技术

热心网友
03.28
AI医院智联体达成共识:从
科技数码
AI医院智联体达成共识:从"病人找医院"到"系统找病人"变革

封面新闻记者 卢荡 张馨心AI(人工智能)医院不断涌现,什么样的医院才是各方认可、符合理想的AI医院?北京中关村论坛期间,中国工程院与清华大学主办的“2026世界数字健康论坛”举行。10余位院士、4

热心网友
03.28
当AI医院互联达成共识:能否实现“系统主动找病人”?
科技数码
当AI医院互联达成共识:能否实现“系统主动找病人”?

封面新闻记者 卢荡 张馨心AI(人工智能)医院不断涌现,什么样的医院才是各方认可、符合理想的AI医院?北京中关村论坛期间,中国工程院与清华大学主办的“2026世界数字健康论坛”举行。10余位院士、4

热心网友
03.28

最新APP

你说我猜
你说我猜
休闲益智 03-31
史莱姆农场
史莱姆农场
休闲益智 03-31
凡人传说
凡人传说
角色扮演 03-30
恶魔秘境
恶魔秘境
角色扮演 03-29
猫和老鼠华为
猫和老鼠华为
休闲益智 03-29

热门推荐

崩坏星穹铁道3.4新增四星光锥怎么玩-崩坏星穹铁道3.4新增四星光锥玩法解析
游戏资讯
崩坏星穹铁道3.4新增四星光锥怎么玩-崩坏星穹铁道3.4新增四星光锥玩法解析

角色与光锥适配深度解析 为队伍挑选合适的光锥,往往能起到画龙点睛的作用。今天,我们就来深入聊聊几款功能各异的光锥,看看它们如何与特定命途的角色产生化学反应。 酣战如始 1 属性与适配角色:作为同谐命途的光锥,其核心属性集中在速度与能量恢复上。这无疑是那些专注于辅助队友、提供团队增益角色的优质选择。

热心网友
03.31
什么是加密货币对冲?如何操作?有什么优势?
web3.0
什么是加密货币对冲?如何操作?有什么优势?

什么是对冲? 加密货币市场的价格变化,向来以快速剧烈著称。上午还在上涨的资产,下午就可能面临回调。在这种高波动的环境下,交易者们自然会寻求一种方法来保护自己的资金免受冲击。这种方法就是对冲——一种旨在降低风险、提升投资组合稳定性的核心策略。简单来说,对冲的核心逻辑在于:当你持有的主要加密货币资产价值

热心网友
03.31
荣耀平板 PC 化升级计划公布,将带来 PC 交互、PC 级应用支持等特性
科技数码
荣耀平板 PC 化升级计划公布,将带来 PC 交互、PC 级应用支持等特性

荣耀平板PC化升级计划公布,将带来PC交互、PC级应用支持等特性 三月十号,荣耀的一场重磅发布会,揭开了其平板产品线战略升级的序幕。在荣耀Magic V6旗舰新品发布会后,荣耀终端股份有限公司全场景产品线的负责人,@荣耀潇哥,进一步分享了一项备受关注的“平板PC化升级计划”。 在分享中,@荣耀潇哥清

热心网友
03.31
5 分钟充好,9 分钟充饱,比亚迪闪充补上新能源转型最后一块拼图
业界动态
5 分钟充好,9 分钟充饱,比亚迪闪充补上新能源转型最后一块拼图

5 分钟充好,9 分钟充饱,比亚迪闪充补上新能源转型最后一块拼图 “没有人比我们比亚迪更懂电池。”这句在发布会上掷地有声的口号,背后是实打实的技术突破。前不久的比亚迪“闪充中国改变世界”发布会上,王传福总裁正式揭晓了第二代刀片电池与配套的闪充技术,一组数据瞬间引爆了行业: 从10%到70%电量,只需

热心网友
03.31
OPPO K15 Pro核心配置公布:明日发布,抢先了解亮点
网络安全
OPPO K15 Pro核心配置公布:明日发布,抢先了解亮点

IT之家 3 月 31 日消息,OPPO K15 Pro 系列手机已官宣将于明日 14:30 正式发布。IT之家注意到,OPPO K15 Pro 手机已现身正式,并公布了核心配置信息,IT之家附如下

热心网友
03.31