游乐游手机版
首页/科技数码/文章详情

百川发布新一代医疗增强大模型M4登顶HealthBench

时间:2026-06-23 11:19
百川智能与清华大学联合发布Baichuan-M4医疗增强大模型,在HealthBench及Hard、Professional子榜单均获世界第一,超越GPT-5 5等竞品,幻觉率降至3 3%行业最低。模型具备问诊、记忆、循证、调度能力,全病程记忆得分86 9,证据锚定机制下循证引用精度达90 0。

6月22日,百川智能携手清华大学研究团队发布了一项重磅成果——新一代医疗增强大模型 Baichuan-M4 正式亮相。该模型在 HealthBench 及其 Hard、Professional 三个榜单上同时登顶世界第一,全面超越 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro,而最令行业关注的是,其幻觉率已低至 3.3%。从 M1 到 M4,百川始终在攻克一个核心难题:让模型真正跨越“会答题”与“会看病”之间那道最艰难的门槛。

在 OpenAI 发布的权威医疗评测 HealthBench 中,M4 综合得分 68.6,位列全球第一,领先第二名 GPT-5.5 超过 10 分;在最考验复杂临床决策的 Hard 子集上,领先幅度更是达到 15.9 分。其事实性幻觉率降至 3.3%,为全行业最低——作为对比,同口径下 GPT-5.5 为 3.8%、Claude Opus 4.7 为 6.9%、DeepSeek-V4-Pro 则高达 9.8%。这些数字背后,反映的绝非单纯的考试能力,而是四项贴近临床的核心素质:问诊、记忆、循证、调度。

M4 的能力体现在诸多细节之中。它会主动追问症状的性质与诱因,优先识别并排查危急重症,而不是被动等待用户一股脑儿倒完信息,更不会为了追求速度而跳过关键病史。举个真实案例:一位用户深夜脚痛,打开产品后配合完成了十轮问询——哪个脚趾、疼了多久、有无外伤、近期是否饮酒、既往血尿酸是否偏高。M4 逐步缩小范围,怀疑是急性痛风,建议他前往医院风湿免疫科就诊,并顺手将病史和症状整理成一张问诊卡。到院后,他把卡片交给医生,经过二次问询和检查,最终确诊为痛风。

为了更客观地评估这种动态能力,百川借鉴了医学教育中长期使用的 OSCE(客观结构化临床考试)方法,联合 150 多位一线医生,构建了一套动态问诊评测体系 SCAN-bench。这套系统不考察静态记忆,而是以真实临床经验为评分标准,通过多轮、动态的方式完整模拟医生从接诊到确诊的全流程。在该评测中,M4 的初诊得分为 79.0,复诊为 74.7,均明显领先于 GPT-5.5、DeepSeek-V4-Pro 和 Claude Opus 4.7。

M4 这一代推出的「全病程记忆」更是将体验提升了一个台阶。它能打通历史病历、多轮问诊、化验趋势与用药反馈,使模型在多次对话中始终掌握患者是谁、既往有哪些疾病、各项指标如何变化,而无需每次从零开始。在长上下文临床记忆评测中,M4 取得 86.9 分,为同类最高,比上代 M3 提升了 21.1 分。当然,记得住只是基础——当模型真正掌握了一个人的完整病史与身体状况后,它给出的判断就不再是套用通用答案,而是因人而异、贴合其自身情况的精准判断。这,正是精准医疗的前提。

百川首创的"证据锚定"机制同样值得关注。它要求模型生成的每一句医学结论,都必须精确对应到原始论文或指南中的具体段落,而不只是标注引自某篇文献了事。依托六源循证范式,模型只在权威医学来源中检索,绝不从开放网络随意抓取。M4 在此基础上,把权威指南、专家共识与真实诊疗流程,进一步拆解为标准化、可复用的临床路径单元,目前已超过 1000 个,覆盖 200 余种疾病,每一条都由资深临床专家定义和校验。在百川构建的循证医学评测 Baichuan-EBM 上,M4 的循证引用精度达到 90.0,而 GPT-5.5 为 54.7,OpenEvidence 为 55.9。

说到底,M系列模型是医疗 Agent 的大脑,而调度就是连接这个大脑的中枢神经:何时追问、何时检索证据、何时调出既往病史,均由模型自主决定,无需人工逐步下达指令。面对文献检索、长病史梳理这类繁重任务,它会主动拆分成子任务并行处理,让模型专注于整体诊疗路径的判断;而每一步动作,都在实时的安全约束下完成——违规的工具调用、越权的数据访问、不合临床规范的操作,都会被当场拦截。这套系统并非一成不变,而是在真实诊疗中持续迭代:线上的疑难案例、用户的追问、医生的纠偏,经脱敏与归因后回流,成为模型继续改进的依据。问诊、记忆、循证由此被编排成一个完整的整体,M4 从一个最强的医疗大脑,进阶为能独立完成连续诊疗的医疗智能体。

来源:https://www.techweb.com.cn/internet/2026-06-22/2976761.shtml
上一篇荣耀X80 Pro Max 11000mAh电池创纪录 国补价1699元起 下一篇我国研制三维纳米光热材料高效太阳能海水淡化
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
年国家能源局充换电服务业用电量增速48.8%
科技数码 · 2026-06-29

年国家能源局充换电服务业用电量增速48.8%

2025年全社会用电量达103682亿千瓦时,同比增长5 0%。充换电服务业用电增速高达48 8%,信息传输与软件服务业增速17 0%。第三产业和居民用电对增长贡献率合计占一半。中国成为全球首个年度用电量超10 4万亿千瓦时的国家。

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元
科技数码 · 2026-06-29

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元

追风者冰川360S25液冷散热器售价429元,三联一体风扇便捷安装,冷头小体积纯铜底座噪音18dB,风扇转速300-2000RPM、风量75CFM、静压2 96mmAq,五年质保漏液包赔。

三星Galaxy Watch8用户反馈谷歌后台组件异常
科技数码 · 2026-06-29

三星Galaxy Watch8用户反馈谷歌后台组件异常

三星GalaxyWatch8、Watch5Pro、Watch6及Watch7用户反映,GooglePlayServices后台耗电异常,电量占比最高达99 97%,远超正常水平,严重影响续航。目前故障原因不明,谷歌尚未发布官方声明。

罗永浩批苹果iOS 27创新不足 盼新CEO改进
科技数码 · 2026-06-29

罗永浩批苹果iOS 27创新不足 盼新CEO改进

罗永浩批评苹果iOS27创新不足,称仅有双iPhone同号、音量分离等数十项细节改进,认为库克时代缺乏突破性创新,股市虽好但消费者只能被迫接受挤牙膏式升级。

年国产车出口710万辆,两家车企销量破百万
科技数码 · 2026-06-29

年国产车出口710万辆,两家车企销量破百万

2025年国产汽车出口总量达710万辆,同比增长21%。奇瑞以134万辆居首,比亚迪105万辆次之,上汽乘用车出口占比60%最高,长城出口51万辆。吉利、长安等主流品牌同步增长,小鹏、零跑等新兴品牌海外拓展加速。