游乐游手机版
首页/科技数码/文章详情

百川大模型M2 Plus发布,医疗版ChatGPT实测能力解析

时间:2025-12-05 21:37
10 月 22 日消息,据百川大模型最新微信公众号消息,今天,百川发布了循证增强医疗大模型 Baichuan-M2 Plus,同步升级配套应用百小应并开放 API。这是百川自 8 月开源 Baic

10月22日消息,根据百川大模型最新微信公众号发布的资讯,今天百川正式推出了循证增强医疗大模型Baichuan-M2 Plus,同时全面升级百小应应用并开放API接口。这是继8月份开源Baichuan-M2后,该公司的又一重要战略布局。

最新评测数据显示,M2 Plus在医疗幻觉率方面显著优于通用大模型,相比DeepSeek降低了约3倍,表现优于美国知名医疗产品OpenEvidence,其可靠性已接近资深临床医生的专业水准。

据介绍,百川M2 Plus首创了六源循证推理(EAR)范式,致力于打造"医生版ChatGPT",推动大模型技术在辅助临床诊疗场景中跨越"敢用、可用"的关键门槛。该模型不仅专门针对中国医疗环境进行优化,在美国、日本、英国等地的权威医疗测评中也全面超越OpenEvidence,代表中国在全球大模型竞技舞台再下一城。

以下是关于Baichuan-M2 Plus技术特点的详细介绍:

首创六源循证推理范式,实现证据"全"、检索"准"、推理"对"的完整闭环

(一)六源循证:构建从原始研究到真实世界的完整医学知识体系

循证医学(Evidence-Based Medicine, EBM)作为现代医学知识体系的核心范式,是确保医疗决策科学可靠的关键所在。

通用大模型如同一个"博学却不可靠"的专家,即便具备检索增强能力,也可能因知识来源复杂而无法符合循证医学的严谨标准。

我们不仅主动屏蔽了互联网上的非专业信息来源,仅采用权威来源的医学证据,在此基础上构建了从证据、到实践、再到真实世界反馈的六层证据类型知识体系:

原始研究层:索引海量医学期刊论文4000余万篇,超过PubMed收录数量,覆盖基础与临床研究成果,构成循证链条的坚实基础;

证据综述层:整合系统评价和Meta分析等高级别证据,提供经过系统汇总的研究结论;

指南规范层:引入国际和国内权威机构发布的临床指南、专家共识和行业标准,确保回答符合最新规范要求;

实践知识层:包含临床病例报告、一线专家经验和诊疗技巧等实用知识,贴近真实医疗实践场景;

公共健康教育层:汇集权威科普和公共卫生知识,如疾病预防宣教、健康指导等内容,服务大众健康教育;

监管与真实世界层:涵盖药监部门公告、临床试验登记及大规模真实世界研究数据等信息,以反映最新的监管动态与人群研究结果;

这个金字塔形的"六源"知识体系,是一层层演化而来:原始层回答"事实是否存在"、证据层回答"结论是否一致"、指南层回答"行业如何规范"、实践层回答"医生应如何决策"、公共层回答"患者应如何理解"、真实世界层回答"是否存在新风险"。这让模型从"生成答案"走向"据实回答",实现了从语言可信度到知识可信度的质的飞跃。

(二)循证检索:从"找得到"跃升到"找得准"

传统的RAG检索通常只追求"找得到",而循证检索则要求"找得准"。

M2 Plus采用PICO框架(人群 Population、干预 Intervention、对照 Comparison、结局 Outcome)思维,将查询转化为结构化医学问题,并在六源数据库中进行分层精准匹配。

例如:当输入"老年OSA患者使用CPAP能否改善高血压?"时,系统优先在高级别证据(系统综述、RCT元分析)中进行搜索,并自动辨识研究质量、样本量、置信区间与结局指标。

这种方法克服了通用RAG的两大缺陷:一是缺乏医学语义理解(无法区分CPAP疗效与依从性分析);二是无法辨别文献可靠性(新闻与指南同权)。

在此基础上,M2 Plus能够三步精准锁定"铁证":

第一步,智能提问:自动将用户问题拆解为多个专业的PICO查询,进行"地毯式"证据搜索,兼顾精度与广度。

第二步,精准锁定:通过自研的Medical Contextual Retrieval技术,完整保留文献的临床因果链条,避免信息割裂。

第三步,证据排序:内置"审稿人"模型,自动评估检索到的证据等级(如RCT、Meta分析),将最可信、最相关的"铁证"优先呈现。

(三)循证推理:让模型"像医生一样思考"

如果说"六源循证"解决了医疗AI知识从哪来的问题,"PICO智能检索"解决了如何快速找到正确证据的问题,那么最关键的一步是确保AI在掌握证据时,不会"自由发挥"、脱离事实胡乱回答。

我们在M2 Plus中引入"循证增强训练"机制,为模型的回答过程"上了一道锁",从根本上改变了其生成逻辑,让它学会"引用,而非臆测":

首先,在训练中奖励"引用",惩罚"臆测",准确引用权威来源(如指南、文献)时会获得高分,一旦回答脱离了检索到的证据就会受到惩罚;

其次,内置"证据评估器",模型被训练得能够自动评估检索到的证据质量,优先采纳高可信度的信息(如RCT、Meta分析),并将其无缝嵌入到推理链中;

第三,句句有据,可追溯、可验证:经过训练,M2-Plus的回答风格发生了根本性改变,在输出关键结论时,会自动附上参考文献、指南出处等来源,这让AI回答具有更高的可解释性与可信赖度。

幻觉率最低,达到与人类资深临床专家同等可靠性

这种"循证驱动"的生成逻辑,让M2 Plus几乎杜绝了无中生有的内容。在多场景测评中,其综合幻觉率在所有大模型当中最低,相比DeepSeek R1最新版本降低3倍,显著领先OpenEvidence。不仅如此,在病史分析、诊断思路、治疗方案等真实复杂的核心医疗场景中,达到了与人类资深临床专家同等的可信度。

百川发布循证增强大模型 M2 Plus,号称

301医院的姜医生提问,"目前公认最有效的基因治疗足细胞靶向药物有哪些?"很多通用大模型回答这个问题时都产生了明显幻觉,而M2 Plus不仅查证到全球最新研究成果,还能按照纳米系统/AAV病毒载体等维度分类。姜医生赞叹:"引用文献非常专业,且信息源紧贴顶级期刊 ERA 等最前沿进展,对足细胞基因治疗这么前沿的方向,能帮我快速了解国际热点技术路线,少走弯路。"

北京天坛医院的熊医生,在研究偏头痛中的PACAP研究进展时发现,头痛相关的研究越来越多,想找到真正有价值的文献并不容易,多数大模型给出的答案都因幻觉问题而不可用。他试用百小应时看到,"能梳理全球PACAP偏头痛研究,从机制到 III 期临床试验自动串联证据链,不仅回答问题,更让医生站在未来看科研进展。"

百川发布循证增强大模型 M2 Plus,号称

无论是专业医疗问题还是常规医疗问答,M2 Plus都会引用权威医学证据

多国医学考试断层领先,医学知识运用能力超越人类医生

美国执业医师资格考试(USMLE)是评估临床知识和推理能力的黄金标准,即便是经验丰富的临床专家,要突破90分也极具挑战。在此项考试中,M2-Plus取得了惊人的97分,不仅远超人类考生平均水平,更与GPT-5的成绩持平,稳居全球第一梯队,展示了其世界级的临床问题解决能力。

百川发布循证增强大模型 M2 Plus,号称

中国执业医师资格考试(NMLE)及格线为360分,对于广大医学生而言,能考到450分以上已是高分,超过500分则被视为"学神"级别。M2 Plus取得了568分的"碾压级"成绩,在所有公开测试的主流大模型中位列第一,充分证明其对中国临床指南和医疗实践的掌握已炉火纯青。

如果说执医考是"从业门槛",那么中国硕土研究生招生考试(西医综合)则是顶尖医学生竞争的"华山论剑"。该考试不仅知识面广,且题目设计极为复杂,对临床思维要求高。通常,能考到280分以上的考生,都是协和、北医等顶尖学府的学霸。M2 Plus在此项考试中取得了282分。

同时,在日本、英国、澳大利亚等国高级医师职称晋升考试中,准确率85%以上,远超各国及格线。

这些压倒性的成绩充分说明,M2 Plus在复杂医学知识运用上的能力,已经超越了人类医生水准。

"医生版ChatGPT"推动医疗AI迈入可信可用阶段

接入M2 Plus的百小应已在各大手机应用商店更新,成为名副其实的"医生版ChatGPT"。为方便电脑端使用,网页版(ying.ai)也同步上线。

随着大模型的普及,除了需要借助AI高效地辅助临床决策,医生还开始面临新的挑战:患者使用DeepSeek自诊和带者DeepSeek就医的现象越来越多。虽然都知道大模型可能有幻觉和偏颇,但没有时间和精力去逐句甄别。通过百小应,医生有了面对通用模型挑战的"专属武器"。

对于希望深入理解诊断、治疗、预后、病因、检查等背后科学逻辑的患者及家属,百小应让他们有机会获得最前沿权威的知识、顶尖专家的思维和视角,得到无限耐心的专业解答。

Baichuan-M2 Plus也提供了标准化API接口,医院信息化部门、互联网医疗、大健康服务等各类泛医学机构,以及从事医疗AI行业的开发者,则可以通过API将循证推理能力接入服务场景,提升AI服务的医学专业性。

通过开源Baichuan-M2、发布Baichuan-M2 Plus、百小应,开放API,百川致力于持续提升AI医疗在真实临床场景的可用性,推动大模型在医疗场景进入落地可用新阶段。

来源:https://www.ithome.com/0/891/396.htm
上一篇宁德时代邦普循环发布锂电池回收标准,构建电池全生命周期生态 下一篇中汽协2025年1-9月前十车企销量超2000万,8家实现正增长
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
OpenClaw手机App上线,结果翻车了
科技数码 · 2026-07-01

OpenClaw手机App上线,结果翻车了

OpenClaw 官方宣布,已正式推出 iOS 和 Android 原生移动 App,用户如今可以在手机上使用这款主打“能真正帮你做事”的个人 AI 助手。官方在 X 上给出的定位也很直接:把 Agent 放进口袋里,让用户可以在移动端处理频道消息、任务和回复。从功能上看,OpenClaw 移动端并

优必选CEO周剑:家庭机器人生态核心投入过半精力
科技数码 · 2026-07-01

优必选CEO周剑:家庭机器人生态核心投入过半精力

先说几个核心判断:优必选正在布局一盘长远战略。创始人兼CEO周剑在近期一场媒体沟通会上,直接亮出了公司未来的发展路线——工业、商用、家庭陪伴机器人三条业务主赛道并行推进,现阶段每条线各占约一半精力。一边是已经能够稳定创造收入的工业场景,另一边则是他眼中“最具想象力与未来空间”的家庭陪伴领域。工业人形

CPO/NPO/OIO开启封装级光连接价值空间,技术路线尚未收敛
科技数码 · 2026-07-01

CPO/NPO/OIO开启封装级光连接价值空间,技术路线尚未收敛

6月30日,申银万国在光连接系列研报中重点指出,MPO光连接器领域的投资机会值得高度关注。通俗来说,随着AI算力集群持续扩张,光互联升级带来的连锁效应——数据中心光纤通道数量、前面板端口密度、机柜内光纤管理复杂度——均在同步攀升。光连接器的角色早已超越传统的低价值标准件,如今它直接决定着链路插损、可

龙岗AR实景剧本游内测体验短板有效破解之道
科技数码 · 2026-07-01

龙岗AR实景剧本游内测体验短板有效破解之道

在今年龙岗区第二届人工智能与机器人发展大会上,区级部门一次性推出了7个AI“龙搭子”。其中,名为“龙导游”的成果成为文商旅融合领域的核心亮点。据南都N视频记者了解,依托“龙导游”打造的全区全域AR实景剧本游“龙岗大陆”,已在今年五一假期发布了内测版本。经过一个月市场验证后,该项目正式启动面向全社会的

南下资金6月30日净买入中芯国际与建滔积层板
科技数码 · 2026-07-01

南下资金6月30日净买入中芯国际与建滔积层板

6月30日,南下资金持续大举买入港股,单日净流入金额高达58 95亿港元。接下来,我们直接盘点哪些个股获得资金青睐、哪些遭到减持: 净买入方面,中芯国际领跑全场,单日吸金19 33亿港元;建滔积层板紧随其后,净买入10 59亿港元;腾讯控股获得7 65亿港元净流入;智谱(02513 HK)也有6 5