百川大模型M2 Plus发布，医疗版ChatGPT实测能力解析

时间：2025-12-05 21:37

10 月 22 日消息，据百川大模型最新微信公众号消息，今天，百川发布了循证增强医疗大模型 Baichuan-M2 Plus，同步升级配套应用百小应并开放 API。这是百川自 8 月开源 Baic

10月22日消息，根据百川大模型最新微信公众号发布的资讯，今天百川正式推出了循证增强医疗大模型Baichuan-M2 Plus，同时全面升级百小应应用并开放API接口。这是继8月份开源Baichuan-M2后，该公司的又一重要战略布局。

最新评测数据显示，M2 Plus在医疗幻觉率方面显著优于通用大模型，相比DeepSeek降低了约3倍，表现优于美国知名医疗产品OpenEvidence，其可靠性已接近资深临床医生的专业水准。

据介绍，百川M2 Plus首创了六源循证推理（EAR）范式，致力于打造"医生版ChatGPT"，推动大模型技术在辅助临床诊疗场景中跨越"敢用、可用"的关键门槛。该模型不仅专门针对中国医疗环境进行优化，在美国、日本、英国等地的权威医疗测评中也全面超越OpenEvidence，代表中国在全球大模型竞技舞台再下一城。

以下是关于Baichuan-M2 Plus技术特点的详细介绍：

首创六源循证推理范式，实现证据"全"、检索"准"、推理"对"的完整闭环

（一）六源循证：构建从原始研究到真实世界的完整医学知识体系

循证医学（Evidence-Based Medicine, EBM）作为现代医学知识体系的核心范式，是确保医疗决策科学可靠的关键所在。

通用大模型如同一个"博学却不可靠"的专家，即便具备检索增强能力，也可能因知识来源复杂而无法符合循证医学的严谨标准。

我们不仅主动屏蔽了互联网上的非专业信息来源，仅采用权威来源的医学证据，在此基础上构建了从证据、到实践、再到真实世界反馈的六层证据类型知识体系：

原始研究层：索引海量医学期刊论文4000余万篇，超过PubMed收录数量，覆盖基础与临床研究成果，构成循证链条的坚实基础；

证据综述层：整合系统评价和Meta分析等高级别证据，提供经过系统汇总的研究结论；

指南规范层：引入国际和国内权威机构发布的临床指南、专家共识和行业标准，确保回答符合最新规范要求；

实践知识层：包含临床病例报告、一线专家经验和诊疗技巧等实用知识，贴近真实医疗实践场景；

公共健康教育层：汇集权威科普和公共卫生知识，如疾病预防宣教、健康指导等内容，服务大众健康教育；

监管与真实世界层：涵盖药监部门公告、临床试验登记及大规模真实世界研究数据等信息，以反映最新的监管动态与人群研究结果；

这个金字塔形的"六源"知识体系，是一层层演化而来：原始层回答"事实是否存在"、证据层回答"结论是否一致"、指南层回答"行业如何规范"、实践层回答"医生应如何决策"、公共层回答"患者应如何理解"、真实世界层回答"是否存在新风险"。这让模型从"生成答案"走向"据实回答"，实现了从语言可信度到知识可信度的质的飞跃。

（二）循证检索：从"找得到"跃升到"找得准"

传统的RAG检索通常只追求"找得到"，而循证检索则要求"找得准"。

M2 Plus采用PICO框架（人群 Population、干预 Intervention、对照 Comparison、结局 Outcome）思维，将查询转化为结构化医学问题，并在六源数据库中进行分层精准匹配。

例如：当输入"老年OSA患者使用CPAP能否改善高血压？"时，系统优先在高级别证据（系统综述、RCT元分析）中进行搜索，并自动辨识研究质量、样本量、置信区间与结局指标。

这种方法克服了通用RAG的两大缺陷：一是缺乏医学语义理解（无法区分CPAP疗效与依从性分析）；二是无法辨别文献可靠性（新闻与指南同权）。

在此基础上，M2 Plus能够三步精准锁定"铁证"：

第一步，智能提问：自动将用户问题拆解为多个专业的PICO查询，进行"地毯式"证据搜索，兼顾精度与广度。

第二步，精准锁定：通过自研的Medical Contextual Retrieval技术，完整保留文献的临床因果链条，避免信息割裂。

第三步，证据排序：内置"审稿人"模型，自动评估检索到的证据等级（如RCT、Meta分析），将最可信、最相关的"铁证"优先呈现。

（三）循证推理：让模型"像医生一样思考"

如果说"六源循证"解决了医疗AI知识从哪来的问题，"PICO智能检索"解决了如何快速找到正确证据的问题，那么最关键的一步是确保AI在掌握证据时，不会"自由发挥"、脱离事实胡乱回答。

我们在M2 Plus中引入"循证增强训练"机制，为模型的回答过程"上了一道锁"，从根本上改变了其生成逻辑，让它学会"引用，而非臆测"：

首先，在训练中奖励"引用"，惩罚"臆测"，准确引用权威来源（如指南、文献）时会获得高分，一旦回答脱离了检索到的证据就会受到惩罚；

其次，内置"证据评估器"，模型被训练得能够自动评估检索到的证据质量，优先采纳高可信度的信息（如RCT、Meta分析），并将其无缝嵌入到推理链中；

第三，句句有据，可追溯、可验证：经过训练，M2-Plus的回答风格发生了根本性改变，在输出关键结论时，会自动附上参考文献、指南出处等来源，这让AI回答具有更高的可解释性与可信赖度。

幻觉率最低，达到与人类资深临床专家同等可靠性

这种"循证驱动"的生成逻辑，让M2 Plus几乎杜绝了无中生有的内容。在多场景测评中，其综合幻觉率在所有大模型当中最低，相比DeepSeek R1最新版本降低3倍，显著领先OpenEvidence。不仅如此，在病史分析、诊断思路、治疗方案等真实复杂的核心医疗场景中，达到了与人类资深临床专家同等的可信度。

百川发布循证增强大模型 M2 Plus，号称

301医院的姜医生提问，"目前公认最有效的基因治疗足细胞靶向药物有哪些？"很多通用大模型回答这个问题时都产生了明显幻觉，而M2 Plus不仅查证到全球最新研究成果，还能按照纳米系统/AAV病毒载体等维度分类。姜医生赞叹："引用文献非常专业，且信息源紧贴顶级期刊 ERA 等最前沿进展，对足细胞基因治疗这么前沿的方向，能帮我快速了解国际热点技术路线，少走弯路。"

北京天坛医院的熊医生，在研究偏头痛中的PACAP研究进展时发现，头痛相关的研究越来越多，想找到真正有价值的文献并不容易，多数大模型给出的答案都因幻觉问题而不可用。他试用百小应时看到，"能梳理全球PACAP偏头痛研究，从机制到 III 期临床试验自动串联证据链，不仅回答问题，更让医生站在未来看科研进展。"

百川发布循证增强大模型 M2 Plus，号称