首页 游戏 软件 资讯 排行榜 专题
首页
AI
蚂蚁百灵开源医疗推理数据集 加速大模型行业应用

蚂蚁百灵开源医疗推理数据集 加速大模型行业应用

热心网友
32
转载
2026-05-16

12月28日,在上海举办的“虹桥之源”大模型驱动数字经济新生态峰会上,一项聚焦医疗AI领域的重要进展正式公布。蚂蚁集团商业机器智能部总经理顾进杰在会上宣布,正式开源国内首个面向医疗专科的推理数据集。此举旨在精准提升大模型在垂直医疗场景下的专业诊断与逻辑推理能力,为行业提供关键数据基础设施。

蚂蚁集团商业机器智能部总经理顾进杰在会上介绍国内首个医疗专科推理数据集

当前,通用大模型在处理医疗问诊任务时,普遍存在一个显著差异:模型往往倾向于直接输出结论,而真实的临床诊断过程,则是医生基于专业知识进行多轮询问、鉴别与严谨推理的闭环。此外,大模型固有的“幻觉”问题、推理能力不足,以及高质量中文医学专科数据的匮乏,共同构成了训练可靠医疗领域大模型的现实挑战。

为应对这些核心难题,蚂蚁集团与上海仁济医院泌尿科顶尖专家团队展开深度合作。双方紧密结合一线临床经验,通过构建高度仿真的模拟病例数据,共同推出了首个中文医疗专科问答推理数据集——RJUA-QA。这也是业界首个真正基于临床专科实践构建的数据集。

该数据集由训练集、验证集和测试集三部分组成,共包含2132个高质量问答对。每个问答对均源于医生的真实临床经验,完整涵盖患者问题、专家级回答以及支撑推理的关键上下文信息。其病种覆盖范围超过97.6%的泌尿科常见就诊人群,能够高度还原真实诊疗场景。该数据集不仅可用于增强大模型的诊断推理能力,更能作为一个严谨、可控的评测基准,为医疗AI产品的落地与优化提供一把可靠的“标尺”。

借此机会,顾进杰进一步分享了蚂蚁百灵大模型在医疗赛道上的核心技术布局。他认为,专业性、可控性、轻量化是推动大模型与医疗行业深度融合必须跨越的三大核心挑战,同时也孕育着巨大的市场机遇。

专业性:构建多模态知识引擎,开源专科数据集

医疗行业细分领域众多,超百个临床科室各有其独立的知识体系。要让大模型真正“精通专科”,必须在每个垂直领域进行深度优化与调试。为此,蚂蚁集团联合医疗专家研发了多模态医疗知识引擎,并持续推动如RJUA-QA这类专业数据集的构建与开源,为行业提供高质量的基础“数据燃料”。

可控性:知识图谱深度赋能,确保回答“有源可溯”

如何确保大模型输出的内容可靠、可追溯?百灵大模型的核心策略是深度融合知识图谱技术。这使得模型的每一个回答背后都有一条清晰、可验证的知识依据链条。顾进杰指出,生成内容能够灵活适配不同医院、不同科室的定制化需求,包括表述风格与专业调性。蚂蚁在超大规模图学习与知识图谱领域拥有长期技术积累,其联合OpenKG发布的开源项目OpenSPG,重新定义了工业级知识图谱的语义架构。知识检索增强技术正是大幅提升大模型答案准确性、可靠性与可控性的关键所在。

轻量化:实现“小身材大能量”,赋能高效部署

考虑到医疗机构对数据隐私、专业自主性的严格要求,以及实际的算力成本与部署便捷性需求,模型的轻量化至关重要。蚂蚁集团于12月开源的模型轻量化框架(PIA),集成了模型剪枝、压缩、量化、推理加速等全链路优化技术,具备开箱即用、功能无损、低代码接入等特性。据悉,该框架可在数天内完成10倍以上的模型压缩,让“大模型”也能变得小巧、高效且易于集成。

那么,这些技术投入的实际效果如何?从多项公开评测来看,蚂蚁百灵大模型的表现颇具竞争力。目前,其在中英文医学考试及多项权威基准测试中,已达到或超越了GPT-4的水平。例如,在中文医疗大模型权威评测榜单PromptCBLUE上,取得了A榜第一、B榜第二的成绩;在国际医疗问答榜单PubMedQA中,以80.6%的准确率跻身全球前五,并且是前十名中参数量最小的模型——这意味着它在保持高精度诊断能力的同时,具备了更优的易用性与部署性价比,更贴合医疗机构的实际应用需求。

来源:https://www.leiphone.com/category/ai/ngdVFtbpP9nhNX8O.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

大树云Ploutos Lab交互式AI实训革新人才培养模式
科技数码
大树云Ploutos Lab交互式AI实训革新人才培养模式

2026年,AI大模型的规模化应用与商业落地已成为产业发展的核心议题。然而,在广泛的概念验证与试点项目背后,一个关键挑战日益凸显:众多企业正陷入“试点陷阱”——尽管前期验证成果显著,却难以将AI能力转化为可规模化复制、持续产生商业价值的核心生产力。深入剖析其根源,核心矛盾在于人才供给的结构性失衡。当

热心网友
05.15
福特汽车股价两日大涨21%,AI热潮席卷传统汽车行业
科技数码
福特汽车股价两日大涨21%,AI热潮席卷传统汽车行业

福特汽车因布局储能业务,股价两日飙升约21%,创近六年最佳表现。这显示传统制造业正通过涉足人工智能与能源转型获得资本市场重估,其估值逻辑随业务拓展而更新,反映出市场对产业跨界转型的积极预期。

热心网友
05.15
Demis Hassabis谈人工智能潜力远超人类预期
AI
Demis Hassabis谈人工智能潜力远超人类预期

在数据驱动决策的今天,数据可视化已从辅助工具升级为传递洞察、支撑观点的关键手段。一幅专业的数据图表能迅速解码复杂信息,而一个存在设计缺陷的图表则可能让数据故事彻底失效。本文将深入剖析六个常见却致命的图表设计细节,帮助您避开陷阱,提升图表的专业性与沟通力。 一、饼图顺序混乱,重点模糊 饼图的核心价值在

热心网友
05.15
腾讯云开源Agent Memory技术大幅降低61%的Token消耗
AI
腾讯云开源Agent Memory技术大幅降低61%的Token消耗

腾讯云开源了TencentDBAgentMemory分层记忆引擎,采用MIT协议。该引擎通过“上下文卸载”和“Mermaid任务画布”两项核心技术,在多任务连续会话中最高可降低61 38%的Token消耗,并将任务成功率相对提升51 52%。它解决了长周期任务中记忆跨会话断裂、事实与偏好混淆以及上下文膨胀三大痛点。项目已适配主流Agent框架,支持一键集成与

热心网友
05.15
SAP统一AI平台整合构建与部署全套能力
AI
SAP统一AI平台整合构建与部署全套能力

SAP推出统一AI平台,整合业务技术、数据云与AI能力,为企业提供集成底座。同时发布自动化套件,通过超50个AI助手调度近200个智能体,驱动业务流程自动化。平台基于近期收购的数据管理公司构建,并与多家云服务商合作,确保AI结果准确合规,以提升效率、节约成本。

热心网友
05.15

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

华硕枪神10X发布 搭载9950X3D与全息光显风扇
科技数码
华硕枪神10X发布 搭载9950X3D与全息光显风扇

华硕在ROGDAY2026上发布了枪神10X整机,首次搭载三颗可联动显示的全息光显风扇,外观极具未来感。其核心配置顶级,采用AMD锐龙99950X3D2处理器、ROGRTX5080显卡、64GB内存及4TBSSD,并配备高效三区独立散热系统,定价69999元。

热心网友
05.16
鹿客V3 Max智能门锁发布 支持4米远距离无线充电
科技数码
鹿客V3 Max智能门锁发布 支持4米远距离无线充电

智能门锁领域迎来重磅新品。知名品牌鹿客近期于京东平台正式发售其旗舰型号V3 Max智能门锁,该产品凭借创新的隔空无线充电技术与先进的AI视觉识别系统引发市场关注。官方定价为3572元,在部分参与促销活动的地区,消费者可享受补贴,最终入手价有望低至2799元,性价比优势显著。 鹿客V3 Max在视觉安

热心网友
05.16
华硕ROG魔霸10系列游戏本发布 搭载9955HX3D与RTX 5070 Ti
科技数码
华硕ROG魔霸10系列游戏本发布 搭载9955HX3D与RTX 5070 Ti

在备受瞩目的ROG DAY 2026广州站活动中,华硕重磅发布了其新一代高性能游戏笔记本电脑——ROG魔霸10系列。该系列包含16英寸的魔霸10与屏幕更大的18英寸魔霸10 Plus两款机型,旨在为硬核玩家带来顶级的游戏体验。 ROG魔霸10系列的硬件配置堪称顶级。处理器方面,用户最高可选择搭载AM

热心网友
05.16
小米手环10 Pro配置曝光 双灯组双PD传感器升级详解
科技数码
小米手环10 Pro配置曝光 双灯组双PD传感器升级详解

5月15日,小米官方正式公布了小米手环10 Pro的完整配置信息。作为新一代旗舰手环,它在健康监测精准度、运动功能专业度以及佩戴舒适度上均实现了显著突破,为用户带来了更全面的智能穿戴体验。 小米手环10 Pro 健康监测:精度与维度的双重跃升 本次升级的核心在于健康监测能力的全面进化。小米手环10

热心网友
05.16
金士顿推出新款FURY Renegade Pro DDR5 RDIMM内存散热马甲
科技数码
金士顿推出新款FURY Renegade Pro DDR5 RDIMM内存散热马甲

金士顿扩展其可超频的ECCRDIMM内存系列,新增高达7600MT s型号。其中高速型号采用全新铝制散热马甲,提升散热效率以保障高负载下的稳定运行。该系列同时支持ECC校验与超频,兼顾性能与数据完整性,适用于AI计算、工程仿真等高要求专业场景。

热心网友
05.16