人工智能正在为精准医疗与药物研发领域带来前所未有的深刻变革——这一判断如今已无需过多赘述。真正值得深入探讨的是,这场变革的内在逻辑已发生根本性转移:解码生命奥秘的核心,正从传统实验观测逐步转向算力与算法的协同突破。蛋白质结构预测、基因组分析与医学影像,这三项核心技术共同构成了生命科学AI的核心工具箱,它们的实际能力直接影响着新药研发的效率与精准医疗的应用边界。
然而,一个现实的困境长期困扰着业界。作为蛋白质结构预测领域的标杆,AlphaFold 3的训练代码并未完全开放,商业用途也受到诸多限制。这意味着全球科学家很难基于该模型构建真正自主可控的研发环境。更深层的挑战在于合规性:无论蛋白质结构预测还是基因组分析,都涉及大量人类遗传数据,而相关法规对数据跨境流动有着明确且严格的约束。因此,从底层模型到计算基础设施,构建全链路的自主能力,已不仅是提升科研效率的问题,更成为保障合规与安全的必然要求。
好在技术工具层面正在迎来重大突破。2026年,字节跳动发布了Protenix-v1,在Apache 2.0协议下完整开源了代码及模型参数。业界普遍认为,这是首个在同等条件下性能表现达到甚至超越AlphaFold 3的全开源模型。可以说,生命科学领域终于迎来了一个自主可控、可训练、可定制的开源基础模型。
不过,工欲善其事,必先利其器。模型开源仅仅是起点。这些模型能否真正融入科研与产业工作流,关键在于它们能否在国产算力上顺利跑通训练、推理、精度验证与开发环境。摩尔线程的旗舰级训推一体全功能智算卡MTT S5000,基于自主MUSA软件栈,已完成了对蛋白质结构预测模型Protenix和基因组基础模型Evo 2的完整验证。实测数据极具说服力:在蛋白质结构预测的训练任务中,单卡性能达到了国际主流GPU的115%以上;在基因组大模型的推理与训练任务中,精度与国际主流GPU持平。此外,摩尔线程还开源了MUSA加速版的MONAI 1.5.0,为AI医学影像这一关键环节提供了国产算力支撑。这一整套动作,使得AI4S的工具环真正变得可控。
生物医药研发对算力的依赖正日益加深,而算力供应链的安全性直接关系到科研与产业的稳定性。摩尔线程的全功能GPU能够完整承载生命科学AI前沿模型的生产级负载,为国内科研机构、药企及医疗机构提供了一个自主可控的高性能计算基座,有效降低了对单一算力路径的依赖。
这堪称中国AI医药研发领域的一个重要里程碑:从可控模型到自主算力,从结构预测到医学影像,一个完整、开放、可控的AI医药研发底座正在逐步形成。
生命的数字镜像
人类生命体由约30亿个碱基对编码而成。如果将人体比作一台精密运行的计算系统,那么感冒发烧就像是临时的进程异常,免疫机制可自动修复。但像癌症、渐冻症这样的重大疾病,根源在于写入基因组深处的代码错误:抑癌基因被篡改,导致细胞增殖失控;运动神经元的代码发生乱码,指令无法传达。这些内源性错误无法通过常规手段修复,必须从分子层面进行靶向干预。
要理解这些疾病,需要回归生物学的中心法则:DNA转录为RNA,再翻译为蛋白质。蛋白质从氨基酸序列折叠为三维空间构象,多条肽链又可组装成功能复合体(如血红蛋白)。这一过程中,一个核心共识贯穿始终:序列决定结构,结构决定功能。

图1:基于AI生命科学技术的肿瘤精准诊疗与新疗法研发协同框架
正是基于这一逻辑链条,AI驱动的精准治疗解决方案得以构建。目前,基于生命科学AI的癌症精准治疗已形成一个完整的技术闭环:
1. 基于MONAI等框架的AI影像学,实现早筛与监测; 2. 基因组大模型(如Evo 2)解读突变功能; 3. 结构预测模型(如AlphaFold / Protenix)揭示蛋白结构变化; 4. 在此基础上设计靶向药物或降解剂; 5. 最终通过临床验证与数据反馈,持续优化模型。
这一技术路径的实现,高度依赖蛋白质结构预测、基因组分析与医学影像这三类关键工具。
生命科学AI的工具箱
Protenix:蛋白质结构预测的开源破局
蛋白质的结构决定了其功能。精确预测蛋白质的三维结构,是理解疾病机理、设计靶向药物的关键。
自2018年起,DeepMind的AlphaFold系列不断刷新结构预测的精度边界。2024年发布的AlphaFold 3,已能同时预测蛋白质、DNA、RNA及小分子配体等复合物结构。但问题依然存在:其训练代码并未完全开放,商业使用也受限制,全球科研机构很难基于它进行定制化开发。
Protenix的出现恰好填补了这一空白。2025年5月,字节跳动发布了Protenix-v0.5.0,成为开源社区中追平甚至挑战AlphaFold 3水平的重要力量。到2026年2月,Protenix-v1正式发布,在Apache 2.0协议下完整开源了代码及模型参数。据媒体报道,Protenix是首个在相同训练数据与推理预算下,性能达到甚至超越AlphaFold 3的全开源模型。它采用Transformer+Diffusion架构,能精准处理蛋白质、DNA/RNA及小分子配体。开发者可基于Protenix在自有数据集上进行微调和训练,为特定研究任务提供了灵活的技术路径。
Evo 2:从“阅读”到“写作”基因组
Protenix解决了“序列→结构”的映射问题,但更深层的源头问题依然存在:基因如何决定蛋白质序列?为何某些基因更容易突变并导致疾病?修改基因会产生何种后果?
人类基因组总长约30亿碱基对,其中编码蛋白质的基因仅占1%-2%,大部分是非编码区。正是这些非编码区承载了人与人之间90%以上的遗传差异,其功能机制至今尚未被完全阐明。而像糖尿病、精神分裂症这类复杂疾病,往往涉及多个微效基因的叠加效应——这需要更强大的基因组建模能力。

图2:Evo 2和Evo 1的模型框架
Evo 2由美国Arc研究所等机构共同开发,2026年3月发表于《自然》期刊。作为面向生命科学领域的基因组基础模型,Evo 2借鉴了大语言模型的理念,在超过12.8万个物种、9.3万亿个核苷酸(OpenGenome 2数据集)上完成了训练,覆盖了细菌、古菌、真核生物三大生命域。其训练数据量是前代Evo 1的30倍,采用StripedHyena 2架构,可一次性处理长达100万个碱基对的序列,训练效率达到传统Transformer的三倍。Evo 2提供70亿和400亿参数两个版本,其中400亿参数的版本是目前最大的开源生物学AI模型。
Evo 2的核心能力主要体现在两大维度:
精准预测:它能够零样本评估编码区和非编码区基因突变的影响。在区分乳腺癌相关基因BRCA1的有害突变与良性突变时,预测准确率超过90%,为临床解读“意义未明变异”提供了重要工具。
生成设计:从“阅读”基因组进化到“写作”基因组。成功案例包括设计模拟生殖支原体的简化基因组、人类线粒体基因组、酵母染色体片段,以及设计并合成功能性噬菌体——部分设计序列在导入大肠杆菌后,产生了具有杀菌活性的病毒颗粒,为应对抗生素耐药性提供了新思路。
MONAI:医学影像的“事实标准”
在AI医学影像领域,算法正从基础2D图像筛查迈向复杂的3D器官分割与生成式内容创建。作为该领域公认的“事实标准”,基于PyTorch构建的开源框架MONAI(Medical Open Network for AI),已成为连接前沿学术研究与临床落地应用的关键桥梁。截至2024年底,其全球下载量已突破350万次,在行业内被广泛使用。
MONAI采用清晰的三层架构设计:
MONAI Core:提供专门针对医学影像的高效数据处理、变换方法与网络架构; MONAI Label:作为智能标注工具,通过AI辅助大幅提升数据标注效率; MONAI Deploy:支持将训练好的AI模型打包并部署至临床环境。
凭借从数据标注、模型训练到临床部署的完整闭环能力,MONAI已然成为医学影像AI研究与应用的主流框架。
结构预测模型涉及复杂的pair representation、几何推理与扩散式计算,对显存、访存及数值稳定性要求极高;基因组基础模型面向超长序列与大规模数据训练,对长上下文处理、分布式训练及吞吐效率要求严苛;医学影像框架强调从标注、训练到部署的完整链条,对框架兼容性与工程落地能力要求更强。对国产GPU而言,真正的挑战不仅在于跑通模型,更在于同时完成算子适配、数值稳定性验证、训练与推理双场景支持,以及开发环境的可复现封装。
摩尔线程全功能GPU实践
面对这些挑战,摩尔线程基于自主MUSA软件栈,完成了对Protenix、Evo 2及MONAI三大生命科学AI工具的完整验证与支持,覆盖了推理、训练及医学影像三大场景。
Protenix:训练性能达115%以上
Protenix-v0.5.0作为开源社区中追平AlphaFold 3水平的重要版本,为开发者提供了可训练、可定制的全栈开源方案。摩尔线程在MTT S5000上完成了对该模型的推理与训练验证。

图3:7r6r等示例序列在MTT S5000上的推理重建结果和误差对比
推理精度:选取7r6r、7wux、7pzb三个示例序列进行推理重建测试。从图示结果看,重建可视化效果与参考实现基本一致,端到端整体计算误差小于1%,充分验证了推理结果的准确性与可靠性。
训练性能:在全数据集训练任务中,MTT S5000单卡性能达到了国际主流GPU的115%以上。

图4:Protenix-v0.5.0实测表现
Evo 2:精度完全对标
在Evo 2_7B模型上,摩尔线程完成了推理与训练的精度对标。对4个序列生成任务的比对显示:序列生成Score和准确率与国际主流GPU完全持平,充分体现了MUSA软件栈对基因组大模型的完整兼容性。

图5:Evo 2_7B实测表现
MONAI:国产化加速
在医学影像环节,摩尔线程已开源了MUSA加速版MONAI 1.5.0,为AI医学影像领域提供了国产算力支撑。基于MUSA软件栈,摩尔线程实现了对MONAI最新仓库的原生支持,开发者可以实现“零学习成本”的无缝迁移。
一个值得关注的案例来自锦瑟医疗,这是一家国内领先的XR+AI智慧外科解决方案提供商,已深度集成MONAI至其产品线。锦瑟医疗CTO陈亮表示:“我们基于CUDA开发的成熟算法,可以低成本、高效率且无损地迁移到摩尔线程MUSA平台。在AI医学影像的复杂实际任务中,MUSA展现出与CUDA对等的计算精度与运行稳定性。”
这意味着,国产全功能GPU的价值已不再局限于研究端的模型验证,而是开始进入更接近真实医疗应用的工程链路。
筑基AI4S,共创生命科学新未来
从基因序列到蛋白质宇宙,生命科学的AI化正在重塑我们对疾病的理解与治疗的根本范式。在AI for Science的版图中,蛋白质结构预测与基因组设计,已成为检验算法创新与算力能力的试金石。
摩尔线程在生命科学领域的一系列探索,成功推动了“开源模型—本土软件栈—国产算力—开发者工作流”的全链路闭环。对国内的科研机构、药企和医疗技术团队而言,这意味着在许可条件、数据合规、供应链安全与长期迭代能力上,拥有了更高的自主性,能够加速从验证到落地的整个流程。
生命的数字镜像正在被层层解码。在AI for Science的时代浪潮中,从基因到蛋白质的未竟之路,值得所有开发者和产业参与者共同探索。
