游乐游手机版
首页/AI热点日报/热点详情

阿里开源统一科学大模型LOGOS参数效率超越微软NatureLM

类型:热点整理2026-06-29
阿里与高校联合开源了首个基于统一“科学语法”的多领域科学生成模型LOGOS。该模型通过共享词表,将蛋白质、小分子等异构对象编码为统一序列,实现了跨领域生成。性能上,其1B参数版本在多项任务中超越了参数量56倍的微软NatureLM。模型创新性地将3D空间信息语法化处理,无需坐标输入即可理解复杂互作,

近日,一项名为LOGOS的统一科学大模型正式宣布开放源代码。该模型由阿里ATH-Token Foundry与中国人民大学高瓴人工智能学院联手打造,旨在通过一套统一的“科学语法体系”,高效处理多领域科学对象的生成任务。

阿里开源统一科学大模型LOGOS,参数效率显著超越微软NatureLM

不同于传统方法需要为蛋白质、小分子等不同科学领域分别构建专用模型,LOGOS的核心突破在于成功构建了一套共享词表。这套词表将原本结构各异的科学对象,如蛋白质、小分子及材料,全部编码为统一的离散Token序列,使其能够在同一个生成空间中,被模型精准理解和生成各类科学对象。

参数效率与性能表现突出

在性能维度上,LOGOS凭借纯序列建模范式,在六大代表性科学任务中,均一致性地达到甚至超越了领域专用方法的水平。尤其值得关注的是其卓越的参数使用效率:LOGOS-1B版本仅动用1B参数,便在多项任务上超越了参数量为其56倍的微软NatureLM模型(8×7B)。

为支撑模型训练,研究团队构建了总计包含44.87B tokens的庞大预训练语料库,全面覆盖了生物大分子层(如蛋白质、抗体)、化学实体与转化层(如小分子、化学反应与MOF材料)以及界面互作层(如蛋白质口袋、蛋白口袋-配体复合物)等7类模态数据。

创新“语法化”处理3D空间信息

面对蛋白质与小分子结合等复杂的科学对象交互问题,传统AI方法通常需要依赖显式3D坐标和复杂的几何神经网络。LOGOS则创新性地采用了一种“文字描述法”。它将3D空间接触模式直接“语法化”为离散Token,无需任何3D坐标输入,仅通过序列预测便能解码并掌握复杂的3D空间互作规律。

这一设计带来了显著优势。在传统范式下,从结构预测切换到分子生成等不同研究环节,通常需要更换一套全新模型和假设。同时,预训练目标与下游任务之间的“目标偏差”,也导致模型落地时必须进行大量微调。LOGOS凭借其科学语法设计,实现了形式与目标的高度统一,有效消除了预训练与应用之间的鸿沟,无需复杂适配层或大量微调,即可直接激活强大的生成能力。

推动科学AI模型开发范式转变

统一语法不仅让不同科学对象实现“语言互通”,更促进了底层知识的共享。例如,模型在学习蛋白质的序列特征后,能够自主生成对应的小分子结构,这充分证明它真正掌握了不同科学对象间的内在关联。这一特性有望大幅简化科学发现的流程,显著提升跨学科研究的效率。

目前,LOGOS已完整开放了模型权重、推理代码及详细技术报告。此次开源举措有望降低科学AI大模型的应用门槛,推动更多研究者基于统一框架进行探索与创新,标志着科学大模型开发正从“专用化”向“统一化”范式加速转型。

来源:IT之家

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。