阿里开源统一科学大模型LOGOS参数效率超越微软NatureLM_AI热点日报

阿里开源统一科学大模型LOGOS参数效率超越微软NatureLM

类型：热点整理2026-06-29

阿里与高校联合开源了首个基于统一“科学语法”的多领域科学生成模型LOGOS。该模型通过共享词表，将蛋白质、小分子等异构对象编码为统一序列，实现了跨领域生成。性能上，其1B参数版本在多项任务中超越了参数量56倍的微软NatureLM。模型创新性地将3D空间信息语法化处理，无需坐标输入即可理解复杂互作，

近日，一项名为LOGOS的统一科学大模型正式宣布开放源代码。该模型由阿里ATH-Token Foundry与中国人民大学高瓴人工智能学院联手打造，旨在通过一套统一的“科学语法体系”，高效处理多领域科学对象的生成任务。

阿里开源统一科学大模型LOGOS，参数效率显著超越微软NatureLM

不同于传统方法需要为蛋白质、小分子等不同科学领域分别构建专用模型，LOGOS的核心突破在于成功构建了一套共享词表。这套词表将原本结构各异的科学对象，如蛋白质、小分子及材料，全部编码为统一的离散Token序列，使其能够在同一个生成空间中，被模型精准理解和生成各类科学对象。

参数效率与性能表现突出

在性能维度上，LOGOS凭借纯序列建模范式，在六大代表性科学任务中，均一致性地达到甚至超越了领域专用方法的水平。尤其值得关注的是其卓越的参数使用效率：LOGOS-1B版本仅动用1B参数，便在多项任务上超越了参数量为其56倍的微软NatureLM模型（8×7B）。

为支撑模型训练，研究团队构建了总计包含44.87B tokens的庞大预训练语料库，全面覆盖了生物大分子层（如蛋白质、抗体）、化学实体与转化层（如小分子、化学反应与MOF材料）以及界面互作层（如蛋白质口袋、蛋白口袋-配体复合物）等7类模态数据。

创新“语法化”处理3D空间信息

面对蛋白质与小分子结合等复杂的科学对象交互问题，传统AI方法通常需要依赖显式3D坐标和复杂的几何神经网络。LOGOS则创新性地采用了一种“文字描述法”。它将3D空间接触模式直接“语法化”为离散Token，无需任何3D坐标输入，仅通过序列预测便能解码并掌握复杂的3D空间互作规律。

这一设计带来了显著优势。在传统范式下，从结构预测切换到分子生成等不同研究环节，通常需要更换一套全新模型和假设。同时，预训练目标与下游任务之间的“目标偏差”，也导致模型落地时必须进行大量微调。LOGOS凭借其科学语法设计，实现了形式与目标的高度统一，有效消除了预训练与应用之间的鸿沟，无需复杂适配层或大量微调，即可直接激活强大的生成能力。

推动科学AI模型开发范式转变

统一语法不仅让不同科学对象实现“语言互通”，更促进了底层知识的共享。例如，模型在学习蛋白质的序列特征后，能够自主生成对应的小分子结构，这充分证明它真正掌握了不同科学对象间的内在关联。这一特性有望大幅简化科学发现的流程，显著提升跨学科研究的效率。

目前，LOGOS已完整开放了模型权重、推理代码及详细技术报告。此次开源举措有望降低科学AI大模型的应用门槛，推动更多研究者基于统一框架进行探索与创新，标志着科学大模型开发正从“专用化”向“统一化”范式加速转型。

来源：IT之家

开源模型科学大模型统一语法参数效率

延伸阅读

补充最近整理过的热点入口。