近日,一项名为LOGOS的统一科学大模型正式宣布开放源代码。该模型由阿里ATH-Token Foundry与中国人民大学高瓴人工智能学院联手打造,旨在通过一套统一的“科学语法体系”,高效处理多领域科学对象的生成任务。

不同于传统方法需要为蛋白质、小分子等不同科学领域分别构建专用模型,LOGOS的核心突破在于成功构建了一套共享词表。这套词表将原本结构各异的科学对象,如蛋白质、小分子及材料,全部编码为统一的离散Token序列,使其能够在同一个生成空间中,被模型精准理解和生成各类科学对象。
参数效率与性能表现突出
在性能维度上,LOGOS凭借纯序列建模范式,在六大代表性科学任务中,均一致性地达到甚至超越了领域专用方法的水平。尤其值得关注的是其卓越的参数使用效率:LOGOS-1B版本仅动用1B参数,便在多项任务上超越了参数量为其56倍的微软NatureLM模型(8×7B)。
为支撑模型训练,研究团队构建了总计包含44.87B tokens的庞大预训练语料库,全面覆盖了生物大分子层(如蛋白质、抗体)、化学实体与转化层(如小分子、化学反应与MOF材料)以及界面互作层(如蛋白质口袋、蛋白口袋-配体复合物)等7类模态数据。
创新“语法化”处理3D空间信息
面对蛋白质与小分子结合等复杂的科学对象交互问题,传统AI方法通常需要依赖显式3D坐标和复杂的几何神经网络。LOGOS则创新性地采用了一种“文字描述法”。它将3D空间接触模式直接“语法化”为离散Token,无需任何3D坐标输入,仅通过序列预测便能解码并掌握复杂的3D空间互作规律。
这一设计带来了显著优势。在传统范式下,从结构预测切换到分子生成等不同研究环节,通常需要更换一套全新模型和假设。同时,预训练目标与下游任务之间的“目标偏差”,也导致模型落地时必须进行大量微调。LOGOS凭借其科学语法设计,实现了形式与目标的高度统一,有效消除了预训练与应用之间的鸿沟,无需复杂适配层或大量微调,即可直接激活强大的生成能力。
推动科学AI模型开发范式转变
统一语法不仅让不同科学对象实现“语言互通”,更促进了底层知识的共享。例如,模型在学习蛋白质的序列特征后,能够自主生成对应的小分子结构,这充分证明它真正掌握了不同科学对象间的内在关联。这一特性有望大幅简化科学发现的流程,显著提升跨学科研究的效率。
目前,LOGOS已完整开放了模型权重、推理代码及详细技术报告。此次开源举措有望降低科学AI大模型的应用门槛,推动更多研究者基于统一框架进行探索与创新,标志着科学大模型开发正从“专用化”向“统一化”范式加速转型。
