游乐游手机版
首页/科技数码/文章详情

阿里达摩院开源首个统一科学大模型LOGOS

时间:2026-06-19 11:10
阿里与中国人民大学联合开源首个统一科学大模型LOGOS,仅1B参数便在六大科学任务上超越微软8×7B模型。通过构建44 87B多模态语料库和共享词表,将蛋白质、小分子等异构对象编码为统一序列,实现跨领域通用,并创新采用文字描述法处理3D空间互作。

科学研究的基本范式正在被大模型悄然重塑。过去数年间,人工智能虽然在多个专业科学领域取得显著进展,却始终面临一个现实困境:绝大多数AI模型都是“专才”,每更换一个分子类型或研究环节,就必须重新训练一套专用系统。这种各自为战的分散格局,如今终于迎来了一个潜在的颠覆者。

阿里 ATH-Token Foundry 与中国人民大学高瓴人工智能学院联合开发的 LOGOS——全称 Language Of Generative Objects in Science,正是针对这一痛点应运而生。这款被定义为“基于统一科学语法”的多领域基础模型,现已正式开源。在六大代表性科学任务上,LOGOS 凭借纯序列建模范式,以一致性的表现匹配甚至超越了各领域的专用方法。


LOGOS 在六大任务中展现出令人惊讶的通才能力。这种“惊讶”主要源于其极低的参数量——仅 1B 参数的模型,就在多项任务上超越了拥有 8×7B 参数的微软 NatureLM。换言之,LOGOS 参数量仅为后者的 1/56,而性能却不相上下甚至更优。这种极高的参数效率,才是真正值得关注的硬指标。

那么,LOGOS 是如何实现这一突破的?

首先,在训练阶段,LOGOS 构建了一个庞大的多模态语料库,总计包含 44.87B token,涵盖7类模态:蛋白质(28.9B token)、抗体(3.0B token)、小分子(2.1B token)、化学反应与 MOF 材料(0.47B token)、蛋白质口袋(5.8B token)以及蛋白口袋-配体复合物(4.6B token)。这意味着模型在预训练过程中同时“阅读”了生物学、化学和材料科学三大领域的核心语言。


然而,数据量大仅是其中一个方面。最关键的设计在于,LOGOS 建立了一套共享词表——将蛋白质序列、小分子 SMILES 结构、材料晶体参数等原本互不兼容的异构对象,全部转化为统一的离散 Token 序列。这种方案的核心优势在于,所有科学对象都能在同一个生成空间中,通过大模型以自回归方式进行理解和生成。从本质上讲,它们不再使用各自领域的“行话”,而是采用同一种“科学语法”。

更精妙的是对3D空间相互作用的处理。传统方法需要模型理解蛋白质与小分子的结合方式,必须依赖显式的3D坐标和复杂的几何神经网络。而 LOGOS 独创了一种“文字描述法”——将3D空间的接触模式直接“语法化”为离散 Token,模型完全无需输入3D坐标。它仅需“阅读文字”(即进行序列预测),就能在内部构建出复杂的3D互作规律。这好比用自然语言描述一幅立体画,不需要具备立体视觉,描述本身就已隐含了空间结构。


传统科学AI存在两个难以回避的障碍:一是“专病专药”——从结构预测切换到分子生成等不同研究环节,必须更换模型和假设;二是“学用脱节”——预训练目标与实际应用之间存在巨大鸿沟,模型落地时往往需要大量微调。LOGOS 的科学语法设计恰好同时攻克了这两大难题。

在形式上,预训练数据采用的序列形式与下游任务的输入输出形式完全一致;在目标上,预训练阶段的 next-token prediction 任务与下游的条件生成任务实现了完全对齐。这种 form-objective alignment 意味着,模型在预训练过程中所学到的知识可以直接应用于下游任务,两者之间的差距几乎被消除,复杂的适配层或大量微调因此变得不再必要。

统一语法带来的另一个深层优势是知识共享。举一个直观的例子:当模型看到蛋白质的“方言”(例如某个氨基酸口袋序列)时,可以直接“翻译”出对应小分子的“方言”(即 SMILES 结构)。这证明模型并非机械地对比表面特征,而是在底层真正学会了两类科学对象之间的对应关系。它掌握了“翻译”能力,而不仅仅是死记硬背。

目前,LOGOS 的模型权重、推理代码以及技术报告已全部开源,可通过 HuggingFace、GitHub 或 arXiv 论文获取完整资料。如果你正在思考如何将大模型科学化落地,这个开源项目非常值得深入研究。

来源:https://www.163.com/dy/article/KVN5B34K0511B8LM.html
上一篇快舟十一号遥十三运载火箭发射圆满成功 下一篇特朗普强调半导体产业应回归美国本土
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
年国家能源局充换电服务业用电量增速48.8%
科技数码 · 2026-06-29

年国家能源局充换电服务业用电量增速48.8%

2025年全社会用电量达103682亿千瓦时,同比增长5 0%。充换电服务业用电增速高达48 8%,信息传输与软件服务业增速17 0%。第三产业和居民用电对增长贡献率合计占一半。中国成为全球首个年度用电量超10 4万亿千瓦时的国家。

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元
科技数码 · 2026-06-29

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元

追风者冰川360S25液冷散热器售价429元,三联一体风扇便捷安装,冷头小体积纯铜底座噪音18dB,风扇转速300-2000RPM、风量75CFM、静压2 96mmAq,五年质保漏液包赔。

三星Galaxy Watch8用户反馈谷歌后台组件异常
科技数码 · 2026-06-29

三星Galaxy Watch8用户反馈谷歌后台组件异常

三星GalaxyWatch8、Watch5Pro、Watch6及Watch7用户反映,GooglePlayServices后台耗电异常,电量占比最高达99 97%,远超正常水平,严重影响续航。目前故障原因不明,谷歌尚未发布官方声明。

罗永浩批苹果iOS 27创新不足 盼新CEO改进
科技数码 · 2026-06-29

罗永浩批苹果iOS 27创新不足 盼新CEO改进

罗永浩批评苹果iOS27创新不足,称仅有双iPhone同号、音量分离等数十项细节改进,认为库克时代缺乏突破性创新,股市虽好但消费者只能被迫接受挤牙膏式升级。

年国产车出口710万辆,两家车企销量破百万
科技数码 · 2026-06-29

年国产车出口710万辆,两家车企销量破百万

2025年国产汽车出口总量达710万辆,同比增长21%。奇瑞以134万辆居首,比亚迪105万辆次之,上汽乘用车出口占比60%最高,长城出口51万辆。吉利、长安等主流品牌同步增长,小鹏、零跑等新兴品牌海外拓展加速。