
智源研究院理事长黄铁军
核心导读
今年2月,北京智源研究院的论文《基于下一词元预测的多模态学习方法在大规模多模态模型中的应用》在《自然》杂志正式发表。这是继DeepSeek登上封面之后,第二个中国大模型团队的研究成果亮相《自然》正刊,同时也是国内科研机构首次在该期刊发表论文。
撰文|张天祁
当前多模态模型主要依赖各自独立的处理路径,文本、视频与图像的处理方式各不相同。是否存在能够统一多模态的通用技术路线,这一直是学界悬而未决的问题。智源研究院在《自然》发表的这项研究,基于其多模态模型Emu3证实:仅需采用自回归路线,就像大模型处理文本那样,通过预测序列中的下一个词元来理解和生成数据,就能实现多模态学习的逻辑统一。
Emu3在感知和生成任务上均达到了成熟专用模型的性能水平,与主流旗舰系统的表现相当。更重要的是,在同一套统一架构下,该模型展现出极强的通用性,能够自然地扩展到机器人操作以及多模态交互内容生成等任务。
