专访智源理事长黄铁军：通往AGI之路的关键突破

智源研究院理事长黄铁军导读今年2月，由北京智源研究院的论文 "Multimodal learning with next-token prediction for large multimodal m

智源研究院理事长黄铁军

核心导读
今年2月，北京智源研究院的论文《基于下一词元预测的多模态学习方法在大规模多模态模型中的应用》在《自然》杂志正式发表。这是继DeepSeek登上封面之后，第二个中国大模型团队的研究成果亮相《自然》正刊，同时也是国内科研机构首次在该期刊发表论文。

撰文｜张天祁

当前多模态模型主要依赖各自独立的处理路径，文本、视频与图像的处理方式各不相同。是否存在能够统一多模态的通用技术路线，这一直是学界悬而未决的问题。智源研究院在《自然》发表的这项研究，基于其多模态模型Emu3证实：仅需采用自回归路线，就像大模型处理文本那样，通过预测序列中的下一个词元来理解和生成数据，就能实现多模态学习的逻辑统一。

Emu3在感知和生成任务上均达到了成熟专用模型的性能水平，与主流旗舰系统的表现相当。更重要的是，在同一套统一架构下，该模型展现出极强的通用性，能够自然地扩展到机器人操作以及多模态交互内容生成等任务。

专访智源理事长黄铁军：通往AGI之路的关键突破

相关推荐

同类最新

年国家能源局充换电服务业用电量增速48.8%

追风者 GLACIER ONE 360 S25 液冷散热器新品上市联体风扇售价429元

三星Galaxy Watch8用户反馈谷歌后台组件异常

罗永浩批苹果iOS 27创新不足盼新CEO改进

年国产车出口710万辆，两家车企销量破百万

专访智源理事长黄铁军：通往AGI之路的关键突破

相关推荐

同类最新

年国家能源局充换电服务业用电量增速48.8%

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元

三星Galaxy Watch8用户反馈谷歌后台组件异常

罗永浩批苹果iOS 27创新不足 盼新CEO改进

年国产车出口710万辆，两家车企销量破百万

追风者 GLACIER ONE 360 S25 液冷散热器新品上市联体风扇售价429元

罗永浩批苹果iOS 27创新不足盼新CEO改进