智源多模态大模型成果登《自然》,科研突破详解
据《北京商报》记者陶凤、王天怡报道,1月28日,由智源研究院主导的一项多模态大模型研究成果——“通过预测下一个词元进行多模态学习的多模态大模型”正式上线国际顶级学术期刊《自然》,预计将于2月12日刊发纸质版。
资料显示,这是我国科研机构主导的大模型成果首次登陆《自然》正刊。
该研究推出的Emu模型,其核心突破在于仅采用“预测下一个词元”的自回归路线,将文本、图像、视频统一到同一表示空间,通过单一Transformer架构实现多模态数据的联合训练,无需依赖对比学习、扩散模型等专用路线。实验表明,其在文生图、视觉语言理解、视频生成等任务上的性能,可与各类成熟的任务专用模型相媲美,还能拓展至图文交错生成、机器人操作建模等场景。
《自然》编辑点评指出,该成果证明了自回归路线在多模态领域的通用性,对构建可扩展、统一的多模态智能系统具有重要意义。后续迭代的Emu版本进一步实现了“预测下一个状态”的能力跃迁,获得了可泛化的世界建模能力。
据悉,Emu系列模型自2024年启动研发,历经多次迭代,智源团队已开源视觉分词器等关键技术,并通过大规模实验揭示了多模态自回归模型的训练特性。此次成果不仅确立了自回归作为生成式人工智能统一路线的重要地位,也为原生多模态助手、具身智能等领域的发展奠定了基础。
相关攻略
3月27日,“人形机器人AI软硬件生态融合工作组工作推进会暨首届具身智脑技术生态大会”上海大零号湾科创大厦举行。作为本次大会的核心亮点,灵境智源集中发布四项自主研发的具身智脑核心技术成果,覆
位于剑川路930号的4层小楼里入驻的是上海人工智能研究院,记者每次走访它都会有惊喜。两年前,他们孵化的一家机器人企业一年被资本“追投”7轮,如今他们又培养出两家在具身智能赛道熠熠闪光的明星企业——灵
北京商报讯(记者 陶凤 王天逸)2月11日,曦望Sunrise宣布,近期完成了与北京智源人工智能研究院众智 FlagOS 体系中 FlagTree 统一编译器及 FlagGems 算子库的适配与优化
来源:光明日报【瞧!我们的前沿科技】本报北京2月9日电(记者晋浩天)你也许用过智能助手聊天,也见过人工智能(AI)生成精美图像,看过机器人跳舞……但你是否想过,驱动“聊天”“画画”“运动”的,究竟是
本报讯(记者雷嘉)近日,北京智源人工智能研究院的多模态大模型成果“通过预测下一个词元进行多模态学习的多模态大模型”上线国际顶级学术期刊《自然》,预计2月12日纸质版正式刊发,这是我国科研机构主导的大
热门专题
热门推荐
在《燕云十六声》中领悟“菩提苦海”,需沉浸探索游戏世界。主线剧情构建认知框架,战斗观察、场景细节与NPC对话皆暗藏线索。通过多元视角拼凑因果,方能深入理解游戏蕴含的宏大叙事与深邃魅力。
2026年618大促的序幕刚刚拉开,初期战报已经透露出一些耐人寻味的信号。截至5月21日,海信电视在京东平板电视累计销售竞速榜上拔得头筹,其RGB-Mini LED爆款王——海信小墨E5S Pro,更是同时拿下了天猫平板电视和抖音大家电的5 20单品销冠。 这并非偶然。奥维云网的全渠道监测数据给出了
充电桩领域的“军备竞赛”再次迎来重磅升级。5月22日,极氪汽车正式发布了其全新一代液冷超级充电桩,将单枪峰值功率一举提升至行业领先的800kW,标志着超充技术迈入新阶段。 根据官方披露的核心信息,这款超充桩主要具备四大优势:极速补能、高效节能、广泛适配与多重安全。具体而言,其单枪峰值电流高达800A
获取电弧机剑主要有五种途径:推进主线任务以解锁线索;探索遗迹、工厂等特定区域;挑战特定副本与Boss;完成提及传说武器或遗物的支线任务;参与限时活动并达成要求。玩家可根据偏好选择或组合多种方式获取该武器。
小米汽车再次为潜在车主带来惊喜福利!即日起至5月31日,用户只需提前完成预约,并到店参与任意车型的试驾体验,即可免费获赠一款1:64精致合金车模。车模款式与颜色随机发放,为试驾过程增添一份专属的收藏乐趣,诚意十足。 参与本次活动需注意以下细则:试驾必须通过官方渠道提前预约;各授权门店的车模备货数量不





