首页 游戏 软件 资讯 排行榜 专题
首页
AI
智源EMU3.5突破多模态瓶颈:开启AI新纪元与第三类Scaling路径

智源EMU3.5突破多模态瓶颈:开启AI新纪元与第三类Scaling路径

热心网友
87
转载
2025-11-01

人工智能领域迎来重大突破,智源研究院近日正式推出"悟界+EMU3.5"多模态世界大模型。这一成果被视为行业迈向新阶段的关键标志。尤其在大语言模型文本能力发展趋缓、寻求新突破的背景下,多模态技术成为备受瞩目的发展方向。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

多模态技术发展面临的核心难题,是如何有效融合文本、图像、视频等不同类型的数据。目前行业内存在两条主要技术路径:其一是DiT架构,在文生图、文生视频等生成任务中表现优异;另一条是以智源Emu系列为代表的"原生多模态"架构,试图从基础层构建统一处理所有模态的模型。

EMU3.5的发布被视为开启人工智能从"语言学习"向"多模态世界学习"转变的新纪元。该模型在技术路径上延续了Emu系列的原生多模态理念,采用统一的自回归架构,将文本、图像、视频等数据统一转化为Token进行预测。这种设计在理论上实现了模态统一,但过去面临推理效率低下的问题——生成图像时需要逐个Token输出,速度远慢于并行生成的Diffusion模型。

为解决这一瓶颈,研发团队提出"DiDA(离散扩散自适应)"技术。这项创新允许自回归模型在推理阶段并行预测大规模Token,显著提升生成效率。据测试,在保持性能不变的前提下,图像生成速度提升近20倍,首次使自回归架构达到与顶尖闭源扩散模型相当的水平。这一突破为原生多模态路线的实际应用扫清了关键障碍。

效率问题解决后,规模化发展成为可能。EMU3.5通过大幅增加模型参数和训练数据,验证了多模态领域的"规模定律":参数规模从80亿跃升至340亿,训练视频数据时长从15年增至790年。基于这一实践,研发团队提出"第三种Scaling范式",其核心优势包括:统一的自回归架构为规模化提供基础;可复用现有语言模型训练基础设施;首次在多模态领域引入大规模强化学习技术。

该模型的技术升级不仅体现在规模扩张,更在于核心范式的转变——从"预测下一个Token"升级为"预测下一个状态"。这一转变要求模型理解事物背后的因果关系和物理规律,而非简单续写数据。例如,当输入"叠衣服"指令时,模型能生成包含完整步骤的机器人操作序列;在图案推理任务中,模型需先理解规律才能生成正确结果;面对建筑正面图转换俯视图的需求,模型需要构建三维空间关系模型。

这种"预测状态"的能力为具身智能发展提供了新路径。当前机器人训练面临真实数据匮乏的困境,而EMU3.5可通过模拟物理世界生成高质量训练数据。测试显示,在未见过的新场景中,搭载该模型的机器人任务成功率从0%提升至70%,表明其具备理解、规划和泛化的核心智能,可担当具身智能的"大脑"角色。

来源:https://www.itbear.com.cn/html/2025-11/1005723.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

PromptLayer
AI
PromptLayer

PromptLayer是什么 如果说构建AI应用是一场精巧的协作工程,那么Prompt(提示词)往往是其中最关键的“暗物质”。它决定了模型输出的质量,却常常散落在代码的各个角落,难以管理。PromptLayer的出现,就是专门为了解决这个痛点而生。它是一款专为Prompt工程设计的AI工具,核心目标

热心网友
04.24
Automix AI
AI
Automix AI

Automix AI是什么 在当下的就业市场,一份出色的简历和从容的面试表现,几乎成了每个求职者的“硬通货”。而这就引出了我们今天的主角——Automix AI。简单来说,这是一款由Automix团队精心打造的AI智能工具,它的核心使命就是帮助求职者打磨简历、锤炼面试技巧,从而在激烈竞争中脱颖而出。

热心网友
04.24
ProMind AI
AI
ProMind AI

ProMind AI是什么 在众多AI工具中,有一款产品正悄然成为专业工作者的得力搭档——它就是ProMind AI。简单来说,这是一款专为“效率”而生的AI助手,目标直指需要应对高复杂度任务的专业人群,比如内容创作者、营销人、工程师和产品经理。它的核心使命很明确:帮你把想法快速落地,无论是生成一段

热心网友
04.24
伊朗副总统称将严厉回击对伊朗能源设施的袭击
web3.0
伊朗副总统称将严厉回击对伊朗能源设施的袭击

伊朗副总统警告:任何对伊能源设施的袭击将招致严厉升级回击 4月24日,伊朗方面释放了明确且强硬的信号。副总统伊斯梅尔·萨加布·伊斯法哈尼公开表示,伊朗已准备好严厉回击任何针对其能源设施的袭击。这番话,无疑给当前紧张的地区局势又增添了一层清晰的注脚。 在伊朗埃斯拉姆沙赫尔举行的一次集会上,伊斯法哈尼的

热心网友
04.24
WriteCap
AI
WriteCap

WriteCap是什么 如果创作社交媒体内容时,你曾为想一句点睛的配文而绞尽脑汁,那么你对WriteCap的出现可能就不会感到陌生。简单来说,这是一款专门为解此困境而生的AI工具。它背后的开发团队,瞄准的正是社交媒体内容创作者、品牌营销人员乃至普通用户的日常痛点——如何让每一段分享都更抓人眼球。它的

热心网友
04.24