首页 游戏 软件 资讯 排行榜 专题
首页
AI
LeCun与清华联手解读:世界模型是否需要做减法?

LeCun与清华联手解读:世界模型是否需要做减法?

热心网友
35
转载
2026-03-26



免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

机器之心编辑部

近期,围绕「世界模型」这一方向,有两项工作受到较多关注。

一篇是来自 Yann LeCun 团队的LeWorldModel,尝试以更简洁的 JEPA 实现从像素端到端训练的世界模型,在降低训练复杂度的同时,验证了潜在空间中对物理结构的刻画能力。



另一篇是清华大学团队的Fast-WAM,则从应用角度出发,重新审视当前主流 World Action Model(WAM)的设计范式,探讨「是否真的需要在推理阶段显式生成未来」这一关键问题,并给出了一种更高效的替代路径。



两项工作分别从「如何更简洁地学习世界」与「是否需要在推理中反复想象世界」两个维度,对当前世界模型的主流思路进行了补充与修正,也为理解这一方向的技术演进提供了不同切入点。

谢赛宁也建议将这两篇论文结合起来阅读。



让我们一起看看这两项工作的具体内容。

世界模型在「做减法」:

从复杂系统到最小闭环



论文标题:LeWorldModel: Stable End-to-End JEPA from Pixels论文地址:https://le-wm.github.io/项目地址:https://arxiv.org/pdf/2603.19312v1

联合嵌入预测架构(JEPA)为在紧凑的潜在空间中学习世界模型提供了一种颇具吸引力的框架。然而,现有方法仍然较为脆弱,往往依赖复杂的多项损失函数、指数滑动平均(EMA)、预训练编码器或额外的辅助监督,才能避免表征坍塌。

在本工作中,研究团队提出了 LeWorldModel(LeWM),这是首个能够从原始像素端到端稳定训练的 JEPA 模型,仅使用两个损失项:下一步嵌入预测损失,以及用于约束潜在嵌入服从高斯分布的正则项。相比目前唯一的端到端替代方案,该方法将可调的损失超参数数量从六个减少到一个。



LeWM 仅约 1500 万参数,可在单张 GPU 上数小时内完成训练;在规划速度上,相比基于基础模型的世界模型最高可提升约 48 倍,同时在多样的 2D 与 3D 控制任务中仍保持具有竞争力的表现。除了控制任务之外,我们还通过对物理量的探测实验表明,LeWM 的潜在空间能够编码有意义的物理结构。进一步的「惊讶度」评估显示,该模型能够可靠地检测出物理上不合理的事件。



方法

这篇论文的方法可以概括为一个在潜在空间中完成建模与决策的端到端世界模型框架。

具体而言,LeWM 由两个模块组成:视觉编码器和动力学预测器。编码器将原始像素观测映射为低维潜在表示;预测器则基于当前表示和动作,预测下一时刻的潜在状态,从而刻画环境的演化过程。整个模型从原始像素出发联合训练,不依赖预训练特征或额外组件。

训练采用离线、无奖励的设置,仅使用观测序列与动作。目标函数包括两部分:一是相邻时间步之间的嵌入预测损失,用于学习可预测的表示;二是分布正则项,通过约束潜在表示在随机方向上的投影接近高斯分布,避免表征坍塌。这一设计在不引入额外稳定技巧的情况下,实现了端到端训练。

在获得潜在动态模型后,决策阶段直接在潜在空间中进行。给定当前观测和目标观测,模型将其编码为潜在表示,并通过预测器对候选动作序列进行前向展开(rollout),选择最终状态最接近目标的序列(通过交叉熵方法优化)。实际执行中采用模型预测控制(MPC),每次仅执行部分动作,再基于新观测重新规划,以减少误差累积。



整体来看,LeWM 将表示学习、动态建模与规划统一在同一潜在空间中,形成从像素输入到动作输出的闭环过程。

还需要「想象未来」吗:

WAM 范式的再审视



论文标题:Fast-WAM: Do World Action Models Need Test-time Future Imagination?论文地址:https://yuantianyuan01.github.io/FastWAM/项目地址:https://arxiv.org/abs/2603.16666

世界动作模型(World Action Models, WAMs)因能够显式建模视觉观测在动作作用下的演化过程,被认为是具身控制中替代 VLA 模型的一种有前景的方案。

现有大多数 WAM 采用「先想象、再执行」的范式,但由于需要进行迭代式的视频去噪,这在测试阶段会带来较高的延迟。同时,一个关键问题仍未被回答:显式的未来想象,是否真的是实现强动作性能所必需的?

来源:https://www.163.com/dy/article/KOQ7A2MR0511AQHO.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

LeCun与清华联手解读:世界模型是否需要做减法?
AI
LeCun与清华联手解读:世界模型是否需要做减法?

机器之心编辑部近期,围绕「世界模型」这一方向,有两项工作受到较多关注。一篇是来自 Yann LeCun 团队的LeWorldModel,尝试以更简洁的 JEPA 实现从像素端到端训练的世界模型,在降

热心网友
03.26
科学家发现隐空间推理范式:AI无需思考过程,推理速度提升30倍
科技数码
科学家发现隐空间推理范式:AI无需思考过程,推理速度提升30倍

AI 终于会心算了,这不是它在偷懒,而是科学家发现了一种新的推理范式。在过去几年里,大模型的推理几乎都依赖思维链(CoT,Chain-of-Thought):模型需要把推理一步步写出来,再给出最终答

热心网友
03.15
人大团队首创AI“沉默推理”技术助力搜索引擎学会思考
科技数码
人大团队首创AI“沉默推理”技术助力搜索引擎学会思考

这项由人民大学高岭人工智能学院与阿里巴巴通义实验室联合完成的研究于2026年3月发表在arXiv预印本平台,论文编号为arXiv:2603 01425v1,为AI搜索领域带来了革命性突破。想要深入了

热心网友
03.04
圣塔克拉拉大学:AI如何自动发现信息检索新算法
科技数码
圣塔克拉拉大学:AI如何自动发现信息检索新算法

圣塔克拉拉大学、沃尔玛全球技术公司等机构的研究团队于2026年2月18日发表了一项突破性研究,论文编号为arXiv:2602 16932v1,展示了如何让大语言模型像生物育种师一样,自动培育出更强大

热心网友
02.28
芝加哥大学研究:AI学会“心里默念”式类人推理
科技数码
芝加哥大学研究:AI学会“心里默念”式类人推理

这项由伊利诺伊大学芝加哥分校计算机科学系团队主导的创新研究,于2026年2月发表在arXiv预印本平台上,论文编号为arXiv:2602 10229v1。研究团队在人工智能推理领域取得了重要突破,开

热心网友
02.13

最新APP

暗黑之地
暗黑之地
角色扮演 03-28
你比我猜
你比我猜
休闲益智 03-26
锦绣商铺
锦绣商铺
模拟经营 03-26
儿童画画
儿童画画
休闲益智 03-25
疯狂猜词
疯狂猜词
休闲益智 03-25

热门推荐

揭秘中国联通:九成宽带已支持千兆,百大城市试点领先部署
网络安全
揭秘中国联通:九成宽带已支持千兆,百大城市试点领先部署

3月28日消息,中国联通近日发布2025年度业绩报告,在网络建设领域交出亮眼答卷。中国联通表示,公司持续落实信号升格、宽带升级相关举措,目前近九成宽带已具备千兆接入能力,万兆光网更在全国100多个城

热心网友
03.28
163邮箱登录指南:个人版与手机网页版入口详解
电脑教程
163邮箱登录指南:个人版与手机网页版入口详解

163邮箱个人版登录入口为https: mail 163 com,支持网页及手机浏览器直接访问,提供手机号、邮箱账号、扫码三种登录方式,界面简洁,功能齐全,适配多终端使用。163

热心网友
03.28
冒险岛:3步设置游戏键盘,社区玩家必备指南
手机教程
冒险岛:3步设置游戏键盘,社区玩家必备指南

在冒泡社区中,设置键盘能为用户带来更便捷、舒适的操作体验。以下是详细的设置方法。首先,打开冒泡社区应用程序。进入社区主界面后,找到屏幕上的设置选项。这通常可以在界面的某个角落,以一

热心网友
03.28
崩铁谎言终幕效果解析:星穹铁道光锥特效全览
游戏攻略
崩铁谎言终幕效果解析:星穹铁道光锥特效全览

一场谎言的终幕是崩坏星穹铁道中4 1版本的新光锥之一,其属性可以提高装备的暴击率,下面小编就为大家带来《崩坏:星穹铁道》一场谎言的终幕光锥效果一览,不清楚的一起来看看吧。《崩坏:星

热心网友
03.28
《白夜提灯》开播槽点全解析:男女主无CP感,演技能否逆转口碑?
娱乐
《白夜提灯》开播槽点全解析:男女主无CP感,演技能否逆转口碑?

2026年3月28日中午12时整,由腾讯视频全网独播的古装奇幻剧《白日提灯》准时上线。该剧开播前预约人数高达674万人次,被平台力推为“年度古偶扛鼎之作”,然而仅播出六小时后,口碑便急速崩塌,引发全

热心网友
03.28