LeCun与清华联手解读:世界模型是否需要做减法?

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
机器之心编辑部
近期,围绕「世界模型」这一方向,有两项工作受到较多关注。
一篇是来自 Yann LeCun 团队的LeWorldModel,尝试以更简洁的 JEPA 实现从像素端到端训练的世界模型,在降低训练复杂度的同时,验证了潜在空间中对物理结构的刻画能力。

另一篇是清华大学团队的Fast-WAM,则从应用角度出发,重新审视当前主流 World Action Model(WAM)的设计范式,探讨「是否真的需要在推理阶段显式生成未来」这一关键问题,并给出了一种更高效的替代路径。

两项工作分别从「如何更简洁地学习世界」与「是否需要在推理中反复想象世界」两个维度,对当前世界模型的主流思路进行了补充与修正,也为理解这一方向的技术演进提供了不同切入点。
谢赛宁也建议将这两篇论文结合起来阅读。

让我们一起看看这两项工作的具体内容。
世界模型在「做减法」:
从复杂系统到最小闭环

论文标题:LeWorldModel: Stable End-to-End JEPA from Pixels论文地址:https://le-wm.github.io/项目地址:https://arxiv.org/pdf/2603.19312v1
联合嵌入预测架构(JEPA)为在紧凑的潜在空间中学习世界模型提供了一种颇具吸引力的框架。然而,现有方法仍然较为脆弱,往往依赖复杂的多项损失函数、指数滑动平均(EMA)、预训练编码器或额外的辅助监督,才能避免表征坍塌。
在本工作中,研究团队提出了 LeWorldModel(LeWM),这是首个能够从原始像素端到端稳定训练的 JEPA 模型,仅使用两个损失项:下一步嵌入预测损失,以及用于约束潜在嵌入服从高斯分布的正则项。相比目前唯一的端到端替代方案,该方法将可调的损失超参数数量从六个减少到一个。

LeWM 仅约 1500 万参数,可在单张 GPU 上数小时内完成训练;在规划速度上,相比基于基础模型的世界模型最高可提升约 48 倍,同时在多样的 2D 与 3D 控制任务中仍保持具有竞争力的表现。除了控制任务之外,我们还通过对物理量的探测实验表明,LeWM 的潜在空间能够编码有意义的物理结构。进一步的「惊讶度」评估显示,该模型能够可靠地检测出物理上不合理的事件。

方法
这篇论文的方法可以概括为一个在潜在空间中完成建模与决策的端到端世界模型框架。
具体而言,LeWM 由两个模块组成:视觉编码器和动力学预测器。编码器将原始像素观测映射为低维潜在表示;预测器则基于当前表示和动作,预测下一时刻的潜在状态,从而刻画环境的演化过程。整个模型从原始像素出发联合训练,不依赖预训练特征或额外组件。
训练采用离线、无奖励的设置,仅使用观测序列与动作。目标函数包括两部分:一是相邻时间步之间的嵌入预测损失,用于学习可预测的表示;二是分布正则项,通过约束潜在表示在随机方向上的投影接近高斯分布,避免表征坍塌。这一设计在不引入额外稳定技巧的情况下,实现了端到端训练。
在获得潜在动态模型后,决策阶段直接在潜在空间中进行。给定当前观测和目标观测,模型将其编码为潜在表示,并通过预测器对候选动作序列进行前向展开(rollout),选择最终状态最接近目标的序列(通过交叉熵方法优化)。实际执行中采用模型预测控制(MPC),每次仅执行部分动作,再基于新观测重新规划,以减少误差累积。

整体来看,LeWM 将表示学习、动态建模与规划统一在同一潜在空间中,形成从像素输入到动作输出的闭环过程。
还需要「想象未来」吗:
WAM 范式的再审视

论文标题:Fast-WAM: Do World Action Models Need Test-time Future Imagination?论文地址:https://yuantianyuan01.github.io/FastWAM/项目地址:https://arxiv.org/abs/2603.16666
世界动作模型(World Action Models, WAMs)因能够显式建模视觉观测在动作作用下的演化过程,被认为是具身控制中替代 VLA 模型的一种有前景的方案。
现有大多数 WAM 采用「先想象、再执行」的范式,但由于需要进行迭代式的视频去噪,这在测试阶段会带来较高的延迟。同时,一个关键问题仍未被回答:显式的未来想象,是否真的是实现强动作性能所必需的?
相关攻略
机器之心编辑部近期,围绕「世界模型」这一方向,有两项工作受到较多关注。一篇是来自 Yann LeCun 团队的LeWorldModel,尝试以更简洁的 JEPA 实现从像素端到端训练的世界模型,在降
AI 终于会心算了,这不是它在偷懒,而是科学家发现了一种新的推理范式。在过去几年里,大模型的推理几乎都依赖思维链(CoT,Chain-of-Thought):模型需要把推理一步步写出来,再给出最终答
这项由人民大学高岭人工智能学院与阿里巴巴通义实验室联合完成的研究于2026年3月发表在arXiv预印本平台,论文编号为arXiv:2603 01425v1,为AI搜索领域带来了革命性突破。想要深入了
圣塔克拉拉大学、沃尔玛全球技术公司等机构的研究团队于2026年2月18日发表了一项突破性研究,论文编号为arXiv:2602 16932v1,展示了如何让大语言模型像生物育种师一样,自动培育出更强大
这项由伊利诺伊大学芝加哥分校计算机科学系团队主导的创新研究,于2026年2月发表在arXiv预印本平台上,论文编号为arXiv:2602 10229v1。研究团队在人工智能推理领域取得了重要突破,开
热门专题
热门推荐
3月28日消息,中国联通近日发布2025年度业绩报告,在网络建设领域交出亮眼答卷。中国联通表示,公司持续落实信号升格、宽带升级相关举措,目前近九成宽带已具备千兆接入能力,万兆光网更在全国100多个城
163邮箱个人版登录入口为https: mail 163 com,支持网页及手机浏览器直接访问,提供手机号、邮箱账号、扫码三种登录方式,界面简洁,功能齐全,适配多终端使用。163
在冒泡社区中,设置键盘能为用户带来更便捷、舒适的操作体验。以下是详细的设置方法。首先,打开冒泡社区应用程序。进入社区主界面后,找到屏幕上的设置选项。这通常可以在界面的某个角落,以一
一场谎言的终幕是崩坏星穹铁道中4 1版本的新光锥之一,其属性可以提高装备的暴击率,下面小编就为大家带来《崩坏:星穹铁道》一场谎言的终幕光锥效果一览,不清楚的一起来看看吧。《崩坏:星
2026年3月28日中午12时整,由腾讯视频全网独播的古装奇幻剧《白日提灯》准时上线。该剧开播前预约人数高达674万人次,被平台力推为“年度古偶扛鼎之作”,然而仅播出六小时后,口碑便急速崩塌,引发全





