LeCun与清华联手解读:世界模型是否需要做减法?

机器之心编辑部
近期,围绕「世界模型」这一方向,有两项工作受到较多关注。
一篇是来自 Yann LeCun 团队的LeWorldModel,尝试以更简洁的 JEPA 实现从像素端到端训练的世界模型,在降低训练复杂度的同时,验证了潜在空间中对物理结构的刻画能力。

另一篇是清华大学团队的Fast-WAM,则从应用角度出发,重新审视当前主流 World Action Model(WAM)的设计范式,探讨「是否真的需要在推理阶段显式生成未来」这一关键问题,并给出了一种更高效的替代路径。

两项工作分别从「如何更简洁地学习世界」与「是否需要在推理中反复想象世界」两个维度,对当前世界模型的主流思路进行了补充与修正,也为理解这一方向的技术演进提供了不同切入点。
谢赛宁也建议将这两篇论文结合起来阅读。

让我们一起看看这两项工作的具体内容。
世界模型在「做减法」:
从复杂系统到最小闭环

论文标题:LeWorldModel: Stable End-to-End JEPA from Pixels论文地址:https://le-wm.github.io/项目地址:https://arxiv.org/pdf/2603.19312v1
联合嵌入预测架构(JEPA)为在紧凑的潜在空间中学习世界模型提供了一种颇具吸引力的框架。然而,现有方法仍然较为脆弱,往往依赖复杂的多项损失函数、指数滑动平均(EMA)、预训练编码器或额外的辅助监督,才能避免表征坍塌。
在本工作中,研究团队提出了 LeWorldModel(LeWM),这是首个能够从原始像素端到端稳定训练的 JEPA 模型,仅使用两个损失项:下一步嵌入预测损失,以及用于约束潜在嵌入服从高斯分布的正则项。相比目前唯一的端到端替代方案,该方法将可调的损失超参数数量从六个减少到一个。

LeWM 仅约 1500 万参数,可在单张 GPU 上数小时内完成训练;在规划速度上,相比基于基础模型的世界模型最高可提升约 48 倍,同时在多样的 2D 与 3D 控制任务中仍保持具有竞争力的表现。除了控制任务之外,我们还通过对物理量的探测实验表明,LeWM 的潜在空间能够编码有意义的物理结构。进一步的「惊讶度」评估显示,该模型能够可靠地检测出物理上不合理的事件。

方法
这篇论文的方法可以概括为一个在潜在空间中完成建模与决策的端到端世界模型框架。
具体而言,LeWM 由两个模块组成:视觉编码器和动力学预测器。编码器将原始像素观测映射为低维潜在表示;预测器则基于当前表示和动作,预测下一时刻的潜在状态,从而刻画环境的演化过程。整个模型从原始像素出发联合训练,不依赖预训练特征或额外组件。
训练采用离线、无奖励的设置,仅使用观测序列与动作。目标函数包括两部分:一是相邻时间步之间的嵌入预测损失,用于学习可预测的表示;二是分布正则项,通过约束潜在表示在随机方向上的投影接近高斯分布,避免表征坍塌。这一设计在不引入额外稳定技巧的情况下,实现了端到端训练。
在获得潜在动态模型后,决策阶段直接在潜在空间中进行。给定当前观测和目标观测,模型将其编码为潜在表示,并通过预测器对候选动作序列进行前向展开(rollout),选择最终状态最接近目标的序列(通过交叉熵方法优化)。实际执行中采用模型预测控制(MPC),每次仅执行部分动作,再基于新观测重新规划,以减少误差累积。

整体来看,LeWM 将表示学习、动态建模与规划统一在同一潜在空间中,形成从像素输入到动作输出的闭环过程。
还需要「想象未来」吗:
WAM 范式的再审视

论文标题:Fast-WAM: Do World Action Models Need Test-time Future Imagination?论文地址:https://yuantianyuan01.github.io/FastWAM/项目地址:https://arxiv.org/abs/2603.16666
世界动作模型(World Action Models, WAMs)因能够显式建模视觉观测在动作作用下的演化过程,被认为是具身控制中替代 VLA 模型的一种有前景的方案。
现有大多数 WAM 采用「先想象、再执行」的范式,但由于需要进行迭代式的视频去噪,这在测试阶段会带来较高的延迟。同时,一个关键问题仍未被回答:显式的未来想象,是否真的是实现强动作性能所必需的?
相关攻略
机器之心编辑部近期,围绕「世界模型」这一方向,有两项工作受到较多关注。一篇是来自 Yann LeCun 团队的LeWorldModel,尝试以更简洁的 JEPA 实现从像素端到端训练的世界模型,在降
AI 终于会心算了,这不是它在偷懒,而是科学家发现了一种新的推理范式。在过去几年里,大模型的推理几乎都依赖思维链(CoT,Chain-of-Thought):模型需要把推理一步步写出来,再给出最终答
这项由人民大学高岭人工智能学院与阿里巴巴通义实验室联合完成的研究于2026年3月发表在arXiv预印本平台,论文编号为arXiv:2603 01425v1,为AI搜索领域带来了革命性突破。想要深入了
圣塔克拉拉大学、沃尔玛全球技术公司等机构的研究团队于2026年2月18日发表了一项突破性研究,论文编号为arXiv:2602 16932v1,展示了如何让大语言模型像生物育种师一样,自动培育出更强大
这项由伊利诺伊大学芝加哥分校计算机科学系团队主导的创新研究,于2026年2月发表在arXiv预印本平台上,论文编号为arXiv:2602 10229v1。研究团队在人工智能推理领域取得了重要突破,开
热门专题
热门推荐
在《燕云十六声》的天工地窟中,“身如飞燕”宝箱的获取是一场对玩家综合探索能力的深度考验。想要成功开启它,不仅需要耐心与观察力,更需掌握系统性的探索策略。 掌握地窟地形与核心布局 进入天工地窟后,首要任务是进行全方位的地形勘察。建议玩家先熟悉主要通道、分支岔路以及所有可能被忽略的角落,建立完整的地图认
装修这件事,说多了都是泪。找施工队像开盲盒,预算表永远在“动态调整”,设计图看得眼花缭乱……投入大量时间和精力,最后的效果可能还是差强人意。说到底,信息不对称和过程不透明,是大多数装修烦恼的根源。 好在,如今有不少专业的数字化工具,能帮我们把控关键环节。今天就来聊聊五款定位清晰、实用性强的装修类应用
在《燕云十六声》的宏大江湖中,“不见山洞”无疑是一处引人入胜的秘境。这里不仅栖息着珍奇异兽、埋藏着稀世珍宝,更交织着无数待玩家发掘的隐秘故事与特殊事件。若想彻底揭开此地的所有秘密,掌握以下探索技巧至关重要。 进入不见山洞后,首要任务是保持专注,对环境进行细致勘察。洞内的景象暗藏玄机,绝非一目了然。一
在《骷髅传奇》中,神盾系统是决定角色战力的核心模块,远非一件普通装备可比。它更像是一位能够深度定制、伴随你征战四方的忠实伙伴。本文将为你全面解析神盾系统的获取、培养与实战运用,助你将其从基础配置打造为真正的战力引擎,在游戏中脱颖而出。 获取你的第一面神盾是旅程的起点。游戏内提供了多样化的获取途径:完
天成孙悟空这款限定皮肤,以其独特的视觉设计在战场上脱颖而出。它将中国古典神话中齐天大圣的经典形象,与游戏内的现代美学风格进行了深度结合。标志性的金色毛发、可化为武器的金箍棒特效,以及服饰上精致的云纹与神话元素,共同塑造了一个极具战场辨识度的英雄形象。这种高辨识度本身,在战术层面就具有独特价值——它能





