Meta首席科学家LeCun发文:详述JEPA物理规划的全面指南

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
编辑|Panda
长期以来,AI 领域一直怀揣着一个宏大的梦想:创造出能够像人类一样直观理解物理世界,并在从未见过的任务和环境中游刃有余的智能体。
传统的强化学习方法往往比较笨拙,需要通过无数次的试错和海量的样本才能学到一点皮毛,这在奖励信号稀疏的现实环境中简直是灾难。
为了打破这一僵局,研究者们提出了「世界模型」这一概念,即让智能体在脑海中构建一个物理模拟器,通过预测未来状态来进行演练。
近年来,虽然能够生成精美像素画面的生成式模型层出不穷,但对于物理规划而言,沉溺于无关紧要的细节(如背景烟雾的流动)往往是低效的。真正的挑战在于,如何在错综复杂的原始视觉输入中提取抽象精髓。
这便引出了本研究的主角:JEPA-WM(联合嵌入预测世界模型)
从名字也能看出来,这个模型与 Yann LeCun 的JEPA(联合嵌入预测架构)紧密相关。事实上也确实如此,并且 Yann LeCun 本人也是该论文的作者之一。更有意思的是,在这篇论文中,Yann LeCun 的所属机构为 Meta FAIR。不知道这是不是他在 Meta 的最后一篇论文?

论文标题:What Drives Success in Physical Planning with Joint-Embedding Predictive World Models?论文地址:https://arxiv.org/abs/2512.24497
JEPA-WM 继承了 JEPA 的衣钵,不再纠结于像素级的重建,而是在高度抽象的表征空间内进行预判。在这项研究中,团队试图通过对架构、目标函数和规划算法的全方位扫描,揭示究竟是什么驱动了物理规划的成功,并试图为机器人装上一个更理性的「大脑」。
JEPA-WM 核心方法
该团队将 JEPA-WM 的训练与规划流程形式化为一套统一的「终极指南」,重点在于如何在学习到的特征空间中模拟动力学。
1. 层次化的编码与预测架构

在训练阶段,模型主要由四部分交织而成:

2. 多步展开与动作调节细节

在训练时,模型不仅要预测下一帧,还要学会在没有真实观测反馈的情况下,基于自己的预测结果递归生成后续状态。为了提高效率,采用了截断反向传播(TBPTT),即只针对最后一步的预测误差计算梯度,而切断之前的累积梯度。
在动作信息如何干预预测过程上,该团队对比了三种关键方案:
特征调节(Feature Conditioning):将动作向量直接拼接到每一个视觉特征向量上,增加了预测器的隐藏层维度。序列调节(Sequence Conditioning):将动作作为一个独立的 Token 插入到 ViT 的输入序列中,通过注意力机制进行信息分发。自适应层归一化(AdaLN):动作嵌入被投影为缩放和偏移参数,在每一个 Transformer 块中动态调制归一化统计量,这能有效防止动作信号在深层网络中「淡出」。
3. 规划逻辑:在嵌入空间中寻找最优解

实验与结果:从模拟器到真实机械臂
研究团队在 Metaworld(42 个操纵任务)、Push-T(物体推送)、PointMaze(导航)以及 DROID(真实机械臂数据集)上进行了评估。
1. 规划器之争:梯度 vs 采样
实验结果揭示了一个有趣的现象:在像 Metaworld 这种成本曲线相对平滑的任务中,基于梯度的 Adam 或 GD 优化器表现惊人,因为它们能顺着梯度迅速找到目标。但在 2D 导航(Wall, Maze)任务中,梯度法极易卡在局部极小值(例如对着墙猛撞而不懂得绕过门口),此时基于采样的交叉熵方法(CEM)凭借其探索能力完胜。

此外,新引入的Nevergrad(NG)规划器在无需调参的情况下展现了与 CEM 相当的实力,尤其适合跨任务迁移。
2. 关键因素的「贡献度」
为了量化不同设计决策对智能体最终表现的影响,研究团队采用了一种严谨的控制变量法。
他们以一个基础配置(DINO-WM 结合 ViT-S 编码器及 6 层预测器)为基准,独立改变每一个核心组件,从而在复杂的系统工程中剥离出真正驱动性能增长的关键因子。通过在 Metaworld、Push-T 等多种异构环境下进行数以万计的幕(Episode)测试,实验揭示了世界模型在处理物理逻辑时的内在偏好。以下是影响物理规划成败的核心贡献因素:
本体感受的显著增益:引入机器人内部状态信息(如关节角度、末端位姿)能够一致性地提高规划成功率。在 Metaworld 任务中,这能有效减少机械臂在目标点附近震荡的情况,提供更精准的距离感知。

编码器架构:DINO 系列编码器(DINOv2/v3)在所有任务中均表现出对 V-JEPA 等视频编码器的明显优势。这归功于 DINO 强大的细粒度目标分割能力,这对于需要精确感知物体位置的操纵和导航任务至关重要。在视觉复杂度更高的真实数据(DROID)中,DINOv3 的优势进一步扩大。
动作调节技术的微妙差异:实验发现 AdaLN(自适应层归一化)调节技术在平均性能上表现最强,且计算效率更高。它通过在 Transformer 的每一层注入动作信息,有效防止了控制信号在深层网络传递过程中的消失,相比传统的特征拼接(ftcond)或序列拼接(seqcond)更具稳健性。

训练上下文长度的权衡:预测器需要至少 2 帧上下文来推断速度信息,这在 W=1 与 W=2 之间的巨大性能鸿沟中得到了印证。然而,盲目增加上下文长度(如 W > 5)反而有害,因为这会减少训练中看到的独特轨迹数量,并可能引入无用的梯度噪声。

模型规模:这是一个令人意外的发现:在简单的模拟环境(如 Maze, Wall)中,增大模型规模(从 ViT-S 到 ViT-L)非但没有帮助,反而可能由于嵌入空间过于复杂而导致规划效率下降。但对于复杂的现实数据(DROID),大容量的编码器和更深的预测器则展现出了明确的正相关收益,说明任务的物理复杂度决定了智能体所需的智力上限。
多步损失的对齐作用:在训练中加入 2 步展开损失能显著改善预测器的长时稳定性,使其训练任务与测试时的递归规划任务更加对齐。对于最复杂的 DROID 任务,最佳的展开步数甚至需要达到 6 步。
3. 提出的最优解
研究最终汇总所有洞察,提出了针对不同任务的最优配置:在模拟器中使用 ViT-S 配以 AdaLN,而在真实复杂场景中使用 DINOv3 ViT-L 配以 12 层深度的预测器。

在与 DINO-WM 和 V-JEPA-2-AC 的直接较量中,该模型在几乎所有维度上均取得了领先。
更多详情请参阅原论文。
相关攻略
中国科学技术协会2026年3月31日发布告示:中国科协曾于2026年3月27日就2026年NeurIPS会议发表声明,本意是尽力维护我国关涉学者正当利益,其措施原则是清晰、适当的,没有发生变化。现就
Cornell University 图源:wikipedia撰文|张天如果有一天,全球科研人员突然无法访问arXiv,许多领域的研究节奏可能会被打乱。每天清晨刷新论文列表,已经成为部分数学家、物理
据微信公众号“中国科协之声”消息,3月31日,中国科学技术协会发布告示: 中国科协曾于2026年3月27日就2026年NeurIPS会议发表声明,本意是尽力维护我国关涉学者正当利益,其措施原则是清
今日,阿里达摩院发文称,近日,中国人工智能学会颁发了“吴文俊人工智能科学技术奖”,阿里巴巴达摩院参与完成的重大科技项目“深度自然语言理解和生成关键技术与应用”,获得唯一的科技进步奖特等奖。据介绍,该
【文 观察者网 心智观察所】 最近,NeurIPS——人工智能领域最具影响力的学术会议之一——在2026年征稿规则中新增了一项条款:凡被美国财政部海外资产控制办公室(OFAC)列入制裁名单的机构,
热门专题
热门推荐
《全面战争:中世纪3》:经典延续,如何平衡怀旧与创新? 近期,《全面战争:中世纪3》的项目负责人帕维尔·沃伊斯坦然指出,要打造一款真正优秀的续作,绝不能仅仅依赖对前作模式的简单复刻。这一观点引人深思——尽管《中世纪2:全面战争》至今仍在策略游戏爱好者心中占据着经典地位,但开发团队此次显然决心跳出“照
雷鸟X3 Pro斩获AWE艾普兰创新大奖,开启全民AR生活新篇章 在上海新国际博览中心隆重揭幕的2026年中国家电及消费电子博览会(AWE)上,前沿AI科技与未来生活愿景激情碰撞。全球消费级AR领导品牌雷鸟创新,以其里程碑式的表现,定义了行业发展的新方向。 通过“顶尖硬件科技+顶级文化IP”的双轨战
借力AWE2026“一展双区”,MOVA双区协同、震撼登场 备受瞩目的科技盛会——2026年中国家电及消费电子博览会(AWE),于3月12日至15日在上海盛大举办。本届AWE展会首次创新采用“一展双区”的展览模式,主会场位于上海新国际博览中心,分会场则设于上海东方枢纽国际商务合作区,两大展区高效联动
冰结师技能全解析 踏入2026年,《地下城与勇士》中的冰结师职业,其技能体系已构建得更为成熟与强大。无论是在副本中高效清理海量怪物,还是在决斗场与高手玩家周旋,这个职业都能凭借其独特的冰霜艺术掌控战局。刷图时,酷寒的范围法术可瞬间清屏;而在PVP竞技中,一套将冻结控制与瞬间爆发完美衔接的连招,往往让
iPhone 18 Pro系列模具不变,屏幕形态将与iPhone 17 Pro保持一致 备受期待的屏下Face ID组件小型化设计与灵动岛区域缩窄方案,预计将被推迟至后续迭代机型中正式应用。 近期,关于iPhone 18 Pro系列的技术传闻持续引发行业关注,尤其在显示与解锁设计领域传言甚多。多方消





