杨立昆团队最新研究世界模型在行动中自适应持续进化_AI热点日报

杨立昆团队最新研究世界模型在行动中自适应持续进化

类型：热点整理2026-07-03

杨立昆团队提出自适应潜在世界模型AdaJEPA，使机器人在执行任务时持续修正预测。每完成一步动作，模型利用真实观测校正偏差并重新规划，无需额外数据或标签。实验表明，AdaJEPA在分布内与分布外任务中均稳定提升规划成功率，尤其适应视觉、动力学等环境变化，推动世界模型在行动中持续进化。

潜在世界模型（Latent world models）听起来有点玄，但本质上就是让机器人在行动前先“脑补”一下未来，再据此规划动作。2022年，图灵奖得主杨立昆团队提出了联合嵌入预测架构（JEPA），通过在潜空间中预测未来状态的演化，把表征空间预测正式推上了世界模型研究的舞台中央。

问题在哪里呢？大多数世界模型训练完就“定型”了，参数不再更新，很难应对真实场景中常变的视觉条件和物理属性。编码器或预测器一旦失准，误差就会在后续规划中层层放大，最终导致任务崩盘。

反观我们人类，感觉运动自适应机制是适应环境变化的核心能力。我们会根据感官反馈校准动作预测，也会根据新经验不断调整对环境的理解。

受这一生物学启发，杨立昆团队提出了自适应潜在世界模型 AdaJEPA，它能在部署过程中持续学习。核心思路是把自适应嵌入模型预测控制（MPC）的闭环中：每执行一个动作，就用实际观测到的状态转移来校正模型，然后再用更新后的模型重新规划。

实验结果是，AdaJEPA 在分布内任务和多种分布偏移下都能稳定提高规划成功率。即便每次重新规划前只做一次轻量更新，它的表现也普遍优于那些训练后参数就不再更新的世界模型。

这项工作为自适应世界模型打开了一个很有前景的方向：世界模型不应该“一次训练，终身使用”，而应该在行动过程中持续根据真实反馈校准预测、更新表征，这样才能更好地适应不断变化的环境。

AdaJEPA：一个懂“自适应”的世界模型

简单说，AdaJEPA 是一种自适应潜在世界模型，能在机器人执行任务的过程中持续修正自己的预测。每完成一步动作，模型都会利用新的真实观测来校正偏差，并据此重新规划。整个过程不需要额外离线数据、奖励标签或专家示范。整个流程可以概括为四步：规划、执行、校正和重新规划。具体来说：

图｜AdaJEPA 在闭环 MPC 中执行测试时自适应。

规划：模型先在内部推演接下来几步的状态变化，比较多组候选方案，选出最有可能靠近目标的动作序列。
执行：规划完成，模型只执行第一个动作或一小段动作，然后观测环境的真实反馈。执行前的状态变化会被记录下来，作为后续自适应的学习样本。
自适应：动作执行后，AdaJEPA 把这一步产生的状态转移写入在线缓冲区，并用它来检验模型预测是否准确。如果预测的下一状态与真实结果有偏差，模型就把这部分误差作为更新信号，进行一次轻量校正，为下一轮规划做准备。
重新规划：自适应完成后，模型从最新观测出发，用更新后的世界模型重新预测后续轨迹，并生成新的动作序列。整个任务过程中，“规划-执行-自适应-重新规划”的循环会不断重复，每一轮规划都建立在最新观测和最新模型之上。

为了避免拖慢实时规划，AdaJEPA 只做轻量更新：调整少量参数，维护小型在线缓冲区，并沿用预训练阶段的目标函数。具体做法如下：

只更新关键层：AdaJEPA 不更新整个世界模型，而是只调整编码器和预测器中的少量关键层。这样既能降低计算开销，也能减少对已有表征的扰动。
维护小型在线缓冲区：缓冲区默认保存最近 5 条真实状态转移。研究团队比较了两种保留方式：recent-N 保留最近转移，hard-N 保留预测误差最大的转移。结果显示，两种方式差异不大，但 recent-N 更稳定。
沿用预训练阶段的目标函数：自适应阶段保持与预训练相同的预测目标，用真实观测对应的表征作为监督信号。为了减少对已有表征的扰动，目标表征仅作为参照，不参与梯度回传。

效果怎么样？一句话概括：稳中有升

整体来看，AdaJEPA 在分布内任务和多种分布偏移下都能稳定提高规划成功率。研究团队在推物体任务 PushT / PushObj 和迷宫导航任务 PointMaze 上进行了评估，覆盖了形状、视觉、动力学和布局等变化场景。即便每次重新规划前只做一次轻量更新，AdaJEPA 的表现也普遍优于那些训练后参数就不再更新的世界模型。具体结果如下：

1. 分布内任务

结果表明，AdaJEPA 在测试时自适应不会牺牲原有能力，还能进一步提升任务成功率。无论是用 GD 直接优化动作序列，还是用 CEM 通过采样和筛选候选动作来搜索，AdaJEPA 的成功率都高于不进行测试时自适应的基线。提升最明显的是推物体任务，最高成功率提升超过 20%；在迷宫导航任务中，原模型本身已经表现较强，AdaJEPA 仍能保持相近水平，没有明显退化。

图｜PointMaze 在动力学变化和布局变化条件下的规划成功率。

2. 分布外任务

在环境变化更明显的任务中，AdaJEPA 的优势更加突出。它会在每轮规划和执行后，用新的真实反馈更新世界模型，让后续规划更贴近当前环境，从而提升任务成功率。相比之下，训练后不再更新的模型无法利用这些新观测，成功率往往很快到达上限。

图｜在形状变化和视觉变化条件下的规划成功率。

具体来看，在多形状推物体任务中，如果测试时出现训练阶段没见过的物体形状，AdaJEPA 的提升最明显，成功率接近翻倍；视觉扰动中，模糊、噪声和暗光照带来的增益更明显；如果只是锚点或物体颜色改变，AdaJEPA 的优势则相对有限。在 PointMaze 迷宫导航中，AdaJEPA还能适应动力学变化和新迷宫布局，并在新布局下规划出更接近最短路径的轨迹。

图｜多样化迷宫中的规划轨迹。

图｜PointMaze-Medium 在动力学变化条件下的规划轨迹。

3. AdaJEPA 在多种 JEPA 实现上均有提升

为了验证 AdaJEPA 是否依赖于某一种特定模型实现，研究团队在 PushT 推物体任务上，分别更换了表征形式、模型架构、训练目标和规划器进行测试。结果显示，AdaJEPA 在这些设置下都能提高规划成功率；即便基线模型已经充分训练、评估仍在分布内，测试时自适应依然能带来稳定增益，每次重新规划只增加约 0.01–0.03 秒的延迟。

图｜不同实现下的 AdaJEPA 表现。

4. AdaJEPA 不是从头学习新世界，而是在校正已有预测

可视化结果显示，AdaJEPA 的自适应更像是在“校准”，而不是“重新学习”。研究团队将自适应后的预测轨迹解码出来后，发现即便遇到视觉扰动或未见形状，解码结果仍倾向于保留训练分布中的结构特征。例如，红色方块会被解码成训练中常见的灰色方块，未见形状也会被解码成相近的已见形状。

图｜视觉变化和形状变化条件下的 AdaJEPA 规划轨迹示例。

5. 消融实验与分析

消融实验显示，AdaJEPA 不需要大范围更新，也不依赖复杂调参；少量关键层更新、一步梯度更新和近期状态转移缓冲区，已经能带来稳定收益。

首先，AdaJEPA 只更新编码器或预测器的部分层，或者采用 LoRA 做轻量更新时，整体表现都优于不进行测试时自适应的基线，说明它不需要重训整个模型。

其次，不同分布偏移对更新位置的需求不同。形状变化下，各种更新方案差异不大，主要调整预测器即可；视觉和布局变化下，仅更新预测器效果有限，编码器也需要参与。布局变化中，更新预测器第一层效果最好，可能是因为它最早融合了潜在状态和动作信息，更容易校正新的局部转移关系。

另外，默认超参数已经足够稳定。在超参数设置上，AdaJEPA 默认沿用训练阶段学习率，每次重规划前只做一步梯度更新，并保留近期状态转移作为缓冲区。更大的学习率或更多更新步数可能增强适应效果，但也会增加不稳定性和计算开销。总体来看，默认设置已经能够在效果、稳定性和延迟之间取得较好的平衡。

图｜适应超参数和回放缓冲区对规划成功率的影响。

6. 训练数据规模和形状多样性对 AdaJEPA 的影响

实验结果表明，AdaJEPA 的效果不仅取决于训练数据量，也取决于训练数据是否足够多样。对于 PushObj 多形状推物体任务来说，形状多样性比单纯堆叠同一形状的轨迹更关键；同时，测试时自适应可以在数据不足时弥补部分泛化缺口。

具体来看，在总轨迹数相同的情况下，将数据分配到更多物体形状上，比集中在单一形状上更有利于泛化到未见形状。例如总轨迹数同为 16k 时，覆盖四种形状的 AdaJEPA 在未见形状上的成功率为 51.9%，高于只覆盖单一形状时的 45.8%。

此外，AdaJEPA 在不同数据规模下都能提升成功率，低数据场景下收益尤其明显。即便训练阶段只覆盖较少形状和轨迹，模型也能在部署过程中利用新观测校正预测。例如在已见形状上，只用 1 种形状、1k 条轨迹训练 AdaJEPA，成功率达到 60.8%，高于使用 4 种形状、总计 64k 条轨迹训练但测试时不更新的模型。

图｜训练数据规模对 PushObj 规划成功率的影响：形状多样性 (K) 与每种形状的轨迹数量。

不足与未来方向

尽管 AdaJEPA 在多类规划任务中都带来了稳定增益，但它仍有不足之处：

由于 AdaJEPA 只在规划期间进行轻量级修正，其有效性仍受到预训练表征覆盖范围限制。当测试环境中间出现训练阶段未涵盖的关键特征时，自适应虽然可以在一定程度上改善规划结果，但仍难以完全弥合这一表征差距。未来，轻量级测试时自适应还需要与持续学习、主动学习相结合，使世界模型能够在长期部署中不断积累新经验，逐步扩展对环境变化的覆盖范围。

更多技术细节，请参见原论文。

来源：https://36kr.com/p/3879369780817922

世界模型

延伸阅读

补充最近整理过的热点入口。