LiveWorld视频世界模型新范式，让镜头外世界持续演化_AI热点日报

LiveWorld视频世界模型新范式，让镜头外世界持续演化

类型：热点整理2026-07-01

世界模型，正被业内视为通往通用人工智能（AGI）的关键拼图之一。借助视频生成模型卓越的视觉能力，这类系统能够依据当前观察、文本指令以及相机轨迹，模拟出一个可持续探索的虚拟环境，从而服务于智能体训练、交互式仿真、自动驾驶决策，乃至大规模合成数据的生成。然而，当越来越多的研究聚焦于更高清的画质和更精准的

世界模型，正被业内视为通往通用人工智能（AGI）的关键拼图之一。借助视频生成模型卓越的视觉能力，这类系统能够依据当前观察、文本指令以及相机轨迹，模拟出一个可持续探索的虚拟环境，从而服务于智能体训练、交互式仿真、自动驾驶决策，乃至大规模合成数据的生成。

然而，当越来越多的研究聚焦于更高清的画质和更精准的相机控制时，一个更为基础的问题反而被忽视了：这些模型究竟是在模拟一个持续运转的真实世界，还是仅仅在生成相机当前“看到”的视觉流？

来自阿德莱德大学、澳大利亚国立大学、蒙纳士大学、浙江大学与奥克兰大学的研究团队，重新审视了现有视频世界模型的建模逻辑。他们发现，这类方法普遍存在一个核心缺陷——将“世界自身的演化”与“相机在某个视角下的观察”这两件本质不同的事，全部交由同一个视频生成器来处理。

这种“耦合”模式带来的后果非常直接：一旦某个物体脱离了相机视野，模型便通常不再更新它的状态，而让它停留在最后一次被观察到的时刻。举例而言，一只狗正在进食，观察者转头看向别处，过一会儿再转回来。在现实世界中，狗很可能已经吃完并走开了；但当前的模型往往会再次生成“狗仍在进食”的画面，仿佛相机移开的同时，局部世界也被按下了暂停键。

研究者将这一缺失的时间进程定义为“视野外动态”（Out-of-Sight Dynamics），并指出现有的视频世界模型实际上隐含着一个“静态世界假设”：只有进入相机视野的内容才会持续变化。为了打破这一假设，他们提出了LiveWorld——一个将世界演化与观察渲染显式解耦的方案，使得事件在离开视野后依然能够持续推进。

LiveWorld：解耦世界演化与观察渲染

LiveWorld 的设计思路非常直接：世界如何变化，不应由相机当前的观察位置来决定。因此，它不再让视频生成器同时承担“推测世界发生了什么”和“渲染相机看到了什么”这两项任务，而是将流程明确拆分为——先让世界状态随时间自然演化，再根据相机轨迹渲染出当前的观察结果。

这种分解也带来了清晰的系统分工：虚拟监视器（Monitor）负责在固定位置持续模拟局部事件，而观察渲染器（Renderer）则负责从移动相机的视角，呈现更新后的世界状态。两者职责不同，但本质上都属于“给定状态与条件生成视频”。因此，LiveWorld 使用同一个基于 Wan2.1-14B-T2V 的状态条件视频扩散骨干网络，来实现这两种功能。

方法设计

沿着这个思路，LiveWorld 的运行过程可以理解成一条持续循环的流水线：发现需要跟踪的动态实体，让它们在视野外继续演化，同时积累静态场景信息；当相机再次经过时，再把两者组合成最新的画面。具体包含以下四个环节：

首先，为动态事件设置虚拟监视器。每轮生成前，系统会使用 Qwen3-VL 和 SAM3 检查上一段视频，识别出其中可能继续活动的人物、动物或车辆等实体。如果某个新实体所在的区域尚未被覆盖，系统就会在此位置注册一个固定的虚拟监视器（Monitor），并记录当时的相机位姿与画面作为锚点。为了控制计算开销，活跃 Monitor 的数量会设定一个上限；超出后，优先移除距离当前观察者最远的一个。

接着，在固定视角下推进局部事件。当观察者转向别处后，Monitor 仍然会继续工作。它以锚定画面的静态背景、裁剪出的实体外观，以及描述后续动作的文本为条件，生成该区域接下来的视频内容。例如，狗可以继续吃完食物并走开，而不是停滞在最后一次被看到的姿态。生成的前景视频会结合深度信息被还原到三维空间，形成随时间变化的 4D Monitor 点云。如果实体在某一轮视频的中途才出现，系统还会先补齐从出现时刻到当前时刻的状态，使其与全局时间线保持同步。

同时，持续积累静态空间记忆。与动态实体并行，系统会从历史观察中分离出背景区域，并通过前馈式 SLAM 框架 Stream3R 增量融合为全局 3D 点云。这部分记录了场景中相对稳定的结构，为长期重访、视角变换和相机控制提供了空间基础。这样，LiveWorld 无需反复生成整个场景，只需重点更新真正发生变化的局部区域。

最后，从最新世界状态渲染观察。当相机移动或重访旧区域时，系统首先将静态 3D 点云与已经演化到当前时刻的动态 4D 点云，共同投影到目标相机轨迹上，从而得到像素级的几何条件。随后，状态适配器（State Adapter）将投影结果注入视频扩散模型，用以约束物体的位置、结构与运动；外观 LoRA（Appearance LoRA）则利用检索到的历史参考帧来补充纹理和身份细节。最终生成的视频既遵循了目标相机的运动轨迹，也能呈现实体在离开视野期间所发生的变化。

由此，LiveWorld 形成了一个闭环：观察新区域、注册动态事件、在后台推进状态，再从最新状态生成下一段观察结果。它并非试图一次性构建完整的 4D 世界，而是采用“静态场景长期记忆 + 动态实体按需演化”的方式，将视野外动态转化为了一个可计算、可扩展的问题。

实验验证

要评估视野外动态的效果，仅仅比较单段视频的画质是不够的。关键在于：相机离开后再回来时，事件是否已经推进，物体身份是否保持，场景几何是否依然一致。为此，研究者构建了首个面向该问题的专门基准——LiveBench，包含100个场景和400条评估序列，并为每个场景配置了多轮相机轨迹与文本事件脚本。

LiveBench 包含两类重访轨迹：Same-Pose（A→B→A→B→A）要求相机多次回到同一位置，用以考察长时间序列下的状态变化；Different-Pose（A→B→C）则让相机从新视角重访旧区域，同时考察事件演化与三维一致性。研究者将 LiveWorld 与 Matrix-Game-2.0、Hunyuan-GameCraft-1.0 以及 Spatia 等开源相机可控世界模型进行了对比。

事件并未停留在旧画面中。衡量事件是否按照脚本推进的 VQA-Acc 指标最能体现这一点。在 Same-Pose 的第二次长时间重访中，LiveWorld 的表现显著超越 Spatia、GameCraft-1 和 Matrix-Game-2.0；在更困难的 Different-Pose 第二次重访中，LiveWorld 依然保持领先，而其他方法普遍降至个位数。这表明模型呈现的并非缓存中的旧画面，而是已经推进后的事件状态。

事件变化的同时，物体和空间也能保持高度一致性。第二次重访时，LiveWorld 的前景 DINO 相似度明显高于 Spatia；动态点云的 Chamfer Distance 也优于所有对比方法。背景一致性则与采用显式 3D 记忆的 Spatia 持平或更优。这说明 LiveWorld 不仅能生成符合文本描述的动作，还能将变化后的实体准确地放回正确的空间位置。

多事件场景进一步检验了系统的闭环能力。当多个事件需要在视野外并行推进时，去掉事件演化模块的版本在最严格的 Full Succ. 指标上仅为0%，而完整的 LiveWorld 则达到了26%。消融实验还显示，移除空间记忆会导致相机控制失效，并在重访时产生漂移和重影；移除参考帧后，前景身份和背景外观都会在长序列中逐渐失稳。因此，性能提升并非单纯来自更大的生成模型，而是源于动态演化、空间记忆和状态渲染之间的协同作用。

消融实验验证了各个模块的关键作用。移除事件演化后，系统退化为普通的相机可控视频模型，无法在重访时呈现已经推进的事件；移除空间记忆后，相机控制和背景几何明显恶化，容易出现漂移与重影；移除历史参考帧后，长序列中的前景身份和背景外观逐渐失稳。这三项结果分别对应时间演化、空间一致性和外观保持，表明 LiveWorld 的提升源于完整的系统设计，而非单纯扩大生成模型。

结论与展望

LiveWorld 提出的核心问题至关重要：如果一个世界模型只能更新相机正在观察的内容，那么它所建模的，本质上仍然是连续的视频流，而非一个持续运转的真实世界。通过形式化“视野外动态”、显式拆分世界演化与观察渲染，并结合静态 3D 空间记忆和动态 4D 实体状态，LiveWorld 将视频世界模型从“记住看过的画面”推进到了“维护那些在看不见时仍在变化的状态”。

这项工作当然并非最终答案，但它为持续世界建模提供了一个可实施、可评测的起点。未来还需要探索带隐式动态记忆的端到端模型、更完整高效的 4D 世界表示、更合理的状态注入与渲染机制，以及跨区域事件交互和推理成本控制。只有当模型能够长期维护对象、事件、空间与时间之间的关系时，生成式世界模型才可能真正成为可持续运行和交互的世界模拟器。

来源：https://www.163.com/dy/article/L0MDR33A0511AQHO.html

世界模型

延伸阅读

补充最近整理过的热点入口。