游乐游手机版
首页/AI热点日报/热点详情

LiveWorld视频世界模型新范式,让镜头外世界持续演化

类型:热点整理2026-07-01
世界模型,正被业内视为通往通用人工智能(AGI)的关键拼图之一。借助视频生成模型卓越的视觉能力,这类系统能够依据当前观察、文本指令以及相机轨迹,模拟出一个可持续探索的虚拟环境,从而服务于智能体训练、交互式仿真、自动驾驶决策,乃至大规模合成数据的生成。然而,当越来越多的研究聚焦于更高清的画质和更精准的

世界模型,正被业内视为通往通用人工智能(AGI)的关键拼图之一。借助视频生成模型卓越的视觉能力,这类系统能够依据当前观察、文本指令以及相机轨迹,模拟出一个可持续探索的虚拟环境,从而服务于智能体训练、交互式仿真、自动驾驶决策,乃至大规模合成数据的生成。

然而,当越来越多的研究聚焦于更高清的画质和更精准的相机控制时,一个更为基础的问题反而被忽视了:这些模型究竟是在模拟一个持续运转的真实世界,还是仅仅在生成相机当前“看到”的视觉流?

来自阿德莱德大学、澳大利亚国立大学、蒙纳士大学、浙江大学与奥克兰大学的研究团队,重新审视了现有视频世界模型的建模逻辑。他们发现,这类方法普遍存在一个核心缺陷——将“世界自身的演化”与“相机在某个视角下的观察”这两件本质不同的事,全部交由同一个视频生成器来处理。

这种“耦合”模式带来的后果非常直接:一旦某个物体脱离了相机视野,模型便通常不再更新它的状态,而让它停留在最后一次被观察到的时刻。举例而言,一只狗正在进食,观察者转头看向别处,过一会儿再转回来。在现实世界中,狗很可能已经吃完并走开了;但当前的模型往往会再次生成“狗仍在进食”的画面,仿佛相机移开的同时,局部世界也被按下了暂停键。

研究者将这一缺失的时间进程定义为“视野外动态”(Out-of-Sight Dynamics),并指出现有的视频世界模型实际上隐含着一个“静态世界假设”:只有进入相机视野的内容才会持续变化。为了打破这一假设,他们提出了LiveWorld——一个将世界演化与观察渲染显式解耦的方案,使得事件在离开视野后依然能够持续推进。

LiveWorld:解耦世界演化与观察渲染

LiveWorld 的设计思路非常直接:世界如何变化,不应由相机当前的观察位置来决定。因此,它不再让视频生成器同时承担“推测世界发生了什么”和“渲染相机看到了什么”这两项任务,而是将流程明确拆分为——先让世界状态随时间自然演化,再根据相机轨迹渲染出当前的观察结果。





这种分解也带来了清晰的系统分工:虚拟监视器(Monitor)负责在固定位置持续模拟局部事件,而观察渲染器(Renderer)则负责从移动相机的视角,呈现更新后的世界状态。两者职责不同,但本质上都属于“给定状态与条件生成视频”。因此,LiveWorld 使用同一个基于 Wan2.1-14B-T2V 的状态条件视频扩散骨干网络,来实现这两种功能。

方法设计

沿着这个思路,LiveWorld 的运行过程可以理解成一条持续循环的流水线:发现需要跟踪的动态实体,让它们在视野外继续演化,同时积累静态场景信息;当相机再次经过时,再把两者组合成最新的画面。具体包含以下四个环节:

首先,为动态事件设置虚拟监视器。每轮生成前,系统会使用 Qwen3-VL 和 SAM3 检查上一段视频,识别出其中可能继续活动的人物、动物或车辆等实体。如果某个新实体所在的区域尚未被覆盖,系统就会在此位置注册一个固定的虚拟监视器(Monitor),并记录当时的相机位姿与画面作为锚点。为了控制计算开销,活跃 Monitor 的数量会设定一个上限;超出后,优先移除距离当前观察者最远的一个。



接着,在固定视角下推进局部事件。当观察者转向别处后,Monitor 仍然会继续工作。它以锚定画面的静态背景、裁剪出的实体外观,以及描述后续动作的文本为条件,生成该区域接下来的视频内容。例如,狗可以继续吃完食物并走开,而不是停滞在最后一次被看到的姿态。生成的前景视频会结合深度信息被还原到三维空间,形成随时间变化的 4D Monitor 点云。如果实体在某一轮视频的中途才出现,系统还会先补齐从出现时刻到当前时刻的状态,使其与全局时间线保持同步。

同时,持续积累静态空间记忆。与动态实体并行,系统会从历史观察中分离出背景区域,并通过前馈式 SLAM 框架 Stream3R 增量融合为全局 3D 点云。这部分记录了场景中相对稳定的结构,为长期重访、视角变换和相机控制提供了空间基础。这样,LiveWorld 无需反复生成整个场景,只需重点更新真正发生变化的局部区域。

最后,从最新世界状态渲染观察。当相机移动或重访旧区域时,系统首先将静态 3D 点云与已经演化到当前时刻的动态 4D 点云,共同投影到目标相机轨迹上,从而得到像素级的几何条件。随后,状态适配器(State Adapter)将投影结果注入视频扩散模型,用以约束物体的位置、结构与运动;外观 LoRA(Appearance LoRA)则利用检索到的历史参考帧来补充纹理和身份细节。最终生成的视频既遵循了目标相机的运动轨迹,也能呈现实体在离开视野期间所发生的变化。



由此,LiveWorld 形成了一个闭环:观察新区域、注册动态事件、在后台推进状态,再从最新状态生成下一段观察结果。它并非试图一次性构建完整的 4D 世界,而是采用“静态场景长期记忆 + 动态实体按需演化”的方式,将视野外动态转化为了一个可计算、可扩展的问题。

实验验证



要评估视野外动态的效果,仅仅比较单段视频的画质是不够的。关键在于:相机离开后再回来时,事件是否已经推进,物体身份是否保持,场景几何是否依然一致。为此,研究者构建了首个面向该问题的专门基准——LiveBench,包含100个场景和400条评估序列,并为每个场景配置了多轮相机轨迹与文本事件脚本。

LiveBench 包含两类重访轨迹:Same-Pose(A→B→A→B→A)要求相机多次回到同一位置,用以考察长时间序列下的状态变化;Different-Pose(A→B→C)则让相机从新视角重访旧区域,同时考察事件演化与三维一致性。研究者将 LiveWorld 与 Matrix-Game-2.0、Hunyuan-GameCraft-1.0 以及 Spatia 等开源相机可控世界模型进行了对比。

事件并未停留在旧画面中。衡量事件是否按照脚本推进的 VQA-Acc 指标最能体现这一点。在 Same-Pose 的第二次长时间重访中,LiveWorld 的表现显著超越 Spatia、GameCraft-1 和 Matrix-Game-2.0;在更困难的 Different-Pose 第二次重访中,LiveWorld 依然保持领先,而其他方法普遍降至个位数。这表明模型呈现的并非缓存中的旧画面,而是已经推进后的事件状态。

事件变化的同时,物体和空间也能保持高度一致性。第二次重访时,LiveWorld 的前景 DINO 相似度明显高于 Spatia;动态点云的 Chamfer Distance 也优于所有对比方法。背景一致性则与采用显式 3D 记忆的 Spatia 持平或更优。这说明 LiveWorld 不仅能生成符合文本描述的动作,还能将变化后的实体准确地放回正确的空间位置。



多事件场景进一步检验了系统的闭环能力。当多个事件需要在视野外并行推进时,去掉事件演化模块的版本在最严格的 Full Succ. 指标上仅为0%,而完整的 LiveWorld 则达到了26%。消融实验还显示,移除空间记忆会导致相机控制失效,并在重访时产生漂移和重影;移除参考帧后,前景身份和背景外观都会在长序列中逐渐失稳。因此,性能提升并非单纯来自更大的生成模型,而是源于动态演化、空间记忆和状态渲染之间的协同作用。



消融实验验证了各个模块的关键作用。移除事件演化后,系统退化为普通的相机可控视频模型,无法在重访时呈现已经推进的事件;移除空间记忆后,相机控制和背景几何明显恶化,容易出现漂移与重影;移除历史参考帧后,长序列中的前景身份和背景外观逐渐失稳。这三项结果分别对应时间演化、空间一致性和外观保持,表明 LiveWorld 的提升源于完整的系统设计,而非单纯扩大生成模型。

更多可视化结果 —— 多事件重访与不同位姿重访



结论与展望

LiveWorld 提出的核心问题至关重要:如果一个世界模型只能更新相机正在观察的内容,那么它所建模的,本质上仍然是连续的视频流,而非一个持续运转的真实世界。通过形式化“视野外动态”、显式拆分世界演化与观察渲染,并结合静态 3D 空间记忆和动态 4D 实体状态,LiveWorld 将视频世界模型从“记住看过的画面”推进到了“维护那些在看不见时仍在变化的状态”。

这项工作当然并非最终答案,但它为持续世界建模提供了一个可实施、可评测的起点。未来还需要探索带隐式动态记忆的端到端模型、更完整高效的 4D 世界表示、更合理的状态注入与渲染机制,以及跨区域事件交互和推理成本控制。只有当模型能够长期维护对象、事件、空间与时间之间的关系时,生成式世界模型才可能真正成为可持续运行和交互的世界模拟器。

来源:https://www.163.com/dy/article/L0MDR33A0511AQHO.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。