NVIDIA联合伊利诺伊大学革新AI视频生成技术实现精准因果控制

首页

热心网友

转载

2026-05-15

这项由NVIDIA研究院与美国伊利诺伊大学厄巴纳-香槟分校联合完成的研究，以预印本形式于2026年4月8日发布在arXiv平台，论文编号为arXiv:2604.07348。

NVIDIA与伊利诺伊大学联手：让AI视频生成真正

当我们用手机拍摄视频时，想要一边追踪移动的物体一边推近镜头，是再自然不过的操作。然而，这对于当前的AI视频生成系统来说，却是一个巨大的挑战。系统难以区分哪些是“摄像机自身的运动”，哪些是“画面内物体真实的移动”。更复杂的是，当一只手推动杯子时，杯子会滑动，这个“推”与“滑”之间存在着明确的因果关系。现有的AI系统对此视若无睹，只会机械地遵循预设的像素轨迹，完全无法理解“因为手推了，所以杯子滑了”这一基本物理逻辑。

为了攻克这两个核心难题，NVIDIA的研究团队提出了名为MoRight的创新框架。其核心思想，可以理解为给AI视频生成系统安装了一套“双视觉通道与因果推理引擎”的组合装置。

一、为什么现有AI视频生成系统总是“手忙脚乱”

要理解MoRight的价值，我们可以做一个生动的比喻：想象你是一位舞台导演，需要同时指挥演员的走位和控制摄像机的运镜。现有的AI视频系统在处理这个任务时，会把“演员移动”和“摄像机移动”产生的视觉变化混为一谈，生成一张包含了所有像素运动轨迹的“混乱地图”。关键在于，当摄像机向右平移时，画面中所有静止物体的像素都会向左偏移——这种由镜头运动造成的“视差”与物体自身的运动完全纠缠在一起，AI根本无法有效分离。

研究团队将这一现象称为“运动纠缠”。就像一团打结的毛线，想单独抽出一根极其困难。现有的一些方法试图通过提供深度图、3D轨迹或前景背景分割等“特权信息”来缓解问题，但这些信息在现实应用中往往难以获取，且通常只能在已知完整视频序列的前提下使用。如果只给AI一张静态的参考图片，这些方法便无能为力。

第二个问题同样根深蒂固。当用户指令AI“让这只手沿着这条路径移动”时，AI会尽力让画面中的手部像素跟随轨迹，但对于“这只手推动了什么、被推动的物体会如何反应”，它毫不关心。这就好比演员只按照脚本走位，却完全无视台词中的动作逻辑——他走到了桌边，但桌上的道具是否因此移动，与他无关。在真实的物理世界中，因果关系无处不在：推倒积木会倒，提起茶壶会出水，踢一脚球会飞走。但对现有AI而言，这些都只是“像素的位移”，而非“有因有果的事件”。

MoRight框架的诞生，正是为了同时破解这两大核心困局。

二、“双流”设计：为物体运动和摄像机运动开辟独立通道

MoRight的第一个核心创新，是引入了一种名为“双流生成”的架构。可以将其直观地理解为一个现代化摄影棚的协同工作流程：棚内有两套独立但同步运行的系统——一套专门负责“演员在固定舞台上的精确走位”，另一套则专门负责“摄像机的各种运动轨迹”。两者独立运作，又通过精密的内部机制保持协调，最终合成出既有精准物体动作、又有灵活镜头运动的连贯视频。

具体而言，MoRight将运动控制分解为两个并行处理通道。第一个是“规范视角流”，它在一个假设摄像机完全静止的虚拟坐标系中，处理物体的纯粹运动轨迹。用户在这里定义的是无歧义的、固定视角下的路径，例如“让这个茶杯从桌面左侧平滑移动到右侧”。第二个是“目标视角流”，它专门处理摄像机的各种运动，例如“镜头向右旋转30度”或“向前推进变焦”，接收摄像机的位置、角度等参数作为输入。

这两个通道共享底层神经网络的权重，本质上是同一个AI“大脑”在处理两类不同任务。它们通过Transformer模块中的“自注意力层”进行高效的信息交换——在这一层，两个通道的特征被拼接在一起，使得目标视角流中的像素能够“看到”规范视角流中的运动信息，从而学会如何将固定视角下的物体运动，正确地转化到摄像机移动后的新视角中。这种“跨视角运动迁移”机制，实现了仅凭第一帧图像就能解耦物体与镜头的运动，无需预知未来帧的任何信息。

在技术实现上，物体的运动被编码为“逐像素轨迹图”，让沿着同一路径运动的像素共享时间编码，再经过一个轻量级编码器压缩为紧凑的特征表示。摄像机运动的编码则借鉴了Gen3C等方法，利用估计的摄像机位姿和场景深度信息对首帧图像进行“几何扭曲”（模拟摄像机移动后的视图），再通过VAE编码器转换为条件特征。这两种条件特征在每个Transformer模块中被注入到视频特征中，形成“注入后同步”的循环，逐步将运动信息从规范视角传递至目标视角。

三、教会AI理解“因果”：主动运动与被动运动的清晰划分

在解决了镜头与物体运动的纠缠问题后，MoRight面临着更深层次的挑战：如何让AI真正理解“原因导致结果”这一基本物理规律。

研究团队提出的解决方案非常巧妙。他们将场景中所有物体的运动轨迹明确划分为两类：第一类是“主动运动”，即由用户驱动或具有明确意图的动作，如手的移动、机械臂的抓取——这些是引发变化的“因”。第二类是“被动运动”，即由主动动作所引发的反应性运动，如被推杯子的滑动、被提起茶壶倒出的水流、被踢飞的足球——这些是随之产生的“果”。

在模型训练过程中，团队引入了关键的“运动丢弃”策略。每次训练时，系统会随机地只向AI展示主动运动的轨迹，或者只展示被动运动的轨迹，然后要求它生成包含两类运动全部效果的完整视频。这就像只给AI一半的谜题条件，让它自己推理出完整的答案。当AI只看到“手向前推”的轨迹时，它必须预测“杯子会如何向后滑动”；当AI只看到“杯子滑动”的轨迹时，它需要反推出是何种“手部推动”动作导致了这一结果。

经过海量此类训练，AI就像一个在厨房里观察了无数次“厨师切菜→食材被切开”过程的学徒，开始内化这些因果规律，而不再是机械地复制像素的移动轨迹。

这种设计赋予了系统两种可灵活切换的推理模式。“正向推理”即用户给出主动运动（如画出手向前推的轨迹），AI自动生成被动物体（如杯子）的合理反应。“逆向推理”则相反，用户指定想要的被动效果（如“希望这个球向左上方飞出去”），AI反向推理出导致该效果的主动动作（如用脚踢球的动作），进而生成包含因果关系的完整视频。这两种能力极大地扩展了系统的交互灵活性和应用场景。

四、数据从哪里来：构建一套高效的自动化数据工厂

MoRight的双流架构需要“同一场景在不同摄像机角度下的成对视频”作为训练数据，而这在现实世界的视频数据集中几乎不存在。为此，研究团队设计了一套高效的三阶段自动化数据生产流水线。

第一阶段是“运动提取与规范化”。从海量的互联网视频中提取深度信息、摄像机位姿和密集的像素运动轨迹，然后通过几何投影将所有轨迹“还原”到以首帧静态视角为基准的坐标系下，从而得到规范化的、与摄像机运动解耦的物体运动轨迹。

第二阶段是“运动分解”。使用Qwen3等强大的视觉语言模型来理解视频的语义内容，识别出主动物体（如人、手、动物）与被动物体（如工具、被操纵的物品），再利用SAM2等先进的视频分割模型进行逐帧的精确分割，生成主动物体和被动物体的像素掩码，从而将运动轨迹精确分配到对应的类别中。同时，系统会为每个视频生成文字描述，并在训练时有选择地只提供其中一类运动的文字描述，防止AI借助完整的文字描述“作弊”，绕过因果推理的学习过程。

第三阶段是“成对多视角数据合成”。首先筛选出摄像机基本静止的视频，然后使用一个摄像机控制模型，生成对应的、带有模拟摄像机运动的版本，从而人工制造出“同一物体运动在不同摄像机视角下的成对视频”。为了增加数据的多样性，系统还补充了轨道旋转、平移、推拉等基本摄像机操作，以及从真实影视作品中提取的动态摄像机轨迹。

除了合成数据，团队还设计了混合训练策略来引入大量真实视频。对于摄像机静止的真实视频，直接将其复制一份作为“目标视角流”的输出，让AI学习运动条件在不同视角间的传递。对于同时包含摄像机和物体运动的复杂真实视频，则只对第二个流施加监督损失，让AI能够接触到各种真实的运动配置，从而提升模型的泛化能力。此外，还引入了由SyncCamMaster等工具生成的合成图形数据，进一步丰富了摄像机运动的多样性。

五、训练细节和推理流程：从粗到细，循序渐进

在具体训练过程中，MoRight采用了多种数据增强策略以提升模型的鲁棒性。“多粒度运动丢弃”不仅会按照主动/被动类型随机丢弃运动轨迹，还会在像素级的精细轨迹与物体级的粗粒度轨迹之间随机切换，让AI能够处理不同精度的用户控制指令。“遮挡和轨迹丢弃”则随机遮掩部分轨迹点，模拟现实中物体被遮挡或追踪失败的情况，提高模型对不完整输入信息的容忍度。训练时还会随机截断运动轨迹，模拟用户只提供了部分观测信息的场景。

该系统基于预训练的Wan2.1-14B大规模视频生成模型构建，仅对摄像机编码器、轨迹编码器和关键的自注意力层进行微调，冻结了其余大部分网络参数。训练使用了64块GPU，进行了15000次迭代，批处理大小为16，学习率设置为3×10⁻⁵。轨迹条件丢弃的概率为0.1，文字条件丢弃的概率为0.2。

在推理生成时，用户只需在首帧参考图像上绘制稀疏的运动轨迹（例如简单的曲线或箭头），指定运动的方向和幅度，再选择目标摄像机的位姿序列，系统便会同时对两个流进行联合去噪，最终输出目标摄像机视角下的生成结果。推理过程还会利用首帧的深度信息进行遮挡感知处理，确保被遮挡物体的轨迹不会错误地影响前景物体的生成。

研究团队还开发了交互式的图形用户界面，用户可以在首帧图像上直接绘制轨迹，并独立设置摄像机运动模式（如轨道环绕、推近拉远等），实时预览生成效果，进行直观的场景编辑和创作。

六、实验结果：与现有方法相比表现如何

研究团队在三个具有挑战性的数据集上全面评估了MoRight的性能：DynPose-100K（选取了50段包含高动态摄像机运动的野外视频）、WISA（选取了50段覆盖碰撞、形变等物理动力学现象的视频）以及自行收集的50段真实烹饪视频（包含复杂的手与物体交互）。

评测指标涵盖了四个核心维度：视频生成质量（PSNR、SSIM、FID、FVD）、摄像机控制精度（旋转误差、平移误差）、物体运动控制精度（终点误差EPE）以及运动真实性（使用VideoPhy评估的物理常识得分PC和语义一致性得分SA）。

对比的基线方法包括：Wan2.1（基础模型，无运动控制）、Gen3C（仅支持摄像机控制）、Motion Prompting（MP，接收密集像素轨迹）、ATI（支持任意轨迹指令控制）以及WanMove（潜在轨迹引导）。后三种方法都需要提供包含所有前景和背景像素的完整运动轨迹作为“特权信息”，而MoRight仅需用户在首帧定义稀疏的、规范视角下的轨迹。

在摄像机和物体运动联合控制的评测中，WanMove在DynPose-100K数据集上取得了最好的总体成绩，MoRight略逊一筹——主要原因是，在高动态的摄像机运动下，摄像机位姿估计和轨迹重投影的误差会影响到输入控制信号的质量。尽管如此，MoRight在物体运动控制精度（EPE）上达到了与需要特权信息的方法相当甚至更好的水平。在烹饪数据集上，MoRight则在视频生成质量和运动控制精度两个维度均取得了最佳的整体表现。值得注意的是，ATI和WanMove由于将摄像机和物体运动捆绑在同一个追踪信号中，在高动态场景中常常会偏向于其中一种主导的运动模式，有时会牺牲摄像机精度，有时则会牺牲物体追踪精度。

在物理交互生成的评测中，MoRight的表现更为突出。在WISA数据集上，其物理常识得分最高（0.76），而MP、ATI和WanMove的得分均为0.75或更低。在烹饪数据集上，MoRight同样取得了最高的物理常识得分（0.88）和最低的FID（39.94）、FVD（730.46）分数。在语义一致性得分上，由于MoRight在训练时只接收主动运动的描述（以避免作弊），其得分略低于使用完整视频描述的方法，但差距极小，仍在可比范围内。

七、人类主观评测：真实用户如何选择

为了更直观地验证生成效果，团队进行了大规模的人类感知评测。从三个数据集中随机抽取30个测试案例，邀请11位参与者对不同方法生成的视频结果进行盲测，从“可控性”、“运动真实性”和“照片真实感”三个维度选出最佳结果。

结果显示，MoRight在三个维度上均获得了超过一半的偏好票：可控性53.5%，运动真实性54.6%，照片真实感55.9%。作为对比，ATI的三项得分分别为18.8%、18.2%和17.4%，WanMove分别为25.0%、25.7%和23.1%。需要强调的是，ATI和WanMove使用了包含完整前景和背景轨迹的“特权信息”，而MoRight仅使用了首帧的主动运动轨迹。这一对比强烈表明，拥有更多的输入信息并不必然带来更好的用户体验，系统对运动的理解方式和架构设计才是决定生成质量的关键。

八、消融研究：验证每个设计模块的贡献

团队通过系统性的消融实验，验证了框架中各个核心设计模块的必要性。

如果将双流并行设计改为“先生成静态摄像机视角的视频，再应用摄像机移动”的两阶段级联方案，会导致误差在阶段间累积，控制精度显著下降。

如果去掉固定视角的规范分支，仅使用动态摄像机视频进行训练，并将重投影轨迹与摄像机嵌入联合编码，模型在摄像机控制精度和物体追踪精度上均出现大幅下滑，这证明了规范视角分支是实现运动与镜头解耦的关键。

在训练中去掉主动/被动运动分解模块（即移除因果推理训练），会导致生成视频的FID/FVD指标上升，物理常识得分下降，交互的物理合理性明显劣化，说明该模块是提升生成结果物理真实性的核心。

如果仅使用成对的合成数据进行训练，不加入单视角的真实数据进行混合训练，摄像机控制的精度会因数据多样性不足而略有下降，验证了混合训练策略对于提升模型泛化能力的必要性。

在运动输入鲁棒性测试中，系统在粗粒度物体级轨迹、细粒度像素级轨迹、仅提供主动或仅提供被动运动输入等多种配置下均保持了稳定的性能，证明其能够灵活应对不同格式和精度的用户输入。

九、局限性：当前还有哪些不足

研究团队也坦诚地分析了系统当前的局限性。第一，可能出现错误的因果推理，导致不合理的结果，例如视频中两根烤串在运动过程中神奇地合并成了一根。第二，当输入的运动轨迹因物体被遮挡而变得过于稀疏时，生成的运动可能显得不自然，例如手部在遮挡后出现异常的运动模式。第三，生成的运动有时会违反物理一致性，例如足球在运动过程中突然消失。第四，视频的后期帧中偶尔可能出现幻觉内容，如凭空多出一只手。此外，系统对于极端快速或大幅度的摄像机运动（如剧烈的自我运动）处理能力有限，在这种情况下的交互动态生成质量会明显下降。

归根结底，MoRight成功攻克了一个长期存在的核心难题：既让AI的“观察视角”（摄像机运动）与“场景动作”（物体运动）能够被独立、精确地控制，又让其能够理解“手推导致杯滑”这类基本的物理因果逻辑。

这项工作的意义远不止于生成炫酷的演示视频。对于具身智能和机器人领域的研究者而言，能够准确预测“执行某个动作后，环境将如何变化”是机器人理解并适应物理世界的核心能力之一。对于影视、游戏等内容创作者来说，能够在一张参考图上自由指定物体运动并随意切换观察角度，无需专业的3D建模知识，真正大幅降低了高质量动态内容创作的门槛。对于未来的世界模型研究而言，这种能够同时建模“观察视角”与“交互后果”的系统，提供了一条更接近人类感知和推理方式的视频生成路径。

当然，MoRight仍有明显的局限，幻觉内容、物理不一致、极端摄像机运动处理等问题有待进一步研究和解决。单次视频生成在A100 GPU上大约需要15分钟，也尚不足以投入实际生产应用。但作为一个开创性的研究框架，它清晰地证明了“解耦运动理解”与“注入因果推理”这两个技术方向的可行性与巨大潜力。