视频生成模型会推理吗？303道题全面揭示世界模型短板_AI热点日报

视频生成模型会推理吗？303道题全面揭示世界模型短板

类型：热点整理2026-07-04

视频生成模型无疑是近年来最受关注的人工智能技术方向之一。从Sora、Veo到Kling、Seedance，这些模型生成的画面已经达到以假乱真的水平，对时间动态和物理规律的模拟也常让人惊叹不已。越来越多的研究表明，这些模型在大规模视频数据的训练过程中，已经隐式地学习到了一种 "世界模型 "——即对现实世界

视频生成模型无疑是近年来最受关注的人工智能技术方向之一。从Sora、Veo到Kling、Seedance，这些模型生成的画面已经达到以假乱真的水平，对时间动态和物理规律的模拟也常让人惊叹不已。越来越多的研究表明，这些模型在大规模视频数据的训练过程中，已经隐式地学习到了一种"世界模型"——即对现实世界运行方式的某种内在理解机制。

然而，一个关键问题似乎一直被有意无意地忽略：当模型生成一段看似"合理"的视频时，它是否真的在每一帧之间进行着连贯的推理？还是说，它仅仅是根据概率拼凑出一个看起来正确的结果？

我们将这种能力正式定义为"推理一致性"（Reasoning Coherence）。简单来说，它指的是生成视频中的事件能否在帧与帧之间保持因果一致、令人信服的演化，而不是跳跃或断裂的片段。

实际上，已有一些研究工作尝试评估视频模型的推理能力。但它们有的只关注最后"一帧"的结果来判断对错，有的只评估单个物理现象是否合理。遗憾的是，这些方法都未能刻画"推理一致性"这一核心维度，自然也就无法回答那个更本质的问题：到底是在推理链条的哪一步走错了，才导致整个任务失败？

MME-CoF-Pro 基准

该研究团队此前已提出MME-CoF（相关论文已被CVPR 2026 Findings接收），首次系统性地探究了视频模型的"帧链推理"（CoF）潜力，覆盖了12个维度。如今，他们的升级版——MME-CoF-Pro，已被ECCV 2026接收。

这次升级是全面性的：推理类别从12个扩展至16个；更重要的是，它将粗粒度的定性评估升级为经过人工校验的、过程级别的"推理分数"，并首次将"推理引导"作为可控变量纳入评测体系。

这项工作由美国东北大学联合香港中文大学、北京大学与NVIDIA共同完成。MME-CoF-Pro的核心贡献在于：它是业界首个明确将"推理引导"作为可控变量，并在过程级别（process-level）上评估视频推理一致性的基准。同时，它还提供了细粒度的错因分析以及一些有趣的机理发现。

数据构成

MME-CoF-Pro总共包含303个精心策划的图像-文字-视频推理样本，涉及370张图像，覆盖了16个推理类别。这些样本从27个现有的真实与合成基准中筛选构建，并经过领域专家的三轮人工校验。

这16个类别被组织成四大能力组，从底层的感知能力逐级递进到高层的任务推理：

感知推理：视觉细节、旋转判断、物体计数。
空间与结构推理：视觉轨迹追踪、真实世界空间认知、2D/3D几何关系。
物理与因果推理：物理规律遵从、4D动态模拟、自然科学常识。
任务导向推理：具身操作、GUI交互、医学影像分析、表格图表理解、文本/代码生成、视觉逻辑推理。

与以往工作最大的不同在于，MME-CoF-Pro 将"推理引导"作为一个可以显式控制的变量。每个样本都提供了无提示和文字提示两种设置；其中，对感知要求最高的8个类别（称为MME-CoF-Pro-mini）还额外提供了视觉提示。除提示部分外，其余指令完全一致：

No Hint：标准设置，模型只能凭借任务指令独立推理。
Text Hint：在指令中补充关键推理步骤的文字描述。
Visual Hint：在输入图像上画出边界框、箭头或轨迹来引导。

由于只有提示在变化，其他条件完全相同，因此任何性能上的差异都可以因果地归因到推理引导本身。

Reasoning Score：直击推理链路的"手术刀"

传统的评测只看生成"质量"，这根本无法回答模型到底是否理解世界。因此，研究者提出了一个过程级指标——Reasoning Score（RS）。简单来说，就是为每个样本标注一串经过人工校验的关键推理步骤，每一步都是正确生成必须命中的"检查点"。而RS，就是模型正确完成的步骤比例，由判别模型一步步独立判定。

它不再是"答对或答错"那种非黑即白的判断，而是能够精准定位模型到底是在推理链的哪一步"崩塌"的，并支持跨模型的可靠比较。这才是真正的"体检报告"。

测评实验

在实验部分，作者全面评估了7个最强的闭源与开源视频生成模型：Veo-3.1、Veo-3.1-fast、Sora-2、Seedance-1.0-pro、Seedance-1.0-fast、Kling-v2.1与Cosmos-Predict2-14B。在三种提示设置下进行对比后，得出了几个非常有趣的结论。

发现一：视频生成模型普遍不具备强推理能力，且推理能力与生成质量几乎完全解耦。

即便表现最好的Veo，得分也仅有56分，Sora是50分，其余模型明显落后。更值得关注的是：高画质绝不等于会推理。以Kling为例，它的综合生成质量评分高达65.1，但推理分数却低至13.8。它能把风吹树林的动态渲染得惟妙惟肖，却完全没有遵循"逐渐放大并寻找手提包"这样的推理指令。推理，是一种与生成质量相互独立的能力，甚至可以说是一种稀缺能力。

发现二：文字提示是一把双刃剑——看似提分，实则诱发幻觉、损害一致性。

多数模型加上文字提示后，推理分数有所提升，但代价是7个模型的一致性分数几乎全线下降，尤其是在"4D动态"任务上，7个模型的一致性分数全部下跌。这说明模型往往只是在"照本宣科"地执行字面指令，比如为了满足一个"运动"指令，凭空"分裂"出一个多余的物体。显式提示更像是转移了模型的注意力，而非增强其对物理世界的理解。

发现三：视觉提示并非万能，对精细感知任务甚至会帮倒忙。

视觉提示在那些结构化、需要空间引导的任务（如具身操作、GUI交互）上确实有帮助，但在视觉细节、物体计数这类精细任务上，却拉低了成绩。更有趣的是，模型常常把视觉提示"画进"画面里——指示方向的箭头被当成了一个物体，渲染成弯曲的轨迹。作者推测，这源于训练数据本身的偏差：标注的箭头、高亮等常常与合成内容共同出现，模型便将"引导"误当成了"内容"的一部分。

案例研究：提示越多，推理就越好吗？

一个很自然的问题就是：如果不断叠加提示信息，能否单调地提升推理表现？作者在"冰冻湖"任务上用Sora-2做了一组渐进式的提示增强实验。

结果很有意思：虽然文字与视觉提示带来的推理分数普遍高于无提示的基线，但两条曲线都在各个阶段剧烈波动，并没有清晰的上升趋势。这说明，当前的模型无法以累积的方式，稳定地利用越来越详细的提示信息。简单地堆叠提示，并不能保证推理能力的同步提升。这无疑指向了一个开放性的难题：如何让视频模型把多步提示，稳定地落地为连贯的推理轨迹？

人类研究：Reasoning Score 究竟靠不靠谱？

为了验证推理分数能否有效地、独立地刻画视频推理能力，作者邀请了10位标注者，对随机抽取的视频按照标注步骤进行打分，并与现有的其他指标进行了对比。

结果显示，推理分数与人工评分的斯皮尔曼相关性高达0.61，大幅超越了指令对齐指标和最后一帧正确率指标。这充分说明：Reasoning Score比现有的指标更能捕捉人类视角下的推理行为，是评估推理一致性的一个真正有效的"度量衡"。

来源：https://www.163.com/dy/article/L0HGP9FE0511AQHO.html

世界模型

延伸阅读

补充最近整理过的热点入口。