ECCV 2026：303道题揭示视频生成模型推理短板_AI热点日报

ECCV 2026：303道题揭示视频生成模型推理短板

类型：热点整理2026-06-30

视频生成模型无疑是当前最受瞩目的技术方向之一。从 Sora、Veo 到 Kling、Seedance，这些模型产出的画面已达到真假难辨的程度，对时间动态和物理规律的模拟也令人惊叹。说实话，从这些模型产出的视频里，你能明显感觉到，它们似乎已经在海量数据中默默学习并掌握了一种隐式的“世界模型”。但一个

视频生成模型无疑是当前最受瞩目的技术方向之一。从 Sora、Veo 到 Kling、Seedance，这些模型产出的画面已达到真假难辨的程度，对时间动态和物理规律的模拟也令人惊叹。说实话，从这些模型产出的视频里，你能明显感觉到，它们似乎已经在海量数据中默默学习并掌握了一种隐式的“世界模型”。

ECCV 2026

但一个核心问题始终被有意或无意地忽略：当模型生成一段看起来“合理”的视频时，它真的在逐帧进行连贯的推理吗？亦或是，仅仅绘制出了一个看似正确的表面结果？

我们正式将这一维度定义为推理一致性（Reasoning Coherence）。简而言之，它衡量的是生成视频中，事件能否在帧与帧之间保持因果逻辑一致，并沿着可信的路径演化下去。

此前，已有一些工作尝试评估视频模型的推理能力。有的仅关注“最后一帧”来判断结果正确与否，有的则只评价单个物理现象是否合理。但它们都未能专门刻画“推理一致性”，因此也难以回答一个关键问题：究竟是推理链上的哪一个环节出了差错，才导致整个任务彻底失败？

MME-CoF-Pro 基准：从“答对”迈向“推对”

研究团队此前已提出 MME-CoF（arXiv:2510.26802，已被 CVPR 2026 Findings 接收），它系统性地探索了视频模型在 Chain-of-Frame（CoF）推理上的潜力，覆盖了 12 个维度。如今，被 ECCV 2026 收录的 MME-CoF-Pro 在此基础上进行了全面升级：推理类别从 12 个扩展至 16 个，将粗粒度的定性评估升级为经过人工校验的过程级 Reasoning Score，并且首次将“推理引导”（通过文字或视觉提示）作为可控变量，纳入评测体系。

论文地址：https://arxiv.org/abs/2603.20194v1
项目主页：https://video-reasoning-coherence.github.io/
Huggingface：https://huggingface.co/datasets/yqi19/mme-cof-pro
GitHub：https://github.com/yqi19/MME-CoF-Pro

该工作由美国东北大学联合香港中文大学、北京大学与 NVIDIA 共同完成。MME-CoF-Pro 是业界首个明确将“推理引导”作为可控变量，并在过程级别（process-level）评估视频推理一致性的基准，同时还提供了极为细粒度的错因分析与有趣的机理发现。

数据构成：303 个精心策划的样本

MME-CoF-Pro 一共包含303个精心策划的图像-文字-视频推理样本，370张图像，覆盖16个推理类别。这些样本从 27 个现有的真实与合成基准中筛选构建而成，并经过了领域专家三轮人工校验。

这 16 个类别被组织成四大能力组，从底层感知逐级递进到高层任务推理：

感知推理（Perceptual）：视觉细节、旋转、物体计数；
空间与结构推理（Spatial & Structural）：视觉轨迹、真实世界空间、2D / 3D 几何；
物理与因果推理（Physical & Causal）：物理规律、4D 动态、自然科学；
任务导向推理（Task-oriented）：具身操作、GUI 交互、医学影像、表格图表、文本/代码、视觉逻辑。

与以往工作最大的不同在于：MME-CoF-Pro 将“推理引导”视为一个可以显式控制的变量。每个样本都提供了 No Hint 与 Text Hint 两种设置；其中 8 个感知要求最高的类别（即 MME-CoF-Pro-mini）还额外提供了 Visual Hint。除提示部分外，其余指令完全保持一致：

No Hint（无提示）：标准设置，模型仅能凭任务指令独立推理；
Text Hint（文字提示）：在指令中补充关键推理步骤的文字描述；
Visual Hint（视觉提示）：在输入图像上绘制边界框、箭头或轨迹来进行引导。

由于只有提示内容在变化，其他条件完全相同，因此任何性能差异都可以因果地归因于推理引导本身。

Reasoning Score：直击推理链路的“手术刀”

传统的评测仅关注生成“质量”，无法回答模型是否真正理解世界。为此，团队提出了一项过程级指标：Reasoning Score（RS）。具体操作为：为每个样本标注一串经过人工校验的关键推理步骤，每一步都是正确生成所必须命中的 checkpoint；RS 即为模型正确完成的步骤比例，由判别模型（Gemini-2.5-Flash）逐步独立判定。

它不再是过去那种“答对/答错”的非黑即白判断，而是能够精准定位模型在推理链中哪一步崩溃，并支持跨模型的可靠比较。

测评实验：7 个模型的“推理大考”

在实验部分，作者全面评测了 7 个最强的闭源与开源视频生成模型：Veo-3.1、Veo-3.1-fast、Sora-2、Seedance-1.0-pro、Seedance-1.0-fast、Kling-v2.1 与 Cosmos-Predict2-14B，并在三种提示设置下进行了系统对比，得出了几个非常有意思的结论。

发现一：视频生成模型普遍不具备强推理能力，且推理能力与生成质量几乎完全解耦。

即便最强的 Veo 也仅拿到 56 分，Sora 为 50 分，其余模型明显落后——最好的也只是勉强超过 50 分。更值得警惕的是：高画质并不等同于会推理。值得关注的是：Kling 的综合生成质量（Avg）高达65.1，但其 Reasoning Score 却低至13.8。它能将微风吹过树林的动态渲染得惟妙惟肖，却完全未能遵循“逐渐放大并寻找手提包”的推理指令。推理，是一种与生成质量相互独立的能力——这一结论值得所有模型研发者反复品味。

发现二：文字提示是一把双刃剑——看似提升分数，实则诱发幻觉、损害一致性。

多数模型在加上文字提示后 RS 确实有所提升（Veo-3.1 +4.5、Sora-2 +7.6、Cosmos +6.7），但代价是 7 个模型的一致性分数（CS）几乎全线下降。尤其在 4D Dynamics 类别上，7 个模型的 CS 全部下滑（-1.2 至 -15.6）。模型似乎只是在“照本宣科”地执行字面指令——比如为了满足运动指令，凭空“分裂”出一个多余的物体。显式提示，更像是转移了模型的注意力，而非增强了它的理解。

发现三：视觉提示并非万能，对精细感知任务甚至会帮倒忙。

它在那些结构化、需要空间引导的任务（如具身操作、GUI 交互）上确实有帮助，但在视觉细节、物体计数这类精细任务上却拉了分数（Visual Detail：Veo-3.1 RS -13.0、CS -14.4）。更有意思的是，模型常常将视觉提示“画进”画面里——一个指示方向的箭头被当成了物体，渲染成一段弯曲的轨迹。作者推测这背后是训练数据的偏差：标注箭头或高亮常与合成内容同时出现，导致模型将“引导”误认为“内容”。

案例研究：提示越多，推理就越好吗？

一个很自然的问题随之产生：不断增加提示信息，能否稳定地提升推理表现？作者在 Frozen Lake 任务上，用 Sora-2 开展了一组渐进式的 scaling 实验。

结果表明，虽然文字与视觉提示带来的推理分数普遍高于无提示基线（0.23），但两条曲线都在各个阶段剧烈波动，没有清晰的上升趋势。这说明，当前的模型无法以累积的方式，稳定地利用越来越详细的提示信息——简单地堆叠提示，并不能保证推理表现的提升。这也指向了一个开放问题：如何让视频模型将多步提示，稳定地落地为连贯的推理轨迹？

人类研究：Reasoning Score 究竟靠不靠谱？

为了验证 RS 这个指标能否有效、独立地刻画视频推理能力，作者邀请了 10 位标注者，对随机抽取的视频按标注步骤进行打分，并与现有指标进行了对比。

结果显示，Reasoning Score 与人工评分的 Spearman 相关性高达 0.61，远远超过 Instruction Alignment（0.17），而与 Pass@5 last-frame correctness 则呈负相关（-0.41）。这充分说明：RS 比现有指标更能捕捉到人类视角下的推理行为，是评估推理一致性的有效指标。

结语

本文系统地评估了主流视频生成模型在推理一致性上的真实水平，提出了过程级评测指标 Reasoning Score，并通过文字/视觉提示的可控对比，深入分析了模型的失败模式与作用机理。

核心结论引人深思：当前的视频生成模型，更多是在“跟随”提示，而非真正“理解”并落地世界规律。在通往真正世界模型推理的道路上，更强的视觉对齐能力、指令理解能力与抗幻觉机制，仍然是我们必须攻克的关键挑战。

来源：https://www.jiqizhixin.com/api/article_library/articles/2026-06-27-4

世界模型

延伸阅读

补充最近整理过的热点入口。