游乐游手机版
首页/AI热点日报/热点详情

ECCV 2026:303道题揭示视频生成模型推理短板

类型:热点整理2026-06-30
视频生成模型无疑是当前最受瞩目的技术方向之一。从 Sora、Veo 到 Kling、Seedance,这些模型产出的画面已达到真假难辨的程度,对时间动态和物理规律的模拟也令人惊叹。说实话,从这些模型产出的视频里,你能明显感觉到,它们似乎已经在海量数据中默默学习并掌握了一种隐式的“世界模型”。 但一个

视频生成模型无疑是当前最受瞩目的技术方向之一。从 Sora、Veo 到 Kling、Seedance,这些模型产出的画面已达到真假难辨的程度,对时间动态和物理规律的模拟也令人惊叹。说实话,从这些模型产出的视频里,你能明显感觉到,它们似乎已经在海量数据中默默学习并掌握了一种隐式的“世界模型”。

ECCV 2026

但一个核心问题始终被有意或无意地忽略:当模型生成一段看起来“合理”的视频时,它真的在逐帧进行连贯的推理吗?亦或是,仅仅绘制出了一个看似正确的表面结果?

我们正式将这一维度定义为推理一致性(Reasoning Coherence)。简而言之,它衡量的是生成视频中,事件能否在帧与帧之间保持因果逻辑一致,并沿着可信的路径演化下去。

此前,已有一些工作尝试评估视频模型的推理能力。有的仅关注“最后一帧”来判断结果正确与否,有的则只评价单个物理现象是否合理。但它们都未能专门刻画“推理一致性”,因此也难以回答一个关键问题:究竟是推理链上的哪一个环节出了差错,才导致整个任务彻底失败?

MME-CoF-Pro 基准:从“答对”迈向“推对”

研究团队此前已提出 MME-CoF(arXiv:2510.26802,已被 CVPR 2026 Findings 接收),它系统性地探索了视频模型在 Chain-of-Frame(CoF)推理上的潜力,覆盖了 12 个维度。如今,被 ECCV 2026 收录的 MME-CoF-Pro 在此基础上进行了全面升级:推理类别从 12 个扩展至 16 个,将粗粒度的定性评估升级为经过人工校验的过程级 Reasoning Score,并且首次将“推理引导”(通过文字或视觉提示)作为可控变量,纳入评测体系。

论文地址:https://arxiv.org/abs/2603.20194v1
项目主页:https://video-reasoning-coherence.github.io/
Huggingface:https://huggingface.co/datasets/yqi19/mme-cof-pro
GitHub:https://github.com/yqi19/MME-CoF-Pro

该工作由美国东北大学联合香港中文大学、北京大学与 NVIDIA 共同完成。MME-CoF-Pro 是业界首个明确将“推理引导”作为可控变量,并在过程级别(process-level)评估视频推理一致性的基准,同时还提供了极为细粒度的错因分析与有趣的机理发现。

数据构成:303 个精心策划的样本

MME-CoF-Pro 一共包含303个精心策划的图像-文字-视频推理样本,370张图像,覆盖16个推理类别。这些样本从 27 个现有的真实与合成基准中筛选构建而成,并经过了领域专家三轮人工校验

这 16 个类别被组织成四大能力组,从底层感知逐级递进到高层任务推理:

  • 感知推理(Perceptual):视觉细节、旋转、物体计数;
  • 空间与结构推理(Spatial & Structural):视觉轨迹、真实世界空间、2D / 3D 几何;
  • 物理与因果推理(Physical & Causal):物理规律、4D 动态、自然科学;
  • 任务导向推理(Task-oriented):具身操作、GUI 交互、医学影像、表格图表、文本/代码、视觉逻辑。

与以往工作最大的不同在于:MME-CoF-Pro 将“推理引导”视为一个可以显式控制的变量。每个样本都提供了 No Hint 与 Text Hint 两种设置;其中 8 个感知要求最高的类别(即 MME-CoF-Pro-mini)还额外提供了 Visual Hint。除提示部分外,其余指令完全保持一致:

  • No Hint(无提示):标准设置,模型仅能凭任务指令独立推理;
  • Text Hint(文字提示):在指令中补充关键推理步骤的文字描述;
  • Visual Hint(视觉提示):在输入图像上绘制边界框、箭头或轨迹来进行引导。

由于只有提示内容在变化,其他条件完全相同,因此任何性能差异都可以因果地归因于推理引导本身。

Reasoning Score:直击推理链路的“手术刀”

传统的评测仅关注生成“质量”,无法回答模型是否真正理解世界。为此,团队提出了一项过程级指标:Reasoning Score(RS)。具体操作为:为每个样本标注一串经过人工校验的关键推理步骤,每一步都是正确生成所必须命中的 checkpoint;RS 即为模型正确完成的步骤比例,由判别模型(Gemini-2.5-Flash)逐步独立判定。

它不再是过去那种“答对/答错”的非黑即白判断,而是能够精准定位模型在推理链中哪一步崩溃,并支持跨模型的可靠比较。

测评实验:7 个模型的“推理大考”

在实验部分,作者全面评测了 7 个最强的闭源与开源视频生成模型:Veo-3.1、Veo-3.1-fast、Sora-2、Seedance-1.0-pro、Seedance-1.0-fast、Kling-v2.1 与 Cosmos-Predict2-14B,并在三种提示设置下进行了系统对比,得出了几个非常有意思的结论。

发现一:视频生成模型普遍不具备强推理能力,且推理能力与生成质量几乎完全解耦。

即便最强的 Veo 也仅拿到 56 分,Sora 为 50 分,其余模型明显落后——最好的也只是勉强超过 50 分。更值得警惕的是:高画质并不等同于会推理。值得关注的是:Kling 的综合生成质量(Avg)高达65.1,但其 Reasoning Score 却低至13.8。它能将微风吹过树林的动态渲染得惟妙惟肖,却完全未能遵循“逐渐放大并寻找手提包”的推理指令。推理,是一种与生成质量相互独立的能力——这一结论值得所有模型研发者反复品味。

发现二:文字提示是一把双刃剑——看似提升分数,实则诱发幻觉、损害一致性。

多数模型在加上文字提示后 RS 确实有所提升(Veo-3.1 +4.5、Sora-2 +7.6、Cosmos +6.7),但代价是 7 个模型的一致性分数(CS)几乎全线下降。尤其在 4D Dynamics 类别上,7 个模型的 CS 全部下滑(-1.2 至 -15.6)。模型似乎只是在“照本宣科”地执行字面指令——比如为了满足运动指令,凭空“分裂”出一个多余的物体。显式提示,更像是转移了模型的注意力,而非增强了它的理解。

发现三:视觉提示并非万能,对精细感知任务甚至会帮倒忙。

它在那些结构化、需要空间引导的任务(如具身操作、GUI 交互)上确实有帮助,但在视觉细节、物体计数这类精细任务上却拉了分数(Visual Detail:Veo-3.1 RS -13.0、CS -14.4)。更有意思的是,模型常常将视觉提示“画进”画面里——一个指示方向的箭头被当成了物体,渲染成一段弯曲的轨迹。作者推测这背后是训练数据的偏差:标注箭头或高亮常与合成内容同时出现,导致模型将“引导”误认为“内容”。

案例研究:提示越多,推理就越好吗?

一个很自然的问题随之产生:不断增加提示信息,能否稳定地提升推理表现?作者在 Frozen Lake 任务上,用 Sora-2 开展了一组渐进式的 scaling 实验。

结果表明,虽然文字与视觉提示带来的推理分数普遍高于无提示基线(0.23),但两条曲线都在各个阶段剧烈波动,没有清晰的上升趋势。这说明,当前的模型无法以累积的方式,稳定地利用越来越详细的提示信息——简单地堆叠提示,并不能保证推理表现的提升。这也指向了一个开放问题:如何让视频模型将多步提示,稳定地落地为连贯的推理轨迹?

人类研究:Reasoning Score 究竟靠不靠谱?

为了验证 RS 这个指标能否有效、独立地刻画视频推理能力,作者邀请了 10 位标注者,对随机抽取的视频按标注步骤进行打分,并与现有指标进行了对比。

结果显示,Reasoning Score 与人工评分的 Spearman 相关性高达 0.61,远远超过 Instruction Alignment(0.17),而与 Pass@5 last-frame correctness 则呈负相关(-0.41)。这充分说明:RS 比现有指标更能捕捉到人类视角下的推理行为,是评估推理一致性的有效指标。

结语

本文系统地评估了主流视频生成模型在推理一致性上的真实水平,提出了过程级评测指标 Reasoning Score,并通过文字/视觉提示的可控对比,深入分析了模型的失败模式与作用机理。

核心结论引人深思:当前的视频生成模型,更多是在“跟随”提示,而非真正“理解”并落地世界规律。在通往真正世界模型推理的道路上,更强的视觉对齐能力、指令理解能力与抗幻觉机制,仍然是我们必须攻克的关键挑战。

来源:https://www.jiqizhixin.com/api/article_library/articles/2026-06-27-4

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。