游乐游手机版
首页/AI热点日报/热点详情

视频生成模型会推理吗?303道题全面揭示世界模型短板

类型:热点整理2026-07-04
视频生成模型无疑是近年来最受关注的人工智能技术方向之一。从Sora、Veo到Kling、Seedance,这些模型生成的画面已经达到以假乱真的水平,对时间动态和物理规律的模拟也常让人惊叹不已。越来越多的研究表明,这些模型在大规模视频数据的训练过程中,已经隐式地学习到了一种 "世界模型 "——即对现实世界

视频生成模型无疑是近年来最受关注的人工智能技术方向之一。从Sora、Veo到Kling、Seedance,这些模型生成的画面已经达到以假乱真的水平,对时间动态和物理规律的模拟也常让人惊叹不已。越来越多的研究表明,这些模型在大规模视频数据的训练过程中,已经隐式地学习到了一种"世界模型"——即对现实世界运行方式的某种内在理解机制。

然而,一个关键问题似乎一直被有意无意地忽略:当模型生成一段看似"合理"的视频时,它是否真的在每一帧之间进行着连贯的推理?还是说,它仅仅是根据概率拼凑出一个看起来正确的结果?

我们将这种能力正式定义为"推理一致性"(Reasoning Coherence)。简单来说,它指的是生成视频中的事件能否在帧与帧之间保持因果一致、令人信服的演化,而不是跳跃或断裂的片段。



实际上,已有一些研究工作尝试评估视频模型的推理能力。但它们有的只关注最后"一帧"的结果来判断对错,有的只评估单个物理现象是否合理。遗憾的是,这些方法都未能刻画"推理一致性"这一核心维度,自然也就无法回答那个更本质的问题:到底是在推理链条的哪一步走错了,才导致整个任务失败?

MME-CoF-Pro 基准

该研究团队此前已提出MME-CoF(相关论文已被CVPR 2026 Findings接收),首次系统性地探究了视频模型的"帧链推理"(CoF)潜力,覆盖了12个维度。如今,他们的升级版——MME-CoF-Pro,已被ECCV 2026接收。

这次升级是全面性的:推理类别从12个扩展至16个;更重要的是,它将粗粒度的定性评估升级为经过人工校验的、过程级别的"推理分数",并首次将"推理引导"作为可控变量纳入评测体系。



这项工作由美国东北大学联合香港中文大学、北京大学与NVIDIA共同完成。MME-CoF-Pro的核心贡献在于:它是业界首个明确将"推理引导"作为可控变量,并在过程级别(process-level)上评估视频推理一致性的基准。同时,它还提供了细粒度的错因分析以及一些有趣的机理发现。

数据构成



MME-CoF-Pro总共包含303个精心策划的图像-文字-视频推理样本,涉及370张图像,覆盖了16个推理类别。这些样本从27个现有的真实与合成基准中筛选构建,并经过领域专家的三轮人工校验。

这16个类别被组织成四大能力组,从底层的感知能力逐级递进到高层的任务推理:

  • 感知推理:视觉细节、旋转判断、物体计数。
  • 空间与结构推理:视觉轨迹追踪、真实世界空间认知、2D/3D几何关系。
  • 物理与因果推理:物理规律遵从、4D动态模拟、自然科学常识。
  • 任务导向推理:具身操作、GUI交互、医学影像分析、表格图表理解、文本/代码生成、视觉逻辑推理。



与以往工作最大的不同在于,MME-CoF-Pro 将"推理引导"作为一个可以显式控制的变量。每个样本都提供了无提示和文字提示两种设置;其中,对感知要求最高的8个类别(称为MME-CoF-Pro-mini)还额外提供了视觉提示。除提示部分外,其余指令完全一致:

  • No Hint:标准设置,模型只能凭借任务指令独立推理。
  • Text Hint:在指令中补充关键推理步骤的文字描述。
  • Visual Hint:在输入图像上画出边界框、箭头或轨迹来引导。

由于只有提示在变化,其他条件完全相同,因此任何性能上的差异都可以因果地归因到推理引导本身。



Reasoning Score:直击推理链路的"手术刀"

传统的评测只看生成"质量",这根本无法回答模型到底是否理解世界。因此,研究者提出了一个过程级指标——Reasoning Score(RS)。简单来说,就是为每个样本标注一串经过人工校验的关键推理步骤,每一步都是正确生成必须命中的"检查点"。而RS,就是模型正确完成的步骤比例,由判别模型一步步独立判定。

它不再是"答对或答错"那种非黑即白的判断,而是能够精准定位模型到底是在推理链的哪一步"崩塌"的,并支持跨模型的可靠比较。这才是真正的"体检报告"。



测评实验

在实验部分,作者全面评估了7个最强的闭源与开源视频生成模型:Veo-3.1、Veo-3.1-fast、Sora-2、Seedance-1.0-pro、Seedance-1.0-fast、Kling-v2.1与Cosmos-Predict2-14B。在三种提示设置下进行对比后,得出了几个非常有趣的结论。

发现一:视频生成模型普遍不具备强推理能力,且推理能力与生成质量几乎完全解耦。

即便表现最好的Veo,得分也仅有56分,Sora是50分,其余模型明显落后。更值得关注的是:高画质绝不等于会推理。以Kling为例,它的综合生成质量评分高达65.1,但推理分数却低至13.8。它能把风吹树林的动态渲染得惟妙惟肖,却完全没有遵循"逐渐放大并寻找手提包"这样的推理指令。推理,是一种与生成质量相互独立的能力,甚至可以说是一种稀缺能力。



发现二:文字提示是一把双刃剑——看似提分,实则诱发幻觉、损害一致性。

多数模型加上文字提示后,推理分数有所提升,但代价是7个模型的一致性分数几乎全线下降,尤其是在"4D动态"任务上,7个模型的一致性分数全部下跌。这说明模型往往只是在"照本宣科"地执行字面指令,比如为了满足一个"运动"指令,凭空"分裂"出一个多余的物体。显式提示更像是转移了模型的注意力,而非增强其对物理世界的理解。

发现三:视觉提示并非万能,对精细感知任务甚至会帮倒忙。

视觉提示在那些结构化、需要空间引导的任务(如具身操作、GUI交互)上确实有帮助,但在视觉细节、物体计数这类精细任务上,却拉低了成绩。更有趣的是,模型常常把视觉提示"画进"画面里——指示方向的箭头被当成了一个物体,渲染成弯曲的轨迹。作者推测,这源于训练数据本身的偏差:标注的箭头、高亮等常常与合成内容共同出现,模型便将"引导"误当成了"内容"的一部分。

案例研究:提示越多,推理就越好吗?

一个很自然的问题就是:如果不断叠加提示信息,能否单调地提升推理表现?作者在"冰冻湖"任务上用Sora-2做了一组渐进式的提示增强实验。



结果很有意思:虽然文字与视觉提示带来的推理分数普遍高于无提示的基线,但两条曲线都在各个阶段剧烈波动,并没有清晰的上升趋势。这说明,当前的模型无法以累积的方式,稳定地利用越来越详细的提示信息。简单地堆叠提示,并不能保证推理能力的同步提升。这无疑指向了一个开放性的难题:如何让视频模型把多步提示,稳定地落地为连贯的推理轨迹?

人类研究:Reasoning Score 究竟靠不靠谱?

为了验证推理分数能否有效地、独立地刻画视频推理能力,作者邀请了10位标注者,对随机抽取的视频按照标注步骤进行打分,并与现有的其他指标进行了对比。



结果显示,推理分数与人工评分的斯皮尔曼相关性高达0.61,大幅超越了指令对齐指标和最后一帧正确率指标。这充分说明:Reasoning Score比现有的指标更能捕捉人类视角下的推理行为,是评估推理一致性的一个真正有效的"度量衡"。

来源:https://www.163.com/dy/article/L0HGP9FE0511AQHO.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。