哈佛联合研究揭示视频生成模型的致命缺陷

时间：2026-07-02 10:17

视频生成模型的“记忆大考”：哈佛这项基准测试，揭示了AI最致命的短板你想象过这样一个场景吗？你正用手机拍摄一个在炉子上沸腾的汤锅，镜头紧紧锁定它。然后，你转身去拿勺子，镜头随之移开。几秒后，当你转回来，屏幕里的汤锅还在吗？它应该还在沸腾，水平可能下降了一些，颜色也许因浓缩而变深。如果这是一个真实的

视频生成模型的“记忆大考”：哈佛这项基准测试，揭示了AI最致命的短板

你想象过这样一个场景吗？你正用手机拍摄一个在炉子上沸腾的汤锅，镜头紧紧锁定它。然后，你转身去拿勺子，镜头随之移开。几秒后，当你转回来，屏幕里的汤锅还在吗？它应该还在沸腾，水平可能下降了一些，颜色也许因浓缩而变深。如果这是一个真实的摄像机，答案毋庸置疑。但如果是AI生成的视频呢？它可能会忘记那口锅的存在，甚至凭空给你变出一个水槽来。

这听起来像个玩笑，但却是困扰当前所有AI视频生成模型的核心难题。最近，哈佛大学联合麻省理工、约翰斯·霍普金斯、卡内基梅隆、波士顿大学，以及谷歌和MIT-IBM Watson AI实验室，发布了一个名为MemoBench的全新评测基准。这个基准，专门用来衡量视频生成模型在物体“消失再出现”时的“记忆能力”。

有关MemoBench的研究论文已于2026年6月25日以预印本的形式发布（编号arXiv:2606.27537）。论文的核心成果，就是这个专门针对视频模型“记忆力”的考卷。

---

一、为什么AI在“转个身”之后就会“忘事”？

问题的根源，在于AI的工作方式与我们直觉中的“摄像机”截然不同。做一个简单的类比：真实摄像机忠实记录光信号，就像一台录音机；而AI视频模型则更像一个画家。它根据已看到的画面，推测并“画出”下一帧应该是什么样子。这个推测过程依赖于大量的统计学规律——模型在海量视频数据中学习过“汤锅通常长什么样”、“厨房一般如何布局”，然后用这些知识来填补新帧。

问题出在“推测”这一步。当镜头转走，模型失去了直接的视觉输入。它不再能“看到”那口锅，只能凭对之前画面的“印象”来推测锅在消失期间发生了什么变化，以及重新入镜时应该呈现什么状态。这种在没有直接视觉输入情况下维持对物体状态的认知能力，在认知科学里有一个专业名称，叫做“客体永久性”——这是人类婴儿几个月大就能掌握的基础能力，知道玩具被布盖住后依然存在。然而，当前最先进的AI视频生成模型，在这个婴儿级的能力上，表现得令人担忧。

现有的视频评测基准大多只关注“镜头里能看到的东西”，比如两帧之间的颜色是否一致、人物动作是否流畅。少数测试会让物体短暂离开画面，但场景往往是静止的。而MemoBench专门针对一个更贴近现实的挑战：物体消失期间，世界还在继续变化。那锅汤，在镜头看不见它的时候，仍在沸腾。

---

二、360段视频构成的“消失与重现”考卷

MemoBench的考卷由360段视频组成，分为两大类，各有所长。

合成数据集包含了196段视频，全部在虚幻引擎5中制作。研究团队在城市街道、农场、日式庭院等14个不同场景下，设置了五类虚拟环境。在每个场景里，一个有动画效果的目标物体按预设路径运动，摄像机则模拟第一人称的观察者：先面向目标，再转头、掉头或走U形弯，最后回到原来的方向。这批视频的优势在于精准可控——每一帧都同步导出了RGB图像、精确深度图和相机参数，为评测提供了坚实的几何基准。

真实世界数据集则包含164段视频，覆盖了7大类共30种物理状态变化。研究团队在受控的室内环境中，录制了各种化学与物理反应：固体溶解、蜡烛燃烧、墨水在水中扩散、化学反应产生的颜色变化、粘性液体流动、泡沫消散，以及材料的压缩和撕裂。摄像机同样执行三段式动作：先对准变化中的物体，然后摇开，再摇回来。这批视频的价值在于材料多样性——游戏引擎无法精准模拟粘度、弹性、热传导等真实物理属性，只有真实录像才能捕捉这些细腻的状态变化。

---

三、测量AI记忆力的工具箱

给AI的“记忆力”打分，不能凭直觉。研究团队设计了一套由自动化指标和基于大语言模型 (LLM) 的问答评测组成的体系，两者互补。

自动化指标这一侧，首先关注的是整体视频质量，通过LAION美学评分和CLIP-IQA+图像质量评分来衡量生成画面的视觉观感。运动流畅度则借助RAFT-Large光流算法来分析。但最关键的指标是物体身份一致性，它使用DINOv2这个视觉特征提取工具，计算重现阶段帧与视频第一帧之间，最相似的那40%小块的平均相似度，并按7:3比例加权处理，防止偶发的一帧差表现被平均掩盖。

此外，还有三维几何一致性指标，通过Depth Anything V2模型估算每一帧的深度图，比较相邻帧之间的深度结构是否稳定。

在这些通用指标之外，研究团队专门设计了“物体重现分数”，英文缩写ORS。这个分数回答了一个最基本的问题：摄像机转回来时，目标物体有没有出现在画面里？评测方法是利用SAM-3这个文字驱动的分割模型，用目标物体的描述去检测每一帧。如果检测到面积合理的物体，就记录置信度；最终将成功检测帧的比例乘以平均置信度，得出ORS分数。分数高说明模型能稳定地生成可辨识的目标物体。

LLM问答评测则像是一套智能考官系统。它会根据视频的文字提示和第一帧，生成24道是非题，涵盖指令执行、物体背景一致性、记忆连续性和物理合理性四个维度。这些题目会经过真实视频和人工制作的失败案例双重过滤，最终只保留能有效区分好坏模型的题目。研究团队邀请了30位博士和资深工程师进行人工答题验证，人类与LLM的答题一致率高达92.9%，确认了这套评测标准的有效性。

---

四、十个模型的大考——没有人能满分

研究团队对10个当前最先进的视频生成模型进行了全面评测，它们可以分为三类：

摄像机可控的图生视频模型 (CI2V)： 包括LingBot-World、Wan2.2、FantasyWorld、HunyuanWorldPlay和HunyuanGameCraft。
基于三维重建的模型： 包括Matrix-Game 2.0和Stable Virtual Camera。
普通的图生视频模型： 包括Open-SoRA、LTX-Video和CogVideoX。

考试结果揭示了几个清晰而有趣的规律：

Stable Virtual Camera在摄像机控制和像素保真度上领先，因为它直接从三维坐标渲染，轨迹精度由数学保证。但它的视觉质量评分偏低，因为渲染过程会出现模糊、接缝等视觉瑕疵。

LTX-Video在通用视频质量指标上表现不错，物体重现分数也达到了0.330——但这背后藏着一个隐患。它几乎不移动摄像机。当连续帧几乎一模一样时，流畅度、深度一致性和物体一致性都拿到了“作弊”式的高分。它用回避难题的方式获得了高分，根本没有解决核心挑战。

在真正执行了摄像机轨迹的模型中，HunyuanWorldPlay的物体重现分数最高，达到0.582；LingBot-World紧随其后。然而，即便是最好的成绩，距离“可靠”也相当遥远——没有任何一个模型的物体重现分数超过0.6。这意味着，即使在最优秀的模型中，也仍有相当比例的帧无法可靠地呈现目标物体。

一个关键发现是：摄像机控制能力本身并不能自动带来更好的物体记忆。模型在学习如何跟踪摄像机轨迹的同时，并没有自动发展出维持被遮挡物体状态的能力。物体永久性必须作为一个独立的目标来专门处理。

LLM问答评测也揭示了自动化指标遗漏的问题。比如，Matrix-Game 2.0的视觉质量在自动化指标中很高，但在问答评测的物理合理性维度上却垫底。这是因为三维渲染产生的扭曲接缝等视觉错误，在数值分数上不明显，但能被理解语义的LLM发现并扣分。

---

五、两份失败日记：合成与真实场景的不同考验

研究团队对LingBot-World进行了专项失败分析，将错误分为六类：目标物体消失、外观漂移、状态重置、物体瞬移、背景幻觉和摄像机偏移。

在合成数据集上，背景幻觉是最常见的失败（131次），因为复杂的摄像机运动（U形掉头）让模型容易“忘记”背景。在真实世界数据集上，外观漂移成为最主要的问题（83次），模型虽然能“记住”物体在哪里，但无法准确把握物体在消失期间发生的状态变化。

这种差异反映了合成场景侧重空间多样性，而真实场景侧重状态多样性。

---

六、细节中的规律——消融实验的深层发现

一系列的对照实验揭示了更深层次的逻辑：

大物体更好记： 大型物体（占画面面积超过10%）的物体重现分数更高。旋转角度过大（超过120度），三维渲染模型的物体重现分数会接近零。
初步信息比扩大模型更重要： 提供第一帧图像对保真度的提升，远大于将模型参数从50亿扩大到140亿。这提示我们，有时候“把题看清楚”比“把模型做得更大”更有效。
存在隐藏的权衡： 当只保留旋转角度超过90度的片段时，排行榜发生了显著变化。准确跟随摄像机轨迹的能力和维持物体记忆的能力，在现有模型中存在明显的张力，很难同时做好。

归根结底，MemoBench用精心设计的测试体系，揭示了当前AI视频生成领域一个核心的未解难题：模型可以生成流畅的视频、追踪摄像机移动、维持短时内容一致性，但一旦目标物体从画面中消失，哪怕只是短暂地消失，模型就会丢失对那个物体的“记忆”。

这对于机器人、自动驾驶、游戏世界建模、增强现实等应用来说，是一个无法回避的障碍。一个自动驾驶系统，必须能在行人走到视野盲区后，仍然“记得”他的位置和行动轨迹。现有的模型，在MemoBench这道题上，远远没有达到可靠的水平。研究团队已将数据集、代码和实时排行榜公开，期待这个基准能成为推动该领域研究的共同标尺。

来源：https://www.163.com/dy/article/L0PKGDTH0511DTVV.html

轨迹