游乐游手机版
首页/科技数码/文章详情

哈佛联合研究揭示视频生成模型的致命缺陷

时间:2026-07-02 10:17
视频生成模型的“记忆大考”:哈佛这项基准测试,揭示了AI最致命的短板 你想象过这样一个场景吗?你正用手机拍摄一个在炉子上沸腾的汤锅,镜头紧紧锁定它。然后,你转身去拿勺子,镜头随之移开。几秒后,当你转回来,屏幕里的汤锅还在吗?它应该还在沸腾,水平可能下降了一些,颜色也许因浓缩而变深。如果这是一个真实的

视频生成模型的“记忆大考”:哈佛这项基准测试,揭示了AI最致命的短板

你想象过这样一个场景吗?你正用手机拍摄一个在炉子上沸腾的汤锅,镜头紧紧锁定它。然后,你转身去拿勺子,镜头随之移开。几秒后,当你转回来,屏幕里的汤锅还在吗?它应该还在沸腾,水平可能下降了一些,颜色也许因浓缩而变深。如果这是一个真实的摄像机,答案毋庸置疑。但如果是AI生成的视频呢?它可能会忘记那口锅的存在,甚至凭空给你变出一个水槽来。

这听起来像个玩笑,但却是困扰当前所有AI视频生成模型的核心难题。最近,哈佛大学联合麻省理工、约翰斯·霍普金斯、卡内基梅隆、波士顿大学,以及谷歌和MIT-IBM Watson AI实验室,发布了一个名为MemoBench的全新评测基准。这个基准,专门用来衡量视频生成模型在物体“消失再出现”时的“记忆能力”。

有关MemoBench的研究论文已于2026年6月25日以预印本的形式发布(编号arXiv:2606.27537)。论文的核心成果,就是这个专门针对视频模型“记忆力”的考卷。

---

一、为什么AI在“转个身”之后就会“忘事”?

问题的根源,在于AI的工作方式与我们直觉中的“摄像机”截然不同。做一个简单的类比:真实摄像机忠实记录光信号,就像一台录音机;而AI视频模型则更像一个画家。它根据已看到的画面,推测并“画出”下一帧应该是什么样子。这个推测过程依赖于大量的统计学规律——模型在海量视频数据中学习过“汤锅通常长什么样”、“厨房一般如何布局”,然后用这些知识来填补新帧。

问题出在“推测”这一步。当镜头转走,模型失去了直接的视觉输入。它不再能“看到”那口锅,只能凭对之前画面的“印象”来推测锅在消失期间发生了什么变化,以及重新入镜时应该呈现什么状态。这种在没有直接视觉输入情况下维持对物体状态的认知能力,在认知科学里有一个专业名称,叫做“客体永久性”——这是人类婴儿几个月大就能掌握的基础能力,知道玩具被布盖住后依然存在。然而,当前最先进的AI视频生成模型,在这个婴儿级的能力上,表现得令人担忧。

现有的视频评测基准大多只关注“镜头里能看到的东西”,比如两帧之间的颜色是否一致、人物动作是否流畅。少数测试会让物体短暂离开画面,但场景往往是静止的。而MemoBench专门针对一个更贴近现实的挑战:物体消失期间,世界还在继续变化。那锅汤,在镜头看不见它的时候,仍在沸腾。

---

二、360段视频构成的“消失与重现”考卷

MemoBench的考卷由360段视频组成,分为两大类,各有所长。

合成数据集包含了196段视频,全部在虚幻引擎5中制作。研究团队在城市街道、农场、日式庭院等14个不同场景下,设置了五类虚拟环境。在每个场景里,一个有动画效果的目标物体按预设路径运动,摄像机则模拟第一人称的观察者:先面向目标,再转头、掉头或走U形弯,最后回到原来的方向。这批视频的优势在于精准可控——每一帧都同步导出了RGB图像、精确深度图和相机参数,为评测提供了坚实的几何基准。

真实世界数据集则包含164段视频,覆盖了7大类共30种物理状态变化。研究团队在受控的室内环境中,录制了各种化学与物理反应:固体溶解、蜡烛燃烧、墨水在水中扩散、化学反应产生的颜色变化、粘性液体流动、泡沫消散,以及材料的压缩和撕裂。摄像机同样执行三段式动作:先对准变化中的物体,然后摇开,再摇回来。这批视频的价值在于材料多样性——游戏引擎无法精准模拟粘度、弹性、热传导等真实物理属性,只有真实录像才能捕捉这些细腻的状态变化。

---

三、测量AI记忆力的工具箱

给AI的“记忆力”打分,不能凭直觉。研究团队设计了一套由自动化指标和基于大语言模型 (LLM) 的问答评测组成的体系,两者互补。

自动化指标这一侧,首先关注的是整体视频质量,通过LAION美学评分和CLIP-IQA+图像质量评分来衡量生成画面的视觉观感。运动流畅度则借助RAFT-Large光流算法来分析。但最关键的指标是物体身份一致性,它使用DINOv2这个视觉特征提取工具,计算重现阶段帧与视频第一帧之间,最相似的那40%小块的平均相似度,并按7:3比例加权处理,防止偶发的一帧差表现被平均掩盖。

此外,还有三维几何一致性指标,通过Depth Anything V2模型估算每一帧的深度图,比较相邻帧之间的深度结构是否稳定。

在这些通用指标之外,研究团队专门设计了“物体重现分数”,英文缩写ORS。这个分数回答了一个最基本的问题:摄像机转回来时,目标物体有没有出现在画面里?评测方法是利用SAM-3这个文字驱动的分割模型,用目标物体的描述去检测每一帧。如果检测到面积合理的物体,就记录置信度;最终将成功检测帧的比例乘以平均置信度,得出ORS分数。分数高说明模型能稳定地生成可辨识的目标物体。

LLM问答评测则像是一套智能考官系统。它会根据视频的文字提示和第一帧,生成24道是非题,涵盖指令执行、物体背景一致性、记忆连续性和物理合理性四个维度。这些题目会经过真实视频和人工制作的失败案例双重过滤,最终只保留能有效区分好坏模型的题目。研究团队邀请了30位博士和资深工程师进行人工答题验证,人类与LLM的答题一致率高达92.9%,确认了这套评测标准的有效性。

---

四、十个模型的大考——没有人能满分

研究团队对10个当前最先进的视频生成模型进行了全面评测,它们可以分为三类:

  • 摄像机可控的图生视频模型 (CI2V): 包括LingBot-World、Wan2.2、FantasyWorld、HunyuanWorldPlay和HunyuanGameCraft。
  • 基于三维重建的模型: 包括Matrix-Game 2.0和Stable Virtual Camera。
  • 普通的图生视频模型: 包括Open-SoRA、LTX-Video和CogVideoX。

考试结果揭示了几个清晰而有趣的规律:

Stable Virtual Camera在摄像机控制和像素保真度上领先,因为它直接从三维坐标渲染,轨迹精度由数学保证。但它的视觉质量评分偏低,因为渲染过程会出现模糊、接缝等视觉瑕疵。

LTX-Video在通用视频质量指标上表现不错,物体重现分数也达到了0.330——但这背后藏着一个隐患。它几乎不移动摄像机。当连续帧几乎一模一样时,流畅度、深度一致性和物体一致性都拿到了“作弊”式的高分。它用回避难题的方式获得了高分,根本没有解决核心挑战。

在真正执行了摄像机轨迹的模型中,HunyuanWorldPlay的物体重现分数最高,达到0.582;LingBot-World紧随其后。然而,即便是最好的成绩,距离“可靠”也相当遥远——没有任何一个模型的物体重现分数超过0.6。这意味着,即使在最优秀的模型中,也仍有相当比例的帧无法可靠地呈现目标物体。

一个关键发现是:摄像机控制能力本身并不能自动带来更好的物体记忆。模型在学习如何跟踪摄像机轨迹的同时,并没有自动发展出维持被遮挡物体状态的能力。物体永久性必须作为一个独立的目标来专门处理。

LLM问答评测也揭示了自动化指标遗漏的问题。比如,Matrix-Game 2.0的视觉质量在自动化指标中很高,但在问答评测的物理合理性维度上却垫底。这是因为三维渲染产生的扭曲接缝等视觉错误,在数值分数上不明显,但能被理解语义的LLM发现并扣分。

---

五、两份失败日记:合成与真实场景的不同考验

研究团队对LingBot-World进行了专项失败分析,将错误分为六类:目标物体消失、外观漂移、状态重置、物体瞬移、背景幻觉和摄像机偏移。

合成数据集上,背景幻觉是最常见的失败(131次),因为复杂的摄像机运动(U形掉头)让模型容易“忘记”背景。在真实世界数据集上,外观漂移成为最主要的问题(83次),模型虽然能“记住”物体在哪里,但无法准确把握物体在消失期间发生的状态变化。

这种差异反映了合成场景侧重空间多样性,而真实场景侧重状态多样性。

---

六、细节中的规律——消融实验的深层发现

一系列的对照实验揭示了更深层次的逻辑:

  • 大物体更好记: 大型物体(占画面面积超过10%)的物体重现分数更高。旋转角度过大(超过120度),三维渲染模型的物体重现分数会接近零。
  • 初步信息比扩大模型更重要: 提供第一帧图像对保真度的提升,远大于将模型参数从50亿扩大到140亿。这提示我们,有时候“把题看清楚”比“把模型做得更大”更有效。
  • 存在隐藏的权衡: 当只保留旋转角度超过90度的片段时,排行榜发生了显著变化。准确跟随摄像机轨迹的能力和维持物体记忆的能力,在现有模型中存在明显的张力,很难同时做好。

归根结底,MemoBench用精心设计的测试体系,揭示了当前AI视频生成领域一个核心的未解难题:模型可以生成流畅的视频、追踪摄像机移动、维持短时内容一致性,但一旦目标物体从画面中消失,哪怕只是短暂地消失,模型就会丢失对那个物体的“记忆”。

这对于机器人、自动驾驶、游戏世界建模、增强现实等应用来说,是一个无法回避的障碍。一个自动驾驶系统,必须能在行人走到视野盲区后,仍然“记得”他的位置和行动轨迹。现有的模型,在MemoBench这道题上,远远没有达到可靠的水平。研究团队已将数据集、代码和实时排行榜公开,期待这个基准能成为推动该领域研究的共同标尺。

来源:https://www.163.com/dy/article/L0PKGDTH0511DTVV.html
上一篇阿里Qwen团队教机器人学会举一反三 下一篇北大与DP Technology联手:135M参数模型击败十亿参数级竞争者
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
LiblibAI云端WebUI降低AI绘画部署门槛
科技数码 · 2026-07-02

LiblibAI云端WebUI降低AI绘画部署门槛

LiblibAI在线WebUI的核心优势在于——只需通过浏览器即可流畅运行Stable Diffusion,无需自行搭建本地环境。云端直接处理运算,模型即选即试,大幅降低了AI绘画的创作门槛。对于轻量创作和模型快速测试来说,体验相当顺畅,但用户仍需重视数据隐私保护和版权合规等问题。 过去使用Stab

微软因用户不安叫停Edge浏览器AI历史搜索功能
科技数码 · 2026-07-02

微软因用户不安叫停Edge浏览器AI历史搜索功能

微软紧急暂停Edge浏览器AI历史搜索功能,该功能因被用户吐槽“令人不安”而暂缓部署。尽管微软强调所有AI处理在设备端完成且数据不上传云端,但用户仍不信任。此举与WindowsK2计划减少功能堆砌的理念一致。

红魔游戏平板5 Pro发布 4999元起售将登陆全球市场
科技数码 · 2026-07-02

红魔游戏平板5 Pro发布 4999元起售将登陆全球市场

【CNMO科技消息】近日,红魔游戏平板5 Pro正式发布。这款平板从定位上就明确瞄准“极致游戏”体验,外观方面带来了一个重磅亮点——首次引入RGB水冷散热系统,背部那条可视化的水路通道,配合纯平透明背板设计,核心配置信息一览无余,科技感十足。 图源网络 屏幕方面同样表现突出。一块9 06英寸OLED

杭州全国首所机器人学校首批30台机器人入学
科技数码 · 2026-07-02

杭州全国首所机器人学校首批30台机器人入学

30台机器人整齐列队,有的刚从生产线卸下,机械零件还带着崭新的“工业气息”;有的已搭载运动控制模块,能稳健地小跑、跳跃几下。它们来自不同制造工厂,外形与功能各有千秋,但此刻都拥有了同一个身份——杭州机器人学校的第一批入学新生。 6月30日,杭州经信正式发布:由浙江大学机器人研究院、浙江省质量科学研究

美国计划发射航天器托举天文卫星
科技数码 · 2026-07-02

美国计划发射航天器托举天文卫星

就在最近,NASA公布了一项非常果断的干预计划——他们定于6月30日实施一次“卫星维修任务”,派遣一台名为“连接”号的机器人服务卫星,为一颗超期服役的天文卫星延长运行寿命。这颗卫星是“尼尔·格雷尔斯·斯威夫特天文台”,其轨道高度正在不断衰减,如果不进行干预,今年年底前很可能会坠入地球大气层并烧毁。