英伟达MIT联手攻克AI长视频生成记忆难题

时间：2026-06-07 12:06

英伟达、南加州大学与麻省理工学院联合提出LongLive-RAG方法，解决AI长视频生成中的身份漂移问题。该方法让AI在生成新画面时检索原始历史片段作为参考，而非压缩记忆。实验表明，在120秒视频中主体一致性提升，计算开销仅490毫秒。

你是否曾察觉，在某些长篇动画作品中，主角的眼睛颜色会随着剧集推进悄然改变？或许最初只是制作团队在某一帧上的微小疏漏，但随着情节发展，偏差逐渐累积，最终连主角的容貌都可能面目全非。如今，人工智能在生成长视频时，正面临一个相似的困境——AI的“遗忘”速度甚至更快，仅仅几秒钟后，画面中的主角便开始“改头换面”。

这个看似略带戏剧性的问题，实际上是当前AI视频生成领域最具挑战性的技术瓶颈之一。为了解决这一难题，由英伟达、南加州大学与麻省理工学院联合开展的一项研究，提出了一种名为LongLive-RAG的创新方案。其核心思路十分直接：让AI在生成新的画面帧时，能够主动“回顾”自己之前绘制过的内容，精准定位最相关的页面，并以此为参考继续创作。

一、AI生成长视频时，为什么会出现“记忆断层”与“形象漂移”

要理解这一现象，我们不妨使用写连载小说的比喻。设想你正在撰写一部连载小说，规定自己每次只能参考最近撰写的五页内容进行创作，而不允许翻阅之前的章节。故事开始时，主角名为张三，身高一米八，身穿红色夹克。然而，在写到第二十页时，你或许不经意间将其描述为“矮个子”，此后你只能基于这一错误描述继续写作。张三的身高在后续章节中越来越矮，红色夹克也消失不见，最终演变成一个完全陌生的角色。

AI生成视频的方式，本质上是一种类似的“接龙游戏”。它按顺序、分段落地生成视频片段，每生成一个新片段，就将上一个片段作为参考。为了节省计算资源，系统通常只保留最近的几个片段作为“记忆窗口”，而更早的内容则被直接丢弃。这一机制被称为“滑动窗口注意力”。虽然其高效性毋庸置疑，但致命缺陷也因此而生——一旦“记忆窗口”内的内容出现偏差，后续生成的所有内容都将以这个偏差为基础持续“跑偏”，且错误会愈发严重。研究团队将这一现象形象地称为“错误累积”与“身份漂移”。

现有的解决方案大致分为三类。第一类是在记忆窗口的开始位置插入若干“锚点”，即强制保留视频最开始的几帧，让AI始终能看见主角的原始样貌。第二类是对位置编码进行技术改造，使AI在数学层面能够处理更长的序列。第三类则是将老旧的历史帧进行“压缩打包”，形成几个简化的记忆符号，并塞入记忆窗口。然而，这三种方法各有短板：锚点是固定的，不一定是最需要参考的内容；位置编码改造无法解决内容本身的漂移问题；而压缩打包过程中，许多关键细节（如角色特有的微动作、背景中独特的物件）往往会丢失，压缩后的记忆无法还原原始的视觉质量。

二、像图书馆管理员一样工作：LongLive-RAG的核心设计理念

研究团队从一个全新的角度审视了这个问题。他们意识到，AI在生成过程中其实已经累积了大量的“历史片段”，这些片段就像一座巨大的图书馆，存储着视频每一个时间点的完整状态。问题不在于历史信息不存在，而在于AI找不到、也用不上这些信息。

基于此，LongLive-RAG的设计思路就转化为：为AI配备一名聪明的“图书馆管理员”。每当AI准备生成下一个视频片段之前，这位管理员会手持“最新片段”作为检索关键词，在整个历史图书馆中快速搜索，找出与当前内容最相关的历史片段，将其放到AI的“桌面”上供其参考。这样，即便最近的几帧画面出现了偏差，AI依然可以借助更早、保存状态更准确的历史片段，来“纠正”自己的创作方向。

这个类比中有一个细节至关重要：管理员取出的是历史片段的原始完整版本，而非压缩后的摘要。AI在生成新内容时，直接参考这些未经处理的原始画面进行思考，无需经过任何中间层的翻译或重构。这一点与“压缩打包”方案存在本质区别——后者相当于给AI阅读助手手写的几条摘要，而LongLive-RAG则让AI直接查看原汁原味的文档内容。

在系统架构层面，LongLive-RAG维护着两个并行运转的数据库：一个存储每个历史片段的“索引卡”（即压缩后的检索向量），另一个存储对应的“原始内容”。检索时使用“索引卡”快速定位，定位到后，将“原始内容”直接提交给生成模型使用。这种设计不仅保证了检索速度，也确保了参考内容的质量不受影响。

三、如何训练AI识别“哪些历史画面最具备参考价值”

仅有图书馆还不够，还需一套高效的检索系统。这里存在一个难点：在连续的视频中，相邻两帧的画面通常高度相似，就像同一首歌中连续的两个节拍。如果检索系统仅仅寻找“最相似的历史片段”，它大概率只会返回“最近几帧”——而这些内容早已存在于当前的记忆窗口中，重复检索毫无意义。

为解决这一问题，研究团队专门设计了一种称为“窗口时间差异损失”的训练方法。这个名称听起来复杂，但其核心逻辑非常直观：检索系统在训练时会被明确告知“不要将时间上紧挨着的片段视为不同的内容”。换言之，相邻片段之间的相似度会被人为压低，迫使检索系统去关注那些真正存在内容差异的历史时刻。

同时，研究团队还引入了一个“轨迹平滑损失”。如果检索系统的判断过于跳跃——今天认为片段A最重要，明天突然觉得片段Z才是关键——这种不稳定的检索结果反而会让AI生成的视频更加混乱。轨迹平滑损失的作用是让检索系统的“注意力变化”更加平缓，就像一列火车不会猛然急刹车，而是缓慢、连贯地调整速度。

最终，检索系统的训练目标由三部分组成：重建损失负责确保“索引卡”忠实记录画面内容；窗口时间差异损失负责让不同时间点的内容在检索层面拥有足够的区分度；轨迹平滑损失则负责保证检索结果随时间推移保持稳定。三者缺一不可，相互配合才能构成一套真正有效的检索系统。研究团队通过可视化对比展示了这三个组件各自的作用，如同在热力图上看温度分布一般直观：仅使用重建损失时，相邻片段的高相似度区域像是一片浓绿的宽带；加入时间差异损失后，这片宽带变窄了；再添上平滑损失，整张图便变得规律且富有结构性。

四、推理流程：每次生成新片段前，AI具体执行哪些操作

完整的运作机制可以类比为一次精心准备的手工绘画过程。每当AI准备绘制下一段视频时，它会依次完成三个步骤：第一，用刚刚完成的视频片段的“索引卡”去图书馆检索，找出历史上最相关的K个片段（默认K=6）；第二，将这K个历史片段的原始内容、当前记忆窗口中的最近几个片段，以及视频开头的“锚点片段”，整合成一份完整的参考资料；第三，将这份参考资料交付核心生成模型，使其在充分参考的基础上完成新片段的生成。

一个值得注意的细节在于：为防止检索系统“偷懒”，总是返回最近的几个片段（它们已在记忆窗口内，重复检索毫无意义），系统设置了一个“近期保护区”，规定检索时自动跳过最近的R个片段（默认R=5）。这好比图书馆的规定：借阅者带着今天刚读过的书来找相关材料，管理员会主动推荐那些他尚未阅读的旧书，而不是将他刚刚放下的书重新塞回他手里。

从计算开销角度看，LongLive-RAG带来的额外负担非常小。在生成一段120秒的视频时，整个检索过程仅增加了490毫秒：其中480毫秒用于对每个历史片段进行“索引卡”编码，10毫秒用于实际的相似度搜索和前K名排序。与视频生成本身动辄数小时的计算时间相比，这点开销几乎可以忽略不计，就像在一道需要烹饪三小时的大餐中，多花了三十秒时间翻看菜谱。

五、实验数据：数字背后的真实表现

研究团队在三个不同的视频生成“底座模型”上测试了LongLive-RAG，每个底座模型又与三种对比方案进行了比较。测试覆盖了30秒、60秒和120秒三种视频长度，共使用了128个文字提示词，评估标准采用业界通用的VBench-Long评分体系。

从最综合的指标“平均排名”来看，LongLive-RAG在所有三个底座模型、三种视频长度的组合中，均取得了最低的排名数值——排名越低代表综合表现越优。换言之，无论使用哪个底座模型、生成多长的视频，加入LongLive-RAG后的表现都是同类方法中最好的，无一例外。

从具体评分来看，以Self-Forcing底座模型生成120秒视频为例，加入LongLive-RAG后，主体一致性从96.12分提升至97.64分，背景一致性从95.32分提升至96.40分，图像质量从61.57分提升至64.16分。单看这些数字，提升幅度或许不算显著，但需知这是在120秒这种超长视频中维持的一致性表现，且这些评分指标本身已趋近于满分上限，每提升一分都需要付出巨大努力。

特别值得关注的一组对比数据是：在120秒视频测试中，使用Deep Forcing（即压缩历史记忆方案）的Self-Forcing模型，其动态程度评分从43.39急剧跌至15.23，这表明该方案在极长视频中会导致画面变得“僵硬”，甚至近乎静止。而LongLive-RAG在相同条件下，动态程度仍维持在44.10，几乎与原始模型持平。这一对比清晰地揭示了“压缩打包”方案的代价：为记住更多历史信息，它牺牲了视频的动态性；而LongLive-RAG因直接检索原始完整内容，故不存在这一问题。

定性视觉对比同样令人印象深刻。原始模型和∞-RoPE方案的视频，在中后期会出现明显的色调漂移、主角服装与肤色变化，甚至出现“幽灵帧”。Deep Forcing的视频在整体色彩上表现尚可，但背景细节模糊且不连贯。而LongLive-RAG的视频则从头到尾保持了最稳定的角色外观和背景细节。

六、通过消融实验验证每个设计决策的价值

研究团队还开展了一系列“拆零件”测试，逐一验证每个设计组件的贡献，这在学术研究中被称为消融实验。

首先测试的是检索系统本身的重要性。若随机检索历史片段，主体一致性评分为94.54，背景一致性为94.32。改用简单的平均池化描述符，得分略微提升至94.77和94.49。仅使用重建损失训练的检索编码器，主体一致性进一步升至94.82。加入时间差异损失后，背景一致性与动作流畅性有所改善。而采用完整三个损失函数的版本，主体一致性达到95.43，图像质量达到70.07，全面超越所有简化版本。这一结果印证了三个损失组件各司其职、缺一不可的设计理念。

其次测试的是K值的影响。在总注意力预算固定的前提下，K=2时主体一致性为94.43，K=4时为94.78，K=6时达到峰值95.43——而当K=8时，主体一致性则大幅下滑至90.56，背景一致性降至93.07，图像质量更是跌至60.02。这种倒U形曲线说明，检索的历史片段并非越多越好：太少无法提供足够的长程参考，太多则会挤占当前记忆窗口的空间，导致视频连续性断裂。K=6是在“长程参考”与“本地连续性”之间取得的最佳平衡点。

研究团队还进行了辅助性的视觉语言模型评估，从另一个角度交叉验证了VBench-Long的结论。结果显示，Causal-Forcing原始模型得分为2.60，∞-RoPE方案提升至4.10，Deep Forcing为3.55，而LongLive-RAG达到4.70，同样为最高分。

七、为何选择在压缩的“潜空间”内检索，而非直接比对实际画面

这是一个值得单独解释的设计选择，因为直觉上可能产生疑问：既然目标是寻找相似的画面，为何不直接比对解码后的实际视频帧，而要在一个压缩的“潜空间”中进行检索呢？

原因涉及多个层面。从效率角度而言，现代AI视频生成系统通常在被称为VAE潜空间的压缩空间内工作，待所有片段生成完毕后，才统一解码为真实画面。若在每个片段生成后立即解码、提取像素级特征再做检索，就如同在烹饪过程中每炒一道菜就要彻底清洗一次厨房，效率极低。

从质量角度而言，潜空间的向量本身已包含丰富的视觉语义信息，且这些信息与生成模型的内部语言“同源”，无需额外翻译。相比之下，使用现成的图像特征提取工具处理解码后的实际画面，虽语义丰富，但与生成模型的内部状态存在一定的“语言隔阂”，且此类工具往往对时间上相邻的帧过于敏感，检索结果仍会集中在最近几帧，无法有效定位时间较远但内容相关的历史片段。

此外，从系统一致性角度考虑，同一个压缩空间可被三个不同的底座模型共享，这意味着只需训练一个检索编码器，便可为三个不同的底座模型服务，无需针对每个模型单独训练，从而大幅降低了部署成本。这也是LongLive-RAG自称为“通用框架”的底气所在。

综上所述，LongLive-RAG所做的是为AI视频生成系统加装一套“图书馆检索服务”。它并未改变AI本身的绘制能力，也未压缩历史记忆，而是让AI在每次动笔前，有机会翻阅自己过去创作的所有内容，找出对当前创作最有帮助的几页，并以此为参考继续绘制。这套机制在120秒这样的超长视频中效果尤为显著，且检索带来的计算开销仅占整体生成时间极小一部分。

当然，该方法也存在一定局限性。研究团队在论文末尾坦率指出，LongLive-RAG建立在固定的底座模型之上，它所能做的只是更好地选择和利用历史内容，最终视频质量的上限仍由底座模型本身的能力决定。换言之，若底座模型本身表现不佳，即便提供再智能的图书馆检索服务，也无法突破其自身的能力天花板。这是一个诚实且重要的提醒。

归根结底，这项研究告诉我们，AI的“记忆”问题未必需要通过“记住更多”或“记得更牢”来解决。有时，“在正确的时机找回正确的记忆”才是更为优雅的答案。

Q&A

Q1：LongLive-RAG检索历史视频片段的依据是什么？

A：LongLive-RAG使用一个专门训练的轻量级编码器，将每个历史片段压缩为1024维的向量，然后通过余弦相似度计算当前片段与历史片段之间的相关程度，选出最相关的前K个历史片段作为参考。该编码器通过三个损失函数共同训练：重建损失确保内容保真度，窗口时间差异损失使相邻片段在检索层面有足够区分度，轨迹平滑损失则保证检索结果随时间推移保持稳定。

Q2：LongLive-RAG会显著拖慢视频生成速度吗？

A：不会。在生成120秒视频的完整过程中，LongLive-RAG引入的检索额外开销总共仅为490毫秒，其中编码历史片段占480毫秒，相似度搜索仅占10毫秒。与视频生成本身动辄数小时的计算时间相比，这点额外开销微乎其微，几乎可以忽略不计。

Q3：LongLive-RAG检索多少个历史片段效果最佳？

A：实验表明，在总注意力预算固定的前提下，K=6（即每次检索6个历史片段）效果最佳。检索过少（K=2）会导致长程参考不足，而检索过多（K=8）则会挤占当前记忆窗口的空间，导致视频连续性下降，主体一致性评分从95.43大幅跌至90.56。K=6是长程参考与本地连续性之间的最佳平衡点。

来源：https://www.163.com/dy/article/KUP5F76F0511DTVV.html

AI视频

上一篇UIUC与微软联合推出网页智能体边干边学训练新范式 下一篇韩国顶级AI为何在韩语网络搜索中频频翻车

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。