字节跳动破解AI记忆难题:视频生成如何实现连续思维

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
这项由香港中文大学的郭宇伟、字节跳动的杨策元等研究团队合作完成的突破性研究,于2024年12月发表在计算机视觉领域的顶级会议上。对这项研究感兴趣的读者可以通过arXiv:2512.15702v1查询完整论文。研究团队提出了一种名为"重采样强制训练"(Resampling Forcing)的全新框架,专门解决AI视频生成中的"健忘症"问题。
当我们谈论AI生成视频时,大多数人可能会想到那些令人印象深刻的短片段。但是,如果你曾经尝试让AI生成一段较长的视频,你可能会发现一个奇怪的现象:视频开始时还很正常,但随着时间推移,画面开始变得模糊、扭曲,甚至完全崩坏。这就像一个人在讲故事时,开始讲得很好,但说着说着就忘记了前面的情节,最后整个故事变得不知所云。
这种现象在AI领域被称为"曝光偏差"(exposure bias),它是自回归视频生成模型面临的核心挑战。自回归模型的工作原理类似于人类讲故事:它需要根据前面已经生成的内容来决定下一个画面应该是什么样的。在训练阶段,AI模型就像一个学生在课堂上练习,老师会给它提供完美的参考答案。但在实际应用中,AI必须依赖自己之前生成的内容,而这些内容往往并不完美。这种训练与实际应用之间的差异,就是导致视频质量逐渐恶化的根本原因。
研究团队通过一个生动的比喻来解释这个问题:想象一个厨师在学做菜时,总是使用最新鲜、最完美的食材进行练习。但在真正的厨房里,他必须使用之前处理过的、可能已经有些变质的食材来继续烹饪。结果可想而知,整道菜的质量会越来越差。
为了解决这个问题,之前的研究者们尝试了各种方法。有些研究采用了"后训练"策略,即先训练一个基础模型,然后再进行额外的调整。然而,这些方法通常依赖于一个"双向教师模型"或在线判别器。双向教师模型的问题在于它能够"看到未来",这违背了现实世界中时间的单向性原则。就像一个预言家在指导学生时,不小心泄露了未来的信息,导致学生无法真正掌握推理能力。
字节跳动和香港中文大学的研究团队提出的"重采样强制训练"方法,就像是为AI学生创造了一个更加真实的练习环境。在这个环境中,AI不再依赖完美的参考资料,而是要学会在不完美的条件下继续工作。
具体来说,研究团队设计了一种"自我重采样"机制。这个机制的工作原理类似于一个特殊的训练程序:AI模型首先会故意在历史画面中引入一些错误,模拟真实使用时可能出现的不完美情况。然后,它必须基于这些带有错误的历史画面来预测下一个画面。这样的训练方式使得AI模型变得更加"鲁棒",即使面对不完美的输入,也能保持相对稳定的输出质量。
这种方法的巧妙之处在于,它并不试图完全消除错误,而是教会AI如何在错误存在的情况下继续正常工作。就像教一个司机不仅要在完美的道路条件下驾驶,还要学会在雨天、雾天等不理想条件下安全行驶。
研究团队在实现这个想法时,面临了一个重要的技术挑战:如何模拟真实的模型错误。他们采用了一种创新的方法,通过自回归重采样来模拟推理时的模型错误。这个过程分为两个步骤:首先,他们向真实视频帧添加噪声,使其降级到某个中间时间步;然后,使用在线模型权重完成剩余的去噪步骤,产生包含模型错误的降级帧。
为了控制这个过程,研究团队引入了一个重要参数:仿真时间步ts。这个参数控制着历史忠实度和错误纠正灵活性之间的平衡。较小的ts值会产生接近真实的降级样本,鼓励模型保持对历史帧的忠实,但可能导致错误累积。较大的ts值则为错误纠正提供更大的灵活性,但可能导致内容漂移。研究团队通过数学建模,找到了最优的ts分布,确保在两个极端之间取得最佳平衡。
另一个重要创新是"历史路由"机制。随着视频长度的增加,AI需要处理的历史信息越来越多,这就像一个人的记忆负担越来越重。传统的解决方案是使用"滑动窗口"方法,只关注最近的几个画面,但这种方法会损害长期依赖关系,影响视频的全局一致性。
研究团队提出的历史路由机制,就像给AI配备了一个智能的记忆管理系统。这个系统能够动态地从大量历史画面中选择最相关的k个画面进行关注,而不是简单地只看最近的画面。这种选择是基于内容相关性的,而不是基于时间距离的。就像一个经验丰富的编剧在写续集时,会回顾整个故事线中最相关的情节,而不仅仅是上一集的内容。
在技术实现上,研究团队使用了点积作为选择标准,通过查询令牌qi和历史帧描述符之间的相似度来确定最相关的历史帧。这种方法将每个令牌的注意力复杂度从线性O(L)降低到常数O(k),其中L是历史帧数量,k是选择的帧数。当k设置为一个小值时,可以实现很高的稀疏性,但路由机制以头级和令牌级的方式操作,意味着不同注意力头和空间位置的令牌可以路由到不同的历史混合,集体产生比k帧大得多的有效接受域。
研究团队在实验设计上也展现了周密的考虑。他们基于WAN2.1-1.3B架构构建了自己的方法,并加载了预训练权重以加速收敛。原始模型使用双向注意力生成5秒视频(81帧),分辨率为480×832。研究团队修改了时间步条件以支持每帧噪声级别,并使用torch.flex_attention()实现了稀疏因果注意力,没有增加额外参数。
训练过程采用了分阶段策略。首先,在切换到因果注意力后,模型使用教师强制目标在5秒视频上训练10,000步进行预热。然后转换到重采样强制训练,先在5秒视频上训练15,000步,再在15秒视频(249帧)上训练5,000步。最后,启用稀疏历史路由进行1,500次迭代的微调。训练批次大小为64,AdamW优化器的学习率为5×10^-5。时间步移位因子设置为s=0.6,top-k历史路由中k=5。为了提高效率,历史重采样使用1步Euler求解器。
实验结果展示了该方法的显著优势。在定性比较中,研究团队将他们的方法与多个现有的自回归视频生成基线进行了比较,包括SkyReels-V2、MAGI-1、NOVA、Pyramid Flow、CausVid、Self Forcing和LongLive等。结果显示,大多数严格的自回归模型在长视频生成中都出现了错误累积现象,表现为颜色、纹理和整体清晰度的逐渐下降。
特别值得注意的是与LongLive的比较。LongLive虽然在长距离视觉质量方面表现良好,但研究团队发现,从短双向教师模型蒸馏的方法无法确保严格的因果关系。在"倒牛奶"的例子中,LongLive产生的液体水平先上升后下降,违反了物理定律。相比之下,研究团队的方法保持严格的时间因果关系:液体水平单调增加,同时源容器变空。
定量评估使用VBench提供的自动指标进行。所有模型都被要求生成15秒视频,然后将其分为三个片段分别评估,以更好地评估长期质量。结果表明,该方法在所有视频长度上都保持了可比的视觉质量和优越的时间质量。在更长的视频长度上,该方法的性能也与长视频蒸馏基线LongLive相当。
研究团队还进行了详细的消融研究。他们比较了不同的错误模拟策略,包括噪声增强、并行重采样和自回归重采样。结果显示,自回归重采样策略取得了最高质量,其次是并行重采样和噪声增强。研究团队认为这是因为加性噪声与模型的推理时错误模式之间存在不匹配,以及并行重采样只捕获每帧降级而忽略跨时间的自回归累积。
在仿真时间步移位的研究中,研究团队发现模型性能对移位因子s的选择相对鲁棒。使用极端值进行消融以更好地可视化移位因子的影响,结果显示,使用小s值训练的模型表现出错误累积和质量下降,而非常大的s值会降低与历史的语义一致性,增加初始内容漂移的风险。因此,适中的s值对于在缓解错误累积和防止漂移之间取得平衡至关重要。
稀疏历史策略的比较显示,路由到前20个历史帧中的前5个能够在75%的稀疏性下产生与密集注意力相当的质量。将前5个减少到前1个(95%稀疏性)只造成轻微的质量下降,证明了路由机制的鲁棒性。研究团队进一步对比了前1个路由与大小为1的滑动窗口,尽管稀疏性相等,但路由机制在鱼的外观一致性方面表现更优。他们假设滑动窗口注意力的固定和局部化感受野加剧了漂移风险,而动态路由使每个查询令牌能够选择不同的历史上下文组合,集体产生更大的有效感受野,更好地保持全局一致性。
历史路由频率的分析揭示了有趣的模式。研究团队实验了k=1,3,5,7,并可视化了在生成第21帧时前20帧的选择频率。结果显示,选择频率呈现混合"滑动窗口"和"注意力汇聚"模式:路由器优先选择初始帧以及紧接在目标之前的最近帧。这种效果在极端稀疏性(k=1)下最为明显,随着稀疏性降低(k=1→7),分布变得更加均匀,包含更广泛的中间帧。
这项研究的意义不仅仅在于技术创新,更在于它为AI视频生成领域指出了一个新的发展方向。传统的方法试图通过更复杂的模型架构或更大的数据集来提高质量,而这项研究则从训练策略的角度入手,通过模拟真实应用场景来提高模型的实用性。
当然,这项研究也有其局限性。作为基于扩散的方法,该模型需要迭代去噪步骤进行推理,实现实时延迟可能需要后续加速,如少步蒸馏或改进的采样器。此外,训练过程涉及处理双重序列(扩散样本和清洁历史),可能通过类似于其他研究的架构优化来改进。
尽管如此,这项研究为未来的AI视频生成技术奠定了重要基础。它不仅解决了现有技术的核心问题,还为长视频生成、实时交互式视频生成等应用场景提供了可行的解决方案。随着技术的进一步完善,我们可以期待看到更长、更连贯、更符合物理定律的AI生成视频。
说到底,这项研究最大的贡献在于它改变了我们对AI训练的思考方式。它告诉我们,有时候最好的训练方法不是给AI提供完美的条件,而是让它学会在不完美的现实中正常工作。这种思路不仅适用于视频生成,可能对整个AI领域都有重要的启发意义。对于普通用户来说,这意味着未来我们将看到更加稳定、可靠的AI视频生成工具,能够创造出更长、更连贯的视频内容,为内容创作、教育、娱乐等领域带来新的可能性。
Q&A
Q1:什么是重采样强制训练,它如何解决AI视频生成的问题?
A:重采样强制训练是一种新的AI训练方法,它通过故意在训练时给AI提供不完美的历史画面,让AI学会在真实应用中面对自己之前生成的不完美内容时仍能保持稳定的输出质量,就像教司机在各种路况下都能安全驾驶一样。
Q2:历史路由机制是如何工作的,有什么优势?
A:历史路由机制就像给AI配备了智能记忆管理系统,它能从大量历史画面中动态选择最相关的画面进行关注,而不是简单地只看最近的画面。这样既减少了计算负担,又保持了视频的长期一致性。
Q3:字节跳动这项研究对普通用户有什么实际意义?
A:这项研究将让AI视频生成变得更加稳定可靠,用户可以生成更长、更连贯的视频内容,而不会出现画面逐渐崩坏的问题,这对内容创作、教育和娱乐等领域都有重要价值。
相关攻略
克雷西 发自 凹非寺量子位 | 公众号 QbitAIOpenClaw火了之后,一个问题也自然浮现——如果你是一个管理者,想给整个公司人手配一只虾,该怎么办?听上去就是多开几个实例的事,但实际上,想要
3月13日,GIIC全球智慧物联网联盟联合中国家用电器研究院,携手海尔、美的、华为、上海海思等产业链头部企业,在2026年中国家电及消费电子博览会上正式发布《智家统一互联标准》。此举标志着国内智能
OpenClaw,这个诞生不到四个月的项目,刚以 25 万颗星成为 GitHub 上星数最高的非聚合类软件项目。就在这个节骨眼上,OpenClaw 创始人 Peter Steinberger 亲自下
henry 发自 凹非寺量子位 | 公众号 QbitAI报!龙虾更新了!刚刚,新的OpenClaw测试版(2026 3 7)已经推出,并光速上线OA两家最新模型GPT-5 4Gemini Flash
机器之心编辑部「我们没有小发布。」本周日,最热门的智能体项目 OpenClaw 发布了 2026 3 7 版本,引入了上下文引擎插件、lossless-claw 等功能,同时也更新了一系列新模型的支
热门专题
热门推荐
在数字货币快速发展的今天,如何选择一个靠谱的交易平台,往往是新手投资者迈出的第一步。面对市场上琳琅满目的交易所APP,从安全性、易用性到功能特色,究竟该怎么选?下面,我们就来梳理一下2026年主流的数字资产交易平台,帮你从多个维度看清它们的核心特点,无论是想尝试简单的现货买卖,还是计划涉足合约交易,
从音乐人到AI药物研发创业者:Aloe Blacc的跨界创业之路 近日,美国知名创作歌手Aloe Blacc做客TechCrunch旗下知名播客Equity,分享了他从音乐界成功跨界至AI驱动抗癌药物研发领域的独特经历。尤为引人关注的是,他创立的AI医药公司至今未进行任何外部融资。在访谈中,他深入阐
AI文生视频:从“猎奇玩具”到“生产力工具”的疾速进化 还记得几年前全网疯传的“威尔·史密斯吃意大利面”吗?那段画面扭曲、动作诡异的视频,一度成为AI文生视频技术稚嫩期的经典注脚——与其说是创作,不如说是一场数字世界的“恐怖谷”体验,离实际应用相距甚远。 然而,技术的演进速度总是超乎想象。过去一年,
百度开源文生图模型ERNIE-Image:消费级显卡畅享顶级文字生成效果 2024年4月15日,百度文心大模型团队正式宣布开源其参数规模达80亿的文生图模型ERNIE-Image。该模型最引人注目的优势在于,仅需24GB显存的消费级GPU即可实现高效部署与运行。同时,团队还发布了推理加速版本ERNI
欧亿交易所现货交易时间:如何理解其全球化设计逻辑? 在数字资产交易的世界里,交易时间的设定绝非小事。它直接关系到投资者的操作空间能否打开,以及整个市场的流动性是否充沛。作为行业内的头部平台,欧亿交易所(OYEX)在现货交易时间上的安排,可以说是一份深思熟虑的“全球时区解决方案”。它的设计,精准地瞄准





