字节跳动与UCLA合作突破AI视频生成长度限制实现12小时连续生成_AI热点日报

字节跳动与UCLA合作突破AI视频生成长度限制实现12小时连续生成

类型：热点整理2026-05-12

生成一段高质量的长视频，其挑战堪比指挥一场宏大的交响乐，每个环节都必须精准无误。然而，现有的AI视频生成技术，常常在“乐章”行进到中途时，突然跳回开头重奏。这种令人困惑的“时光倒流”现象，已成为制约技术突破的关键瓶颈。近期，一项由加州大学洛杉矶分校（UCLA）与字节跳动种子部门共同主导的研究，首次

生成一段高质量的长视频，其挑战堪比指挥一场宏大的交响乐，每个环节都必须精准无误。然而，现有的AI视频生成技术，常常在“乐章”行进到中途时，突然跳回开头重奏。这种令人困惑的“时光倒流”现象，已成为制约技术突破的关键瓶颈。

UCLA和字节跳动联手破解AI视频生成

近期，一项由加州大学洛杉矶分校（UCLA）与字节跳动种子部门共同主导的研究，首次深度剖析了这一现象的内在机制，并将其命名为“沉没崩塌”。更为重要的是，他们提出了一套精巧且高效的解决方案，使得AI能够稳定生成长达12小时甚至更久的连贯视频内容。这项发表于2026年初arXiv平台（论文编号：2601.16914v1）的突破性成果，其价值远超技术范畴，它预示着电影工业、在线教育、虚拟现实等领域的内容创作模式，可能即将迎来一场根本性的变革。

简而言之，“沉没崩塌”就如同一位健忘的导演，在拍摄过程中突然忘记了剧情进展，于是命令全体演员回到第一幕重新开始。研究团队揭示，问题的核心在于AI模型内部用于标记时间顺序的“旋转位置编码”系统存在周期性缺陷。他们创新的“多头抖动”技术，相当于为系统的“内部时钟”进行了精准校准，成功攻克了这一难题，为AI视频生成的“马拉松”扫清了障碍。

一、AI视频生成的“记忆断裂”挑战

理解这一挑战，可以将AI生成视频想象为绘制一幅超长卷轴画。传统技术就像画家只能参照眼前有限的几幅画面来构思下一笔，对于短篇创作尚可应付，一旦篇幅拉长，问题便接踵而至。

当前主流的长视频生成技术，例如LongLive和Self-Forcing++，都采用了一种名为“注意力沉没帧”的机制。这相当于为画家提供故事开头的几张关键画稿作为长期参考，以确保整体风格的一致性。这个思路本身颇具巧思，类似于在撰写长篇小说的每一章前重温主角的核心设定。

然而，测试揭示了一个诡异的现象：无论输入何种内容，AI总会在某些固定的时间点（例如第132帧、第201帧）突然“记忆清零”，画面毫无征兆地跳回最初的参考场景。这并非简单的画面重复，而是一种彻底的叙事重置，严重破坏了视频的逻辑连贯性。

更为关键的是，这种崩塌具有惊人的可预测性。即使更改提示词或随机种子，崩塌依然在相同的位置发生。这明确指向问题并非源于外部输入，而是AI模型内部某种底层机制的固有缺陷。要根治它，必须深入模型的“大脑”，找到那个周期性失效的“开关”。

二、揭秘“时间迷失”的内在成因

为了定位故障根源，研究团队化身技术侦探，将焦点对准了“旋转位置编码”。这项技术是AI理解帧与帧之间时序关系的核心，其原理类似于使用多个不同转速的指针来标记时间位置。

问题恰恰出在这种“指针”的周期性上。就像时钟指针转一圈会回到原点，RoPE的编码值在达到一定长度后也会发生循环。对于短视频，所有帧都在一个周期内，因此相安无事。但对于长视频，相隔数百帧的两个位置，其编码值可能变得极为相似，导致AI无法区分先后顺序，误以为回到了时间起点。

深入分析后，团队发现“沉没崩塌”发生在多个RoPE维度的“指针”相位高度对齐的时刻，即所谓的“相位集中”现象。这好比多个不同周期的齿轮，在某个瞬间突然全部严丝合缝地咬合在同一位置，从而引发系统的集体误判。

与此同时，模型内部的“多头注意力”机制也出现了异常。在正常情况下，这些“注意力头”会各司其职，分别关注物体的运动轨迹、色彩变化、形状轮廓等不同视觉特征。但在崩塌发生的瞬间，几乎所有“头”的注意力都被初始帧强烈“吸引”，放弃了对当前画面内容的处理。这种集体“走神”，从机制上解释了为何崩塌会如此彻底和突然。

三、优雅的“频率抖动”破解之道

找到了症结所在，解决方案却出人意料地优雅。研究团队提出的“多头RoPE抖动”技术，其核心思想是打破有害的同步效应。

在传统模型中，所有注意力头共享同一套RoPE频率基准，就像所有时钟完全同步运行，必然会在特定时刻集体指向12点。新方法则为每个注意力头的基础频率引入一个微小的、随机的偏移量。

这就好比给交响乐团中的每位乐手配置一个略有差异的节拍器，虽然各自节奏稍有不同，但整体合奏依然和谐流畅，却能有效避免所有乐器在某一刻产生破坏性的共振。实验表明，将这种抖动幅度控制在原始频率的±80%范围内时，能在最佳保持视频生成质量的前提下，最有效地防止崩塌发生。

该方案的另一巨大优势在于其“即插即用”的特性。它无需对现有模型进行耗资巨大的重新训练，只需在推理生成阶段调整相应参数即可生效，极大地降低了技术落地与部署的门槛。

四、迈向真正的“无限时长”视频生成

解决了“记忆断裂”问题，还需突破“续航”瓶颈。传统方法受限于位置编码的长度（通常约1024帧）和巨大的内存消耗，难以生成超长视频。

研究团队巧妙地利用了现有模型的两个特性：一是其底层编码器采用“因果VAE”结构，在解码生成每一帧时，主要依赖前序已生成的信息，这允许采用“滑动窗口”策略来分段处理超长视频，大幅降低了内存压力；二是模型本身使用了“局部注意力”机制，天生就适合处理长序列数据。

基于此，他们实现了真正的流式视频生成。AI可以像一位不知疲倦的画家，持续创作出新的画面，并与之前的内容实现无缝衔接。在单张高性能显卡上，该系统已能以每秒约16帧的速度生成视频，非常接近实时播放的要求。

最终，团队成功演示了连续12小时视频的流畅生成。这不仅是技术能力的展示，更从实践上证明了生成超长时长、高一致性视频的可行性，为各类实际应用铺平了道路。

五、严谨测试验证技术突破

任何技术突破都需要经过严谨的量化验证。团队设计了一套专门的指标来评估“沉没崩塌”的严重程度，包括“最大崩塌分数”和“平均崩塌分数”。

在基准测试中，传统方法的表现堪忧。例如，LongLive模型在生成100秒视频时，平均崩塌分数高达30.54。而应用“多头抖动”技术后，该分数骤降至3.93，改善效果极为显著。

更重要的是，在解决核心崩塌问题的同时，新方法在视频动态丰富性、时间连贯性、文本描述对齐度等所有关键质量指标上，均保持与原方法相当甚至略有提升的水平。与其他旨在扩展上下文长度的方法（如位置插值、NTK感知调整等）相比，该方案在消除崩塌和维护生成质量之间取得了最佳平衡。

长达12小时的连续性生成测试，则从实践层面雄辩地证明了该技术的可靠性与巨大潜力。

六、深入探究问题的本质机制

团队并未止步于技术应用，而是继续深入挖掘其内在机理，以彻底理解这一现象。

他们首先验证了“沉没崩塌”是多维度协同失效的结果，而非单一维度的故障。尝试仅调整模型中某个特定维度频率的方法（如RIFLEx）被证明在自回归视频生成任务中效果有限。

其次，研究发现单纯地改变RoPE的基础频率，只能推迟或提前崩塌发生的时间点，而无法从根本上根除问题。这如同仅调整时钟的快慢，只能改变指针重合的时刻，却无法阻止重合本身的发生。

进一步的参数研究表明，抖动强度需要达到一个关键阈值（约80%），并且需要应用于模型中的所有注意力头，才能取得最佳效果。这反过来也证实了崩塌是一种系统级的、由多头注意力集体行为所导致的现象。

在数学层面，团队定义了“相位一致性核”来精确量化崩塌发生的条件，为整个现象提供了坚实的理论解释框架。

七、广阔的应用前景与行业影响

这项研究的成功，为多个前沿领域打开了广阔的想象空间。

对于内容创作产业而言，它意味着未来能够一键生成连贯的数小时在线教育课程、科普纪录片或完整叙事短片，极大降低专业级长视频制作的门槛与成本。

在游戏与虚拟现实领域，该技术可用于生成永不重复的动态开放世界环境（如流动的云层、波光粼粼的湖面），大幅提升用户的沉浸感。

对于直播与实时演示场景，它使得AI能够成为实时背景或视觉内容的协同创作者，提供动态丰富的视觉支持。

在科学研究与数据可视化方面，长期连续监测的数据（如气候变化、金融市场波动）可以被转化为直观的动态视频，帮助研究者更轻松地洞察潜在规律。

从更广泛的技术演进角度看，该研究揭示了RoPE类位置编码在超长序列处理任务中可能存在的潜在缺陷，其解决方案对于大型语言模型等同样需要处理长上下文的任务具有重要的参考价值。其“无需重训练”的特性，更有利于技术的快速普及与迭代优化。

八、当前限制与未来展望

当然，这项技术仍处于发展的早期阶段，面临诸多挑战与限制。

首先，其生成能力受限于所采用的底层基础模型。当前使用的模型在处理极端复杂场景或需要高度精细细节的画面时，仍存在局限性。

其次，“长期记忆”问题尚未得到完全解决。AI能够保持视频流的整体连贯，但可能无法记住很久之前出现的某个特定角色或物体的精确细节。

此外，在生成长时间的单一主题视频时，内容的多样性可能逐渐降低，视觉上有可能陷入某种重复模式。计算效率和对生成内容的精确控制能力，也有待进一步的提升。

展望未来，集成更强大的基础视觉模型、设计专门的长期记忆模块、引入更丰富的控制信号（如草图、关键帧），以及持续优化计算效率，将是重要的研究方向。这项研究如同打开了一扇新的大门，门后是AI视频生成技术走向真正实用化与创意民主化的广阔道路。或许在不远的将来，仅用文字描述来生成一部连续剧的初稿，将像今天撰写一份故事大纲一样平常。

常见问题解答

Q1：什么是“沉没崩塌”现象？

A：“沉没崩塌”是AI在生成长视频时出现的一种典型故障，表现为视频内容在特定时间点突然跳回开头的场景，如同时间倒流。这会严重破坏视频的叙事连贯性，且其发生位置往往具有规律性。

Q2：UCLA和字节跳动是如何解决这个问题的？

A：研究团队发现问题的根源在于模型内部用于标记时间顺序的“旋转位置编码”存在周期性重合缺陷。他们提出了“多头抖动”技术，通过为模型中不同的处理单元（注意力头）赋予略微不同的频率基准，打破了导致系统误判的同步效应，从而从根本上根治了崩塌问题。

Q3：这项技术能生成多长的视频？

A：从技术原理上讲，它可以支持理论上无限长度的视频生成。研究团队已成功公开演示了连续12小时视频的流畅生成，且整个过程支持流式输出，可以实现边生成边观看。

来源：https://www.techwalker.com/2026/0202/3178261.shtml

AI视频

延伸阅读

补充最近整理过的热点入口。