首页 游戏 软件 资讯 排行榜 专题
首页
AI
字节跳动与UCLA合作突破AI视频生成长度限制实现12小时连续生成

字节跳动与UCLA合作突破AI视频生成长度限制实现12小时连续生成

热心网友
46
转载
2026-05-12

生成一段高质量的长视频,其挑战堪比指挥一场宏大的交响乐,每个环节都必须精准无误。然而,现有的AI视频生成技术,常常在“乐章”行进到中途时,突然跳回开头重奏。这种令人困惑的“时光倒流”现象,已成为制约技术突破的关键瓶颈。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

UCLA和字节跳动联手破解AI视频生成

近期,一项由加州大学洛杉矶分校(UCLA)与字节跳动种子部门共同主导的研究,首次深度剖析了这一现象的内在机制,并将其命名为“沉没崩塌”。更为重要的是,他们提出了一套精巧且高效的解决方案,使得AI能够稳定生成长达12小时甚至更久的连贯视频内容。这项发表于2026年初arXiv平台(论文编号:2601.16914v1)的突破性成果,其价值远超技术范畴,它预示着电影工业、在线教育、虚拟现实等领域的内容创作模式,可能即将迎来一场根本性的变革。

简而言之,“沉没崩塌”就如同一位健忘的导演,在拍摄过程中突然忘记了剧情进展,于是命令全体演员回到第一幕重新开始。研究团队揭示,问题的核心在于AI模型内部用于标记时间顺序的“旋转位置编码”系统存在周期性缺陷。他们创新的“多头抖动”技术,相当于为系统的“内部时钟”进行了精准校准,成功攻克了这一难题,为AI视频生成的“马拉松”扫清了障碍。

一、AI视频生成的“记忆断裂”挑战

理解这一挑战,可以将AI生成视频想象为绘制一幅超长卷轴画。传统技术就像画家只能参照眼前有限的几幅画面来构思下一笔,对于短篇创作尚可应付,一旦篇幅拉长,问题便接踵而至。

当前主流的长视频生成技术,例如LongLive和Self-Forcing++,都采用了一种名为“注意力沉没帧”的机制。这相当于为画家提供故事开头的几张关键画稿作为长期参考,以确保整体风格的一致性。这个思路本身颇具巧思,类似于在撰写长篇小说的每一章前重温主角的核心设定。

然而,测试揭示了一个诡异的现象:无论输入何种内容,AI总会在某些固定的时间点(例如第132帧、第201帧)突然“记忆清零”,画面毫无征兆地跳回最初的参考场景。这并非简单的画面重复,而是一种彻底的叙事重置,严重破坏了视频的逻辑连贯性。

更为关键的是,这种崩塌具有惊人的可预测性。即使更改提示词或随机种子,崩塌依然在相同的位置发生。这明确指向问题并非源于外部输入,而是AI模型内部某种底层机制的固有缺陷。要根治它,必须深入模型的“大脑”,找到那个周期性失效的“开关”。

二、揭秘“时间迷失”的内在成因

为了定位故障根源,研究团队化身技术侦探,将焦点对准了“旋转位置编码”。这项技术是AI理解帧与帧之间时序关系的核心,其原理类似于使用多个不同转速的指针来标记时间位置。

问题恰恰出在这种“指针”的周期性上。就像时钟指针转一圈会回到原点,RoPE的编码值在达到一定长度后也会发生循环。对于短视频,所有帧都在一个周期内,因此相安无事。但对于长视频,相隔数百帧的两个位置,其编码值可能变得极为相似,导致AI无法区分先后顺序,误以为回到了时间起点。

深入分析后,团队发现“沉没崩塌”发生在多个RoPE维度的“指针”相位高度对齐的时刻,即所谓的“相位集中”现象。这好比多个不同周期的齿轮,在某个瞬间突然全部严丝合缝地咬合在同一位置,从而引发系统的集体误判。

与此同时,模型内部的“多头注意力”机制也出现了异常。在正常情况下,这些“注意力头”会各司其职,分别关注物体的运动轨迹、色彩变化、形状轮廓等不同视觉特征。但在崩塌发生的瞬间,几乎所有“头”的注意力都被初始帧强烈“吸引”,放弃了对当前画面内容的处理。这种集体“走神”,从机制上解释了为何崩塌会如此彻底和突然。

三、优雅的“频率抖动”破解之道

找到了症结所在,解决方案却出人意料地优雅。研究团队提出的“多头RoPE抖动”技术,其核心思想是打破有害的同步效应。

在传统模型中,所有注意力头共享同一套RoPE频率基准,就像所有时钟完全同步运行,必然会在特定时刻集体指向12点。新方法则为每个注意力头的基础频率引入一个微小的、随机的偏移量。

这就好比给交响乐团中的每位乐手配置一个略有差异的节拍器,虽然各自节奏稍有不同,但整体合奏依然和谐流畅,却能有效避免所有乐器在某一刻产生破坏性的共振。实验表明,将这种抖动幅度控制在原始频率的±80%范围内时,能在最佳保持视频生成质量的前提下,最有效地防止崩塌发生。

该方案的另一巨大优势在于其“即插即用”的特性。它无需对现有模型进行耗资巨大的重新训练,只需在推理生成阶段调整相应参数即可生效,极大地降低了技术落地与部署的门槛。

四、迈向真正的“无限时长”视频生成

解决了“记忆断裂”问题,还需突破“续航”瓶颈。传统方法受限于位置编码的长度(通常约1024帧)和巨大的内存消耗,难以生成超长视频。

研究团队巧妙地利用了现有模型的两个特性:一是其底层编码器采用“因果VAE”结构,在解码生成每一帧时,主要依赖前序已生成的信息,这允许采用“滑动窗口”策略来分段处理超长视频,大幅降低了内存压力;二是模型本身使用了“局部注意力”机制,天生就适合处理长序列数据。

基于此,他们实现了真正的流式视频生成。AI可以像一位不知疲倦的画家,持续创作出新的画面,并与之前的内容实现无缝衔接。在单张高性能显卡上,该系统已能以每秒约16帧的速度生成视频,非常接近实时播放的要求。

最终,团队成功演示了连续12小时视频的流畅生成。这不仅是技术能力的展示,更从实践上证明了生成超长时长、高一致性视频的可行性,为各类实际应用铺平了道路。

五、严谨测试验证技术突破

任何技术突破都需要经过严谨的量化验证。团队设计了一套专门的指标来评估“沉没崩塌”的严重程度,包括“最大崩塌分数”和“平均崩塌分数”。

在基准测试中,传统方法的表现堪忧。例如,LongLive模型在生成100秒视频时,平均崩塌分数高达30.54。而应用“多头抖动”技术后,该分数骤降至3.93,改善效果极为显著。

更重要的是,在解决核心崩塌问题的同时,新方法在视频动态丰富性、时间连贯性、文本描述对齐度等所有关键质量指标上,均保持与原方法相当甚至略有提升的水平。与其他旨在扩展上下文长度的方法(如位置插值、NTK感知调整等)相比,该方案在消除崩塌和维护生成质量之间取得了最佳平衡。

长达12小时的连续性生成测试,则从实践层面雄辩地证明了该技术的可靠性与巨大潜力。

六、深入探究问题的本质机制

团队并未止步于技术应用,而是继续深入挖掘其内在机理,以彻底理解这一现象。

他们首先验证了“沉没崩塌”是多维度协同失效的结果,而非单一维度的故障。尝试仅调整模型中某个特定维度频率的方法(如RIFLEx)被证明在自回归视频生成任务中效果有限。

其次,研究发现单纯地改变RoPE的基础频率,只能推迟或提前崩塌发生的时间点,而无法从根本上根除问题。这如同仅调整时钟的快慢,只能改变指针重合的时刻,却无法阻止重合本身的发生。

进一步的参数研究表明,抖动强度需要达到一个关键阈值(约80%),并且需要应用于模型中的所有注意力头,才能取得最佳效果。这反过来也证实了崩塌是一种系统级的、由多头注意力集体行为所导致的现象。

在数学层面,团队定义了“相位一致性核”来精确量化崩塌发生的条件,为整个现象提供了坚实的理论解释框架。

七、广阔的应用前景与行业影响

这项研究的成功,为多个前沿领域打开了广阔的想象空间。

对于内容创作产业而言,它意味着未来能够一键生成连贯的数小时在线教育课程、科普纪录片或完整叙事短片,极大降低专业级长视频制作的门槛与成本。

在游戏与虚拟现实领域,该技术可用于生成永不重复的动态开放世界环境(如流动的云层、波光粼粼的湖面),大幅提升用户的沉浸感。

对于直播与实时演示场景,它使得AI能够成为实时背景或视觉内容的协同创作者,提供动态丰富的视觉支持。

在科学研究与数据可视化方面,长期连续监测的数据(如气候变化、金融市场波动)可以被转化为直观的动态视频,帮助研究者更轻松地洞察潜在规律。

从更广泛的技术演进角度看,该研究揭示了RoPE类位置编码在超长序列处理任务中可能存在的潜在缺陷,其解决方案对于大型语言模型等同样需要处理长上下文的任务具有重要的参考价值。其“无需重训练”的特性,更有利于技术的快速普及与迭代优化。

八、当前限制与未来展望

当然,这项技术仍处于发展的早期阶段,面临诸多挑战与限制。

首先,其生成能力受限于所采用的底层基础模型。当前使用的模型在处理极端复杂场景或需要高度精细细节的画面时,仍存在局限性。

其次,“长期记忆”问题尚未得到完全解决。AI能够保持视频流的整体连贯,但可能无法记住很久之前出现的某个特定角色或物体的精确细节。

此外,在生成长时间的单一主题视频时,内容的多样性可能逐渐降低,视觉上有可能陷入某种重复模式。计算效率和对生成内容的精确控制能力,也有待进一步的提升。

展望未来,集成更强大的基础视觉模型、设计专门的长期记忆模块、引入更丰富的控制信号(如草图、关键帧),以及持续优化计算效率,将是重要的研究方向。这项研究如同打开了一扇新的大门,门后是AI视频生成技术走向真正实用化与创意民主化的广阔道路。或许在不远的将来,仅用文字描述来生成一部连续剧的初稿,将像今天撰写一份故事大纲一样平常。

常见问题解答

Q1:什么是“沉没崩塌”现象?

A:“沉没崩塌”是AI在生成长视频时出现的一种典型故障,表现为视频内容在特定时间点突然跳回开头的场景,如同时间倒流。这会严重破坏视频的叙事连贯性,且其发生位置往往具有规律性。

Q2:UCLA和字节跳动是如何解决这个问题的?

A:研究团队发现问题的根源在于模型内部用于标记时间顺序的“旋转位置编码”存在周期性重合缺陷。他们提出了“多头抖动”技术,通过为模型中不同的处理单元(注意力头)赋予略微不同的频率基准,打破了导致系统误判的同步效应,从而从根本上根治了崩塌问题。

Q3:这项技术能生成多长的视频?

A:从技术原理上讲,它可以支持理论上无限长度的视频生成。研究团队已成功公开演示了连续12小时视频的流畅生成,且整个过程支持流式输出,可以实现边生成边观看。

来源:https://www.techwalker.com/2026/0202/3178261.shtml
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

字节跳动与UCLA合作突破AI视频生成长度限制实现12小时连续生成
AI
字节跳动与UCLA合作突破AI视频生成长度限制实现12小时连续生成

生成一段高质量的长视频,其挑战堪比指挥一场宏大的交响乐,每个环节都必须精准无误。然而,现有的AI视频生成技术,常常在“乐章”行进到中途时,突然跳回开头重奏。这种令人困惑的“时光倒流”现象,已成为制约技术突破的关键瓶颈。 近期,一项由加州大学洛杉矶分校(UCLA)与字节跳动种子部门共同主导的研究,首次

热心网友
05.12
Meta视频世界模型新突破:让AI视频生成更符合物理规律
AI
Meta视频世界模型新突破:让AI视频生成更符合物理规律

想象一下,你让AI生成一段球从桌上滚落的视频,结果球在半空中消失了,或者水违背重力向上流。这听起来很荒诞,但恰恰是当前顶尖视频生成AI面临的普遍困境——它们能创造出视觉惊艳的内容,却常常违背最基本的物理定律。 最近,一项由Meta超级智能实验室联合牛津大学、蒙特利尔大学等知名院校开展的研究,为这个长

热心网友
05.12
微软 Copilot 新技能:背靠 500 万 Clipchamp 素材库,秒速生成 AI视频
AI
微软 Copilot 新技能:背靠 500 万 Clipchamp 素材库,秒速生成 AI视频

微软Copilot新技能:背靠500万Clipchamp素材库,秒速生成AI视频 这效率,着实让人惊讶。就在昨天(2月21日),微软公司正式宣布,为Copilot上线了一项名为Visual Creator的新工具。它通过与Microsoft Clipchamp深度集成,实现了在短短几秒钟内,就能从一

热心网友
04.28
出轨怀孕打小三:水果AI视频成功拉低全世界智商
科技数码
出轨怀孕打小三:水果AI视频成功拉低全世界智商

出品 | 虎嗅青年文化组 作者 | 黄瓜汽水 编辑 | 渣渣郡 当我们在谈论消费时,究竟在谈论什么?是账单上的数字,还是商品本身,抑或是购买行为背后那份微妙的情绪价值?市场给出的答案正变得越来越清晰:一种更务实、更注重内在感受的消费观,正在悄然重塑商业世界的逻辑。 这并非简单的“消费降级”可以概括。

热心网友
04.26
可灵ai视频生成太慢怎么办_可灵ai排队加速与点数使用【策略】
AI
可灵ai视频生成太慢怎么办_可灵ai排队加速与点数使用【策略】

不知道你有没有遇到过这种情况:满怀期待地想用可灵AI生成视频,结果进度条卡在那里一动不动,或者排队的数字半天不见减少。说实话,这种等待确实挺熬人的。根据我的经验,这背后通常逃不开三个原因:服务器那边任务堆积成山、你的点数快见底了,或者本地和云端之间的协作出了点小问题。不过别担心,下面这些方法都是我亲

热心网友
04.21

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

Coinbase新手入门指南:分步详解登录认证与首单交易流程
web3.0
Coinbase新手入门指南:分步详解登录认证与首单交易流程

本文旨在为新用户提供一份循序渐进的Coinbase使用指南。建议将学习过程拆分为登录、身份认证和首次交易三个阶段。文章详细介绍了每个阶段的核心操作、注意事项及安全建议,帮助用户在不感到信息过载的情况下,逐步熟悉平台功能,从而更轻松、安全地开启数字资产之旅。

热心网友
05.12
Coinbase闪退问题解决指南:检查系统版本权限与清理缓存
web3.0
Coinbase闪退问题解决指南:检查系统版本权限与清理缓存

Coinbase应用下载后出现闪退,通常与设备系统版本、应用权限或旧缓存文件有关。可先检查手机系统是否满足最低要求,并确保已授予应用必要的存储和通知权限。若问题依旧,尝试清除应用缓存或彻底卸载后重新安装。对于iOS设备,还需确认AppleID地区设置与账户匹配。

热心网友
05.12
红月传奇职业选择指南:哪个职业最强最好用
游戏资讯
红月传奇职业选择指南:哪个职业最强最好用

在《红月传奇》这款经典游戏中,职业选择是决定你游戏体验与成长路线的关键一步。是成为近战无敌的勇猛战士,还是掌控元素的远程法师,或是全能辅助的团队核心道士?不同的职业定位,将带来完全不同的战斗风格、团队职责与成长乐趣。本文将为你深度解析三大职业的核心玩法、技能特色与团队定位,助你精准选择最适合自己的传

热心网友
05.12
战锤40K战争黎明4机械教阵营玩法与兵种解析
游戏资讯
战锤40K战争黎明4机械教阵营玩法与兵种解析

《战锤40K:战争黎明4》的最新实机预告片已经发布,这次的主角是游戏中的全新派系——机械教阵营。没错,就是《战锤40K》宇宙里那个崇拜“万机之神”、痴迷于数据与技术的技术祭司派系。他们正式登场,意味着战场上的科技天平将发生显著倾斜。 从定位上看,机械教是一个高机动性、擅长远程打击的阵营。他们依靠各种

热心网友
05.12
索尼AI专利实现游戏精彩瞬间自动捕捉 告别手动录屏
游戏资讯
索尼AI专利实现游戏精彩瞬间自动捕捉 告别手动录屏

对于广大游戏爱好者而言,记录并分享游戏中的精彩瞬间——无论是多人竞技中的极限操作,还是单人剧情中击败强大BOSS的激动时刻——已成为日常游戏体验的一部分。然而,传统的录屏、回放、剪辑与导出流程,往往操作繁琐、耗时费力。近日,索尼互动娱乐的一项新专利显示,他们正致力于利用人工智能技术,从根本上革新这一

热心网友
05.12