Rolling Forcing技术:用AI生成分钟级长视频的实用指南
Rolling Forcing 成功突破了实时长视频生成领域的不可能三角,在保持 16 fps 实时生成速度的同时,显著降低了长序列生成中的误差累积,实现了分钟级别的高质量视频流生成,为交互式世界模型、神经游戏引擎等应用提供了底层支撑。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
本项研究由南洋理工大学与腾讯 ARC 实验室联合完成。论文的第一作者为南洋理工大学博士生刘坤昊。本文的通讯作者为 ARC 实验室资深研究员胡文博和南洋理工大学教授 Shijian Lu。
AI 能够实时拍摄长片了吗?
想象一下这样的场景:你正在玩一款开放世界游戏,角色在无缝衔接的环境中自由漫游,而游戏引擎必须实时生成一条无限长的视频流来呈现这个世界。或者,当你戴着 AR 眼镜走在街头,系统需要根据你的视线与动作,即时生成与环境交互的画面。无论是哪种应用场景,都对 AI 提出了相同的核心要求——能够实时生成高质量、长时间连贯的视频流。
然而,这正是当前 AI 视频生成面临的核心瓶颈。现有模型在几秒钟的短视频片段中表现尚可,但当生成时间持续延长时,各种问题会像滚雪球般不断放大。这种现象被称为误差累积,就像“传话游戏”中信息层层失真,每一帧的微小误差都会被后续帧继承、放大,最终导致画面崩溃——出现色彩漂移、动作僵硬、主体变形等问题。视频越长,这些问题就越严重。
来自南洋理工大学与腾讯 ARC 实验室的研究团队提出了一种全新的实时视频生成方法:Rolling Forcing。它通过三大创新设计——滚动窗口联合降噪、注意力锚点机制以及高效训练算法——实现了“边生成边修正”的创新思路,从而在单张 GPU 上实现了分钟级别视频的实时生成。

论文链接:https://arxiv.org/abs/2509.25161项目主页:https://kunhao-liu.github.io/Rolling_Forcing_Webpage/代码仓库:https://github.com/TencentARC/RollingForcingHuggingface:https://huggingface.co/TencentARC/RollingForcing

研究背景:实时长视频生成的“不可能三角”

实时长视频生成面临着一个经典的“不可能三角”困境:高质量、一致性和实时性三者难以兼顾。其核心挑战可分解为以下三个方面:
实时性要求模型必须顺序生成,严格遵循时间序列输出每一帧,且每帧延迟极低。这使得规划生成等非顺序方法无法适用于流式场景。尽管预测关键帧再插值能减少误差累积,但其乱序生成不适用于实时场景。消除误差累积与保持一致性构成两难困境:在自回归生成过程中,每一帧的微小误差都会像滚雪球般被后续帧继承放大,导致长期漂移。为缓解此问题,历史腐蚀通过噪声注入降低对历史的依赖,然而却牺牲了帧间连贯性,会导致帧间抖动和长期漂移问题。自回归逐帧生成的局限:Self Forcing 等方法虽满足实时流式要求,但其严格因果性使模型无法修正历史错误,导致误差随视频延长而累积,最终引发画面崩溃。
方法核心:Rolling Forcing 如何实现“边生成边修正”
既然现有方法在高品质、一致性和实时性这个困境中难以突破,Rolling Forcing 的研究动机就很明确:能否在严格遵循流式顺序的前提下,赋予模型一种“前瞻性”的局部修正能力?其答案是一个巧妙的“滚动窗口”思想。
它将视频生成从一种严格的串行因果过程,转变为一个滑动窗口内的并行协作过程。这就好比将传统工业上一步接一步、误差会逐级放大的串行流水线,升级为一个并行工作站。工作站内的成员可以相互沟通、协同修正,从而在保持产出节奏的同时,显著提升了成品的一致性。与质量。

具体而言,Rolling Forcing 通过三项关键设计实现了实时长视频生成的突破:
1. 滚动窗口联合降噪:Rolling Forcing 采用滑动窗口进行多帧联合优化,在单次前向传播中同时处理一个包含多帧的窗口,窗口内各帧通过双向注意力机制进行相互校准。每完成一次处理,窗口向前滑动:输出首帧作为最终结果,并引入新噪声帧作为窗口末端输入,实现连续流式生成。
2. 注意力锚点机制保障长期一致性:为解决长视频生成中的漂移问题,Rolling Forcing 引入了注意力锚点机制。该机制将初始生成帧作为全局锚点进行持久化缓存,在生成后续所有帧时,模型均能访问这些初始锚点信息,从而有效维持视频的长时期视觉属性一致性。
3. 高效训练算法缓解曝光偏差:Rolling Forcing 设计了一种基于非重叠窗口的高效蒸馏训练算法。该算法在训练过程中使模型使用自身生成的历史帧而非真实数据,有效模拟了推理时的真实场景。
实验结果:实现高质量长视频生成与交互控制
定量结果:显著降低误差累积,实现实时生成

如表示所示,Rolling Forcing 在多项关键指标上超越了现有主流方法。其最突出的优势体现在长期一致性上:衡量视频质量漂移的关键指标 ΔDriftQuality 远低于对比模型,这证明其有效抑制了长视频生成中的误差累积。同时,该方法在单张 GPU 上达到了 16 fps 的生成速度,实现了实时生成,为交互式应用奠定的基础。
定性对比:多分钟生成仍保持高保真度

在长视频生成的定性比较中,Rolling Forcing 的优势更为直观。在长达 2 分钟的生成过程中,对比模型普遍出现了明显的色彩偏移、细节退化或主体变形,而 Rolling Forcing 生成的内容在细节、色彩和运动连贯性上均保持了高度稳定。

交互式视频生成:动态引导内容创作

Rolling Forcing 的另一项核心能力是支持交互式视频流生成。在视频流生成过程中,用户可以随时改变文本提示词,模型能够根据新指令调整后续生成内容,实现内容的无缝切换与引导。

总结与未来挑战
Rolling Forcing 成功突破了实时长视频生成领域的不可能三角,在保持 16 fps 实时生成速度的同时,显著降低了长序列生成中的误差累积,实现了分钟级别的高质量视频流生成,为交互式世界模型、神经游戏引擎等应用提供了底层支撑。
尽管取得了突破性进展,以下方向仍值得进一步探索:
1. 记忆机制优化:当前方法仅保留初始帧和近期帧的上文内容,生成过程中段的内容会被丢弃。未来需要探索更高效的长期记忆机制,实现对视频中段关键信息的动态保存与召回。
2. 训练效率提升:大窗口注意力和 DMD 损失计算导致训练成本较高。未来可以在不牺牲性能的前提下降低计算复杂度,将模型扩展到更大规模。
3. 交互延迟优化:滚动窗口机制在提升质量的同时会引入微量延迟。针对需要极低延迟的交互场景,需要开发更灵活的推理策略。
相关攻略
4月5日消息,据“上海交通大学”公众号消息,日前,米哈游联合创始人、总裁、董事长、上海交通大学2005级信息工程专业本科、2009级通信与信息系统专业硕士校友刘伟,代表米哈游创始团队蔡浩宇、罗宇皓,
据彭博社近日报道称,尽管2026年Alphabet、亚马逊、Meta和微软等科技巨头都要投入超过6,500亿美元扩展人工智能(AI),但关键电气元件可用性成为主要障碍,近50%将因电力基础设施短缺和
4月6日消息,最近两年AI发展速度越来越快,AI取代大量工作导致人类失业的说法甚嚣尘上,然而事实可能不是这样。著名风投机构创始人a16z联合创始人Marc Andreessen也是AI圈的大佬,他日
4月6日消息,今日,红果短剧发布《关于持续治理AI短剧素材违规使用行为的公告》(以下简称《公告》)。《公告》显示,今年一季度,平台已累计下架违反平台治理规范的漫剧1718部。其中,针对近期AI短剧素
4月4日消息,发布仅1天的阿里千问新模型Qwen3 6-Plus,冲上全球知名大模型API调用平台OpenRouter的日榜榜首,成为当下最受企业和开发者热捧的大模型。OpenRouter最新数据显
热门专题
热门推荐
加密货币行业翘首以盼的监管里程碑,终于有了实质性进展。美国证券交易委员会(SEC)主席保罗·阿特金斯(Paul Atkins)近日证实,那份允许加密项目在早期获得注册豁免权的“安全港”框架提案,已经正式送抵白宫,进入了最终审查阶段。 在范德堡大学与区块链协会联合举办的数字资产峰会上,阿特金斯透露了这
微策略Strategy报告:第一季录得144 6亿美元浮亏 再斥资约3 3亿美元买进4871枚比特币 市场震荡的威力有多大?看看Strategy的最新季报就明白了。根据其最新向美国证管会(SEC)提交的8-K报告,受市场剧烈波动影响,这家公司所持的比特币在第一季度录得了一笔惊人的数字——144 6亿
稳定币巨头Tether的动向,向来是加密世界的风向标。这不,它向Web3基础设施的版图扩张,又迈出了关键一步。公司执行长Paolo Ardoino在社交平台X上透露,其工程团队正在全力“烹制”一个新项目——去中心化搜索引擎 “Hypersearch”。这个消息一出,立刻引发了行业的广泛猜想。 采用D
基地位于Coinbase旗下以太坊Layer2网络Base的Seamless Protocol,日前正式宣告了服务的终结。这个曾经吸引了超过20万用户的原生DeFi借贷协议,在运营不到三年后,终究没能跑赢时间。它主打的核心产品是Integrated Leverage Markets(ILMs)——一
PAAL代币揭秘:深度解析Web3社区治理的核心钥匙 在去中心化自治组织的浪潮中,谁真正掌握了项目的话语权?PAAL代币提供了一套系统化的答案。它不仅是生态内流转的价值媒介,更是开启链上治理大门的核心凭证。通过持有并质押PAAL代币,用户能够对协议升级、资金分配乃至战略方向等关键事务投出决定性的一票





