首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
张吕敏ControlNet论文新解:超长视频精准控制指南

张吕敏ControlNet论文新解:超长视频精准控制指南

热心网友
55
转载
2026-01-04



编辑|冷猫

大部分的高质量视频生成模型,都只能生成上限约15秒的视频。清晰度提高之后,生成的视频时长还会再一次缩短。

这就让尝试AI视频创意的创作者们非常苦恼了。要想实现创意,必须使用分段生成,结合首尾帧,不仅操作起来很麻烦,而且需要来回抽卡来保证画面的一致性。

那么,限制视频生成时长的瓶颈在哪里?

大家可能不知道的是,一段 60 秒、480p、24 帧/秒的视频,在模型内部会被拆解成超过 50 万个「潜在 token」

这些 token 就像一条极长的记忆胶带,模型想要保持剧情连贯、画面一致,就必须从头到尾保存上下文记忆。但代价是:算力直接爆炸,普通显卡根本扛不住。

这正是当前自回归视频生成模型的核心矛盾。一边是越长的上下文,画面越连贯;另一边是越长的上下文,计算成本越高。

于是,研究者们不得不做出妥协:要么用滑动窗口切掉大部分历史,换取可运行的算力;要么对视频进行激进压缩,牺牲清晰度和细节。

问题在于,这些压缩方法往往最先丢掉的,正是决定画面真实感与一致性的高频细节。

也正是在这一困境下,苏州大学校友,斯坦福大学博士,ControlNet 创作者张吕敏团队为此投入了研究提出了一种新的解决思路,给出了专为长视频设计的记忆压缩系统,在压缩的同时尽可能保留精细视觉信息。



论文标题:Pretraining Frame Preservation in Autoregressive Video Memory Compression论文链接:https://arxiv.org/abs/2512.23851v1

研究团队提出了一种神经网络结构,用于将长视频压缩为短上下文,并设计了一种显式的预训练目标,使模型能够在任意时间位置保留单帧中的高频细节信息。

基线模型可以将一段20 秒的视频压缩为约 5k 长度的上下文表示,同时支持从中随机检索单帧,并在感知质量上保持良好的外观保真度

这种预训练模型可以直接微调为自回归视频模型的记忆编码器(memory encoder),从而以较低的上下文成本实现长历史记忆建模,并且仅带来相对较小的保真度损失。



该视频是使用完整历史上下文(不切割任何历史帧)逐秒自回归生成的。20 多秒的历史被压缩为 ∼ 5k 上下文长度,并由 RTX 4070 12GB 处理。

全新的记忆压缩架构

具体而言,研究团队采用两阶段策略

首先,预训练一个专用的记忆压缩模型,其目标是在任意时间位置上尽可能保留高保真帧级细节信息。

该预训练目标通过对从压缩历史中随机采样的帧最小化其特征距离来实现,从而确保模型在整个序列范围内都能稳健地编码细节信息。

在网络结构设计上,提出了一种轻量级双路径架构:模型同时处理低分辨率视频流和高分辨率残差信息流,并通过将高分辨率特征直接注入 Diffusion Transformer 的内部通道,绕过传统 VAE 所带来的信息瓶颈,从而进一步提升细节保真度。

预训练记忆压缩模型



记忆压缩模型的预训练。记忆压缩模型需要将长视频(例如 20 秒)压缩成短上下文(例如长度为 5k)。预训练的目标是在任意历史时间位置检索具有高频细节的帧。

该方法的核心创新在于其预训练目标设计

研究团队观察到,衡量视频压缩机制保留上下文细节能力的一个合适的指标是其任意时间位置高质量帧检索的能力。对于高压缩率,完美检索变得不切实际,因此目标变为最大化任意帧的检索质量。



随后,研究团队将所选的干净帧复制作为扩散模型的目标,使扩散系统能够在任意时间位置重建目标帧。该过程可表示为:



这种随机化选择机制有效防止模型通过仅编码易于访问的帧(例如首帧或末帧)来「投机取巧」,从而迫使模型学习一种能够在整个时间序列范围内持续保留细节信息的表示方式。



内存压缩模型的架构。使用 3D 卷积、SiLU 和注意力机制来构建一个轻量级的神经网络结构,作为基准压缩模型。

视频扩散模型的微调



微调自回归视频模型。展示了最终自回归视频模型的微调和推理过程。记忆压缩模型的预训练在微调之前完成。



由此得到的视频生成模型具备超长历史窗口(例如超过 20 秒)、极短的历史上下文长度(例如约 5k),并且对帧检索质量进行了显式优化。

该扩散过程亦可按照公式表示为:



实验结果

在实验中,研究团队使用 8 × H100 GPU 集群进行预训练,并使用 1 × H100s 或 A100s 进行 LoRAs 微调。所有实验均在 HunyuanVideo和 Wan 系列的基础模型上进行。

数据集由来自多个 的约 500 万互联网视频组成。其中约一半是竖屏短视频,其余为普通横屏视频。数据经过质量清洗,然后使用 Gemini-2.5-flash VLM 对高质量部分进行字幕标注,剩余部分使用本地 VLM(如 QwenVL)进行处理。测试集包括由 Gemini-2.5-pro 编写的 1000 个故事板提示和 4096 个未在训练数据集中出现过的视频。

定性与定量评估



故事板上的定性结果。通过从故事板中流式传输提示来展示结果。故事板是一组提示,其中每个提示涵盖一定数量的帧。故事板可以由外部语言模型编写。

在定性评估方面,如图所示,研究者证明了模型能够处理多种多样的提示和故事板,同时在角色、场景、物体和情节线方面保持一致性。

在定量评估方面,研究者们从 VBench、VBench2等平台引入了多个视频评估指标,并进行了一些修改。



视频内容一致性的定量评测结果。其中,Qwen 中的 「1p」 表示仅使用 1 张图像 作为图像模型输入。由于部分方法存在严重伪影,因此未将其纳入人工 ELO 评分统计。

如表所示,本文提出的方法在多个一致性指标上表现出合理的分数。Wan+Qwen 组合在实例分数上似乎具有领先分数,这可能是由于图像模型不会显著改变或移动对象,从而避免了 VLM 问答检测到的伪影。本文的方法在对象一致性方面表现出有竞争力的分数。此外,用户研究和 ELO 分数验证了本文提出的架构,证实它在压缩和质量之间实现了有效的权衡。

消融实验



压缩结构的定量结果。展示了使用不同消融压缩架构的数值测试。

评测结果如表所示。结果表明,本文方法在 PSNR、SSIM 等指标上取得了相对更优的性能。此外,即便在 4×4×2 的较高压缩率条件下,该方法仍然能够有效保持原始图像结构。



压缩重建的视觉比较。展示了使用不同可能的神经网络结构和各种压缩设置进行预训练后的重建结果。



记忆压缩模型预训练的影响。展示了使用或未使用记忆压缩模型预训练的结果。输入是相同的 20 秒历史视频,在输出帧中可视化中间帧。

除此以外,研究团队还在论文中讨论了不同神经网络架构设计之间的权衡取舍。

更多信息,请参阅原论文。

来源:https://www.163.com/dy/article/KIEFG4AR0511AQHO.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

Claude爆火研究漏引华人团队成果已致歉
AI资讯
Claude爆火研究漏引华人团队成果已致歉

近日,Anthropic发布了一项关于Claude模型内部“情绪机制”的新研究,却因未引用关键的前期工作而引发学术争议。原作者直接指出这一疏漏,促使Anthropic迅速回应并更新了论文引用。 发现这一问题的研究者是来自MBZUAI的研究生Chenxi Wang。她在阅读论文后敏锐地察觉到,这项研究

热心网友
05.20
复旦团队破解六十年数学物理难题成果登上数学顶刊
科技数码
复旦团队破解六十年数学物理难题成果登上数学顶刊

复旦大学等机构破解了困扰学界60年的经典数学物理难题,成果发表于国际顶尖期刊。研究系统分析了二维不可压缩欧拉方程中“猫眼流”涡旋结构在不同扰动下的稳定性,首次严格证明了其存在“合并不稳定性”,为理解磁重联等物理过程提供了新理论工具,其分析框架有望应用于更广泛的涡。

热心网友
05.16
7月25日外媒科学网站摘要:科学家警告,人类正无意间向宇宙泄露“地球坐标”
科技数码
7月25日外媒科学网站摘要:科学家警告,人类正无意间向宇宙泄露“地球坐标”

《自然》:一桩悬案了结? “砷基生命”论文终遭撤稿,但争议远未结束 科学界一桩持续了15年的公案,最近有了新进展。顶级期刊《科学》(Science)正式撤回了那篇曾引发轰动的争议性论文——该研究当年声称,在美国加州莫诺湖发现的一种细菌,能够用有毒的砷元素替代生命必需的磷来构建DNA,这直接挑战了我们

热心网友
04.17
科研产出占全球40%,顶刊数量却不足4%:中国学术期刊如何突围?
科技数码
科研产出占全球40%,顶刊数量却不足4%:中国学术期刊如何突围?

中国科研产出激增背后:学术出版话语权与经济成本的双重挑战 近期,在上海科学会堂举行的Insight Press(睿见出版)首批高质量学术期刊创刊仪式暨第十一期“好望角科学沙龙”上,科学家、出版机构负责人与期刊主编们齐聚一堂,共同探讨中国一流学术期刊的未来发展路径。当前,中国科学家正以前所未有的速度产

热心网友
04.16
中国科协:2026年NeurIPS会议资助调整与学者参会指引
科技数码
中国科协:2026年NeurIPS会议资助调整与学者参会指引

中国科学技术协会2026年3月31日发布告示:中国科协曾于2026年3月27日就2026年NeurIPS会议发表声明,本意是尽力维护我国关涉学者正当利益,其措施原则是清晰、适当的,没有发生变化。现就

热心网友
03.31

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

比特币现货持有者坚定持仓 BTC价格逼近115000美元关键阻力位
web3.0
比特币现货持有者坚定持仓 BTC价格逼近115000美元关键阻力位

现货持有者坚守仓位,比特币接近115,000水平 近期比特币(BTC)价格接近$115,000水平,市场整体情绪谨慎,但现货持有者依旧坚守仓位,显示出一定的多头信心。 市场现状与资金流动 那么,当前市场的资金究竟在如何流动?分析显示,一个有趣的现象正在上演:短线资金的流入其实相当有限,市场热度并未急

热心网友
05.23
瑞波币XRP现最强看涨形态目标6美元 近期回调后走势深度解析
web3.0
瑞波币XRP现最强看涨形态目标6美元 近期回调后走势深度解析

目录 要点介绍:分析师称XRP呈现“最强看涨结构”高位清算集中于2 90美元以上区域 周四,XRP价格稳稳站在了2 80美元上方。这个位置守住了,意味着什么?意味着市场向那个经典的“杯柄形态”目标价——6美元以上——又迈进了一步。 要点介绍: 先看几个核心数据:周四XRP报收2 82美元。技术分析显

热心网友
05.23
以太坊衍生品市场企稳 交易员聚焦4500美元关键阻力位突破
web3.0
以太坊衍生品市场企稳 交易员聚焦4500美元关键阻力位突破

近期,以太坊(ETH)衍生品市场经历了短暂的闪崩,但随后价格快速企稳,交易者开始关注关键突破点——$4,500水平。 ETH衍生品市场现状 市场情绪往往在剧烈波动后显露真容。从最新的链上数据和期权、永续合约的交易情况来看,那场短暂的闪崩更像是一次压力测试——结果是,市场波动率显著下降,多空力量似乎进

热心网友
05.23
狗狗币DOGE暴涨11%交易量激增四倍 市场反弹行情能否持续
web3.0
狗狗币DOGE暴涨11%交易量激增四倍 市场反弹行情能否持续

DOGE单日暴涨11%,交易量激增四倍,市场风向变了? 最近,加密货币市场又热闹起来了。DOGE(狗狗币)上演了一出“旱地拔葱”,价格单日暴涨11%,更关键的是,成交量直接翻了四倍。这种“价量齐升”的场面,无疑给整个迷因币板块打了一针强心剂,市场情绪肉眼可见地回暖了。 DOGE价格拉升原因分析 那么

热心网友
05.23
欧易OKX官方APP下载指南 安全交易入口与安装教程
web3.0
欧易OKX官方APP下载指南 安全交易入口与安装教程

如何安全获取欧易(OKX)官方APP?一份详尽的下载与使用指南 Binance币安 欧易OKX ️ Huobi火币️ 当人们谈论“欧易易欧”时,指的往往是那个全球顶尖的数字资产交易平台——欧易(OKX)。作为业务版图庞大的行业巨头,其官方APP无疑是用户进行交易、查看行情和管理资产的核心工具。不过,

热心网友
05.23