PickStyle视频风格适配器:用上下文迁移完成视频风格转换
研究提出PickStyle框架,借助风格适配器增强预测练扩散主干网络,依赖成对的静态图像数据训练生成模型,并通过构建合成训练视频片段来弥补图像数据与动态视频之间的差距,同时引入上下文-风格无分类器引导机制,以确保风格迁移效果与视频内容信息的有效保留。实验结果表明,该方法能够生成高质量的视频风格转换结果,在多项指标上超越了现有主流技术。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
利用扩散模型进行视频风格迁移,其核心目标是在保留输入视频原始运动与内容的同时,将其转换为文本提示所指定的艺术风格。这一任务面临的主要挑战在于缺乏大量成对的、带有风格标注的视频监督数据。为此,论文提出的PickStyle框架,通过风格适配器模块增强视频扩散网络,利用易于获取的成对图像数据进行初始训练,同时通过构建合成视频片段来弥合图像监督与视频生成的差异,并引入上下文-风格无分类器引导技术,共同保障了风格转换的忠实度与内容一致性。综合评估显示,该方法能实现连贯、保真且内容保留完好的视频转换,性能优于现有方案。

相关资源
论文:PICKSTYLE: Training-Free Video Stylization with Motion Preservation 主页:PICKSTYLE Project论文介绍

运用扩散模型解决视频风格迁移任务,其核心目标是在保留输入视频动态内容与上下文的同时,将其渲染成文本提示所指定的目标视觉风格。这一任务的一个主要瓶颈是缺乏用于监督学习的大规模成对视频数据。
论文提出的PickStyle是一个端到端的视频风格迁移框架,它通过风格适配器模块来增强预测练的视频扩散主干网络,并利用带有源-风格对应关系的成对静态图像数据进行训练。PickStyle将轻量级的适配器嵌入到条件模块的自注意力层中,从而实现运动-风格映射的高效适配,同时维持视频内容和风格之间的高度一致性。
为了弥合静态图像监督与动态视频生成之间的差异,通过应用模拟摄像机运动的共享数据增强技术,从成对图像构建合成训练视频片段,以确保模型学习到时间上的先验。此外,我们引入了上下文-风格无分类器引导,这是一种新颖的方法,它将无分类器引导分解为独立的文本风格和视觉上下文两个引导方向。CS-CFG 确保生成的视频在有效迁移风格的同时,能牢固保持原始的上下文信息。跨基准测试的实验表明,该方法实现了时间连贯、风格忠实且内容保留完好的视频转换,在质量与数量指标上均超越了现有基准方法。
方法概述

图示展示了 PickStyle 的训练与推理流程。在训练过程中(左图),风格图像和上下文图像均通过运动增强技术,转换为具有合成摄像机运动模式的视频序列标记和上下文标记;基于 DiT 架构的 PickStyle 模型结合上下文风格适配器,根据上下文标记对视频序列标记进行加噪与去噪学习。在推理过程中(右图),对输入上下文视频和风格文本描述进行编码,并在文本、上下文和空值条件的共同引导下进行迭代去噪,其中提出的 CS-CFG 机制在空值上下文条件下应用时空置换操作,以生成最终的风格化视频。
实验结果

乐高和动漫风格下,PICKSTYLE 与 Control-a-Video、Rerender、FRESCO 以及 FLATTEN 等方法的定性效果比较。


结论
PICKSTYLE 是一个基于视频扩散模型构建的视频风格迁移框架,它配备了上下文风格适配器和新颖的 CS-CFG 引导机制。尽管训练数据相对有限,PICKSTYLE 仍能在渲染多样化目标风格的同时,有效地保留原始视频的运动与上下文信息。通过利用合成运动增强训练对和噪声初始化策略,它实现了超越现有方法的风格保真度、时间稳定性与感知质量。除了量化改进之外,PICKSTYLE 还能在不同风格中始终如一地呈现连贯的色彩再现和忠实的几何图形,同时避免了基于图像的方法中常见的时间闪烁和混合伪影。这些结果表明,即使在有限监督下,PICKSTYLE 也能提供高质量的风格迁移,为未来可控视频风格化的研究奠定了坚实的基础。
相关攻略
这项由中国人民大学、上海交通大学等机构联合完成的研究发表于2026年,论文编号为arXiv:2602 07035v1,标志着人工智能搜索代理技术的一次重要突破。有兴趣深入了解的读者可以通过该论文编号
论文提出PickStyle框架,用风格适配器增强预训练网络,靠配对静态图像数据训练,还通过构建合成训练片段弥合差距,引入CS-CFG确保风格迁移与内容保留。实验表明,该方法能实现优质视频转换,优于现
机器之心编辑部扩散语言模型(Diffusion Language Models, DLLMs)因其多种潜在的特性而备受关注,如能加速的非自回归并行生成特性,能直接起草编辑的特性,能数据增强的特性。然
扩散模型就像是一位神奇的画家,它能从一片混乱的噪点中逐步画出美丽的图像。不过,这位画家在作画时面临一个关键选择:它应该专注于去除画布上的噪点,还是直接描绘最终的图像轮廓?这个看似简单的问题,实际上一
论文的关键见解是,图像中的光照关系本质上类似于自注意力层中的标记交互,因此在自注意力层中得到了最佳体现。 标题:PractiLight: 使用基础扩散模型进行实用光控制论文:https: arxi
热门专题
热门推荐
可通过五种方式查看悟空浏览器下载记录:一、内置下载管理器;二、系统通知栏跳转;三、“我的”页面入口;四、文件管理器访问默认目录Download wukong;五、全局搜索文件名。如
3月27日消息,有网友晒出他直播的片段,63岁、身家121亿早就财富自由的俞敏洪,居然在直播间里亲自带面膜。两个助理加上自己,手忙脚乱搞了半天,总算把面膜糊上脸了。旁边的小姐姐都憋笑不停,完了俞敏洪
今早,小鹏汽车官宣2026款小鹏MONA M03全面到店并开启试驾。作为品牌10万级纯电轿车的核心走量担当,MONA M03常年稳居细分市场销量前列,这一次改款看点十足。【P1】废话不多说,一起来看
最近的热搜是一个接着一个来,前有罗永浩邀请杨笠上播客被骂,现有瑞士知名鼠标品牌罗技“自砍一刀”。小雷估计大家伙都刷到视频了吧,那配文真的是不堪入目。“当我说我不会再花一分钱时,我一降价,你还不是像狗
3月26日,董明珠在香港科技大学分享会上演讲,本来是聊年轻人怎么帮中国品牌出海,后来现场有同学提问,未来毕业生的年轻人,怎么帮格力和其他中国品牌走向世界。估计是董明珠觉得这次不好回答,于是她把话题拐





