PickStyle指南：用上下文风格适配器实现视频风格转换

首页

AI资讯

热心网友

转载

2026-01-16

PICKSTYLE 是一个基于 VACE 架构的视频风格迁移框架，它配备了上下文风格适配器和创新的 CS-CFG 机制。

利用扩散模型进行视频风格迁移，旨在保留原始视频内容的同时渲染成指定风格，但面临缺乏配对视频数据监督的难题。为此，论文提出 PickStyle 框架，通过风格适配器增强预训练网络，依靠配对静态图像数据训练，还通过构建合成训练片段弥补差距，并引入 CS-CFG 确保风格迁移与内容保留。实验表明，该方法能实现优质视频转换，优于现有方法。

论文介绍

利用扩散模型解决视频风格迁移任务，其目标是在保留输入视频上下文的同时，将其渲染成文本提示指定的目标风格。一个主要的挑战是缺乏用于监督的配对视频数据。

论文提出的 PickStyle 是一个视频到视频的风格迁移框架，它使用风格适配器增强预训练的视频扩散主干网络，并利用具有源-风格对应关系的配对静态图像数据进行训练。PickStyle 将低秩适配器插入条件模块的自注意力层，从而实现运动-风格迁移的高效特化，同时保持视频内容和风格之间的高度一致性。

为了弥合静态图像监督和动态视频之间的差距，通过应用模拟摄像机运动的共享增强技术，从配对图像构建合成训练片段，确保保留时间先验。此外，我们引入了上下文-风格无分类器引导（CS-CFG），这是一种将无分类器引导分解为独立文本（风格）和视频（上下文）方向的新颖方法。CS-CFG 确保生成的视频在有效迁移风格的同时保留上下文。跨基准测试的实验表明，该方法实现了时间连贯、风格忠实且内容保留的视频转换，在质量和数量上均超越现有基准方法。

方法概述

PickStyle 的训练和推理流程。在训练过程中（左图），风格图像和上下文图像均通过运动增强技术转换为具有合成摄像机运动的视频标记和上下文标记；基于 DiT 的 PickStyle 模型结合上下文风格适配器，根据上下文标记对视频标记进行加噪和去噪。在推理过程中（右图），对上下文视频和风格描述进行编码，并在文本、上下文和空值条件下进行迭代去噪，其中提出的 CS-CFG 对空值上下文应用时空置换，以生成最终的风格化视频。

实验结果

乐高和动漫风格中 PICKSTYLE、Control-a-Video、Rerender、FRESCO 和 FLATTEN 的定性比较。

结论

PICKSTYLE 是一个基于 VACE 构建的视频到视频风格迁移框架，它配备了上下文风格适配器和新颖的 CS-CFG 机制。尽管训练数据集相对有限，PICKSTYLE 仍能在渲染多样化目标风格的同时有效地保留运动和上下文。通过利用合成运动增强训练对和噪声初始化策略，它实现了优于现有方法的卓越风格保真度、时间稳定性和感知质量。除了量化改进之外，PICKSTYLE 还能在不同风格中始终如一地呈现连贯的色彩再现和忠实的几何图形，同时避免了基于图像的方法中常见的时间闪烁和混合伪影。这些结果表明，即使在受限监督下，PICKSTYLE 也能提供高质量的风格迁移，并为未来可控视频风格化的研究奠定坚实的基础。

来源:https://www.51cto.com/article/834375.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：2025中国独角兽与瞪羚企业榜单发布，洞察智能时代数字新生态下一篇：2025年英国汽车销量榜：十大畅销车型与品牌排行，名爵跻身前十

相关攻略

AI资讯

中山大学梁小丹团队CVPR论文实现物理正确视频生成新突破

想象这样一个场景：一勺蜂蜜缓缓倒入热茶，本该拉出细长、连续的丝线，但在许多AI生成的视频里，这根丝线却可能突然断裂，甚至凭空消失。再比如，一块冰在室温下融化，真实的过程是边缘逐渐软化、体积缓慢变化，最终化为一滩水，而模型生成的结果却常常是直接从“冰块”跳转到“水渍”，中间的逻辑演化消失了。这些现象

热心网友

05.20

业界动态

腾讯混元开源DisCa视频生成加速方案提速11.8倍获CVPR2026收录

腾讯混元开源DisCa：少步视频生成模型推理加速方案，最高提速11 8倍 2026年4月，AI视频生成技术迎来重要进展。腾讯混元团队正式开源了面向少步蒸馏视频生成模型的专用加速方案——DisCa。该方案的核心创新在于引入了一套“可学习”的特征缓存机制，有效规避了传统缓存方法在少步模型上误差放大的瓶颈

热心网友

04.22

科技数码

港中大突破：单GPU实现对话驱动多镜头好莱坞级视频生成能力提升

从单镜头到电影叙事：交互式AI视频生成的技术突破这项由香港中文大学多媒体实验室、快手科技以及香港创新科技研究院联合开展的研究，已于2026年3月发表在计算机视觉顶级会议上，论文编号为arXiv:2603 25746v1。对技术细节感兴趣的读者，可以通过该编号查阅完整的学术论文。当前的AI视频生成

热心网友

04.17

科技数码

香港科技大学团队突破实时视频生成关键技术

这项由香港科技大学、京东探索研究院和香港大学联合开展的研究发表于2026年3月，论文编号为arXiv:2603 17051v1。有兴趣深入了解的读者可以通过该编号在学术数据库中查询完整论文。制作一段

热心网友

03.31

科技数码

Sora暂停开放，国产视频大模型的机遇与未来在哪里？

1两年前横空出世的Sora，曾给AI业界和全球网民带来巨大的震撼。到2026年，它突然退场，没能再掀起那样大的波澜。从商业决策的角度看，这其实早就是意料之中的事。极高的视频生成成本、少得可怜的付费用

热心网友

03.28

热门推荐

AI教程

Cursor AI代码编辑器：智能编程工具的功能与使用指南

在追求极致效率的现代软件开发中，一款名为Cursor的AI代码编辑器正引领着开发范式的变革。它被定义为“面向未来的IDE”，其核心理念清晰而有力：将人工智能深度无缝地集成到编码工作流的每一个步骤，为开发者创造一种前所未有的“AI结对编程”体验。 Cursor sh应用场景那么，这款AI驱动的编辑器

热心网友

05.23

AI教程

美图WHEE-WHEE AI视觉创作工具使用指南与功能详解

在众多AI图像生成工具中，WHEE凭借其精准的产品定位与持续的功能迭代，正成为越来越多设计师和内容创作者的首选工具。它专注于打造高品质的AI视觉素材生成器，核心使命就是帮助用户快速、高效地获得可直接使用的优质图片素材。那么，这款AI绘图工具究竟有哪些核心优势？下面我们从其关键特性与功能设计进行深入

热心网友

05.23

AI教程

NightCafe Creator AI艺术生成器：手机创作数字绘画

在AI绘画工具不断涌现的当下，一款名为NightCafe Creator的应用以其全面的AI艺术生成能力脱颖而出。它不仅是一个简单的图片处理工具，更是一个融合了多种前沿人工智能技术的创意平台，帮助用户轻松实现从构思到成品的艺术创作。 NightCafe Creator是什么？ NightCafe C

热心网友

05.23