PickStyle视频风格适配器：用上下文迁移完成视频风格转换

首页

热心网友

转载

2026-02-10

研究提出PickStyle框架，借助风格适配器增强预测练扩散主干网络，依赖成对的静态图像数据训练生成模型，并通过构建合成训练视频片段来弥补图像数据与动态视频之间的差距，同时引入上下文-风格无分类器引导机制，以确保风格迁移效果与视频内容信息的有效保留。实验结果表明，该方法能够生成高质量的视频风格转换结果，在多项指标上超越了现有主流技术。

利用扩散模型进行视频风格迁移，其核心目标是在保留输入视频原始运动与内容的同时，将其转换为文本提示所指定的艺术风格。这一任务面临的主要挑战在于缺乏大量成对的、带有风格标注的视频监督数据。为此，论文提出的PickStyle框架，通过风格适配器模块增强视频扩散网络，利用易于获取的成对图像数据进行初始训练，同时通过构建合成视频片段来弥合图像监督与视频生成的差异，并引入上下文-风格无分类器引导技术，共同保障了风格转换的忠实度与内容一致性。综合评估显示，该方法能实现连贯、保真且内容保留完好的视频转换，性能优于现有方案。

论文介绍

运用扩散模型解决视频风格迁移任务，其核心目标是在保留输入视频动态内容与上下文的同时，将其渲染成文本提示所指定的目标视觉风格。这一任务的一个主要瓶颈是缺乏用于监督学习的大规模成对视频数据。

论文提出的PickStyle是一个端到端的视频风格迁移框架，它通过风格适配器模块来增强预测练的视频扩散主干网络，并利用带有源-风格对应关系的成对静态图像数据进行训练。PickStyle将轻量级的适配器嵌入到条件模块的自注意力层中，从而实现运动-风格映射的高效适配，同时维持视频内容和风格之间的高度一致性。

为了弥合静态图像监督与动态视频生成之间的差异，通过应用模拟摄像机运动的共享数据增强技术，从成对图像构建合成训练视频片段，以确保模型学习到时间上的先验。此外，我们引入了上下文-风格无分类器引导，这是一种新颖的方法，它将无分类器引导分解为独立的文本风格和视觉上下文两个引导方向。CS-CFG 确保生成的视频在有效迁移风格的同时，能牢固保持原始的上下文信息。跨基准测试的实验表明，该方法实现了时间连贯、风格忠实且内容保留完好的视频转换，在质量与数量指标上均超越了现有基准方法。

方法概述

图示展示了 PickStyle 的训练与推理流程。在训练过程中（左图），风格图像和上下文图像均通过运动增强技术，转换为具有合成摄像机运动模式的视频序列标记和上下文标记；基于 DiT 架构的 PickStyle 模型结合上下文风格适配器，根据上下文标记对视频序列标记进行加噪与去噪学习。在推理过程中（右图），对输入上下文视频和风格文本描述进行编码，并在文本、上下文和空值条件的共同引导下进行迭代去噪，其中提出的 CS-CFG 机制在空值上下文条件下应用时空置换操作，以生成最终的风格化视频。

实验结果

乐高和动漫风格下，PICKSTYLE 与 Control-a-Video、Rerender、FRESCO 以及 FLATTEN 等方法的定性效果比较。

结论

PICKSTYLE 是一个基于视频扩散模型构建的视频风格迁移框架，它配备了上下文风格适配器和新颖的 CS-CFG 引导机制。尽管训练数据相对有限，PICKSTYLE 仍能在渲染多样化目标风格的同时，有效地保留原始视频的运动与上下文信息。通过利用合成运动增强训练对和噪声初始化策略，它实现了超越现有方法的风格保真度、时间稳定性与感知质量。除了量化改进之外，PICKSTYLE 还能在不同风格中始终如一地呈现连贯的色彩再现和忠实的几何图形，同时避免了基于图像的方法中常见的时间闪烁和混合伪影。这些结果表明，即使在有限监督下，PICKSTYLE 也能提供高质量的风格迁移，为未来可控视频风格化的研究奠定了坚实的基础。

来源:https://www.51cto.com/article/836223.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：港中大与字节提出DreamOmni3：多模态生成编辑听懂“涂鸦+图文”输入下一篇：马斯克质疑中国光伏产能，行业风向如何研判？

热门推荐

阿里钉钉文档全功能解析在线协同办公套件使用指南

钉钉文档官网在探讨企业级协同办公解决方案时，钉钉文档无疑是备受瞩目的核心工具之一。作为阿里巴巴钉钉官方推出的旗舰级应用套件，它深度融合了在线文档编辑、智能表格、思维导图等多种高效创作工具。其核心优势在于与钉钉平台生态的无缝衔接，能够直接同步企业内部组织架构与通讯录，实现团队成员间的即时协作与信息流

热心网友

05.15

商汤小浣熊智能助手基于自研大语言模型

在数字化转型浪潮中，高效、易用的数据分析工具已成为企业提升决策效率的关键。商汤科技推出的“办公小浣熊”智能助手，正是基于自研大语言模型打造的一款创新产品，旨在彻底降低数据分析的技术门槛。用户无需掌握编程知识或复杂操作，即可通过自然对话完成从数据查询、处理到可视化洞察的全流程，让数据价值触手可及。办

热心网友

05.15

MiniMax新一代智能模型矩阵全面解析与应用指南

在人工智能技术快速发展的今天，MiniMax作为一家专注于全栈自研的AI公司，正以其独特的技术路径和前瞻性的布局，在业界脱颖而出。公司致力于构建覆盖文本、图像、语音和视频的新一代多模态智能模型矩阵，这不仅体现了对核心底层技术自主权的深度掌控，也展现了对未来人机交互与内容生成形态的前瞻思考。那么，M

热心网友

05.15

web3.0

Apollo Credit Fund价格预测逻辑解析 ACRED未来走势与投资前景

ApolloCreditFund（ACRED）作为连接传统信贷与DeFi的桥梁，其价格受市场情绪、协议基本面及宏观环境影响。其价值逻辑根植于现实世界资产（RWA）的收益捕获与链上流动性释放。短期价格波动难以预测，但长期发展取决于信贷资产质量、协议安全性和市场采用度。投资者需关注其底层资产表现、代币经济模型及整个RWA赛道的发展趋势。

热心网友

05.15

智能客服机器人解决方案：AI客服系统提升企业服务效率

在数字化转型浪潮中，一套能够深度适配业务、彰显品牌特色的智能客服系统，已成为企业提升服务效率与用户体验的关键工具。然而，市场上许多解决方案往往模式固化，难以满足个性化需求。如何让AI客服不仅具备基础的自动化应答能力，更能承载独特的品牌文化与服务哲学？其核心在于系统是否支持深度的自定义与持续的AI训练

热心网友

05.15