
扩散模型在单一任务上的强化学习成果显著:文本生成质量提升、构图精度增强、画面美感优化,每项能力都经得起检验。然而,当试图将这些能力整合至同一个模型时,挑战随之而来——不同任务之间相互干扰,训练目标变得不稳定,如同同时指挥多个乐队,各自为战难以协调。
最近,复旦大学与阿里巴巴通义万相的研究团队针对这一难题提出了创新解法。其核心观点明确:多任务强化学习不应被视为一个统一的优化问题来硬性求解,而应拆分为两个独立过程——先让每个任务单独充分探索,再设法将能力整合到一起。
基于该思路,他们提出了 DiffusionOPD,为扩散模型中的在线策略蒸馏(On-Policy Distillation)提供了一个统一视角,并搭建了一套完整的理论与实验框架。
DiffusionOPD 的具体做法是:首先针对每个任务分别训练一个“专家教师”模型,然后通过在线策略蒸馏,将不同教师的专长统一蒸馏至一个学生模型。最终得到的这个学生模型,能够同时胜任构图、OCR、美学等多个任务,不再偏科。

论文标题:DiffusionOPD: A Unified Perspective of On-Policy Distillation in Diffusion Models
论文地址:https://arxiv.org/abs/2605.15055
项目主页:https://quanhaol.github.io/DiffusionOPD-site/
代码链接:https://github.com/ali-vilab/DiffusionOPD
多任务强化学习方法
以往常用的多任务强化学习方法主要有两条路径,具体如下:
第一条:联合多任务优化(Joint Multi-Task Optimization)。即直接使用 DiffusionNFT、GRPO 等现成强化学习算法,将多个任务合并优化。效果方面,存在两个老问题:一是奖励冲突,不同任务的优化方向相互干扰;二是任务失衡,简单任务学习较快,复杂任务则被边缘化。
第二条:级联强化学习(Cascade RL)。按阶段依次训练不同任务,虽缓解了冲突,但训练流程变得异常复杂——每个阶段都需要单独调整超参数和策略,并且容易“学了新任务,忘记老本领”,出现灾难性遗忘。

图 1:(a)与所有多任务强化学习基线方法相比,DiffusionOPD 展现出更快的收敛速度和更高的性能上限。(b)在 GenEval、OCR 与美学等多个任务领域中,DiffusionOPD 均优于所有基线方法。
DiffusionOPD: 单任务探索 + 多任务整合
DiffusionOPD 的解法十分干脆:多任务强化学习不应视为统一优化问题,而应解耦为两个独立过程——单任务的在线策略探索,加上多任务的能力整合。

整个训练过程分为两个阶段:
阶段 1 · 单任务教师独立训练:针对不同任务(如 GenEval、OCR、Aesthetic),分别使用现有的扩散强化学习方法,训练出各自的“专家教师”模型。GenEval 任务采用 DiffusionNFT,OCR 和美学任务采用 GRPO-Guard。每个教师只专注一件事,自然避免了跨任务干扰。
阶段 2 · 在线策略蒸馏到学生模型:从一个预训练扩散模型出发,初始化统一的學生模型,然后通过在线策略蒸馏整合多任务能力。具体而言,学生模型针对不同任务,先用自己的策略生成去噪轨迹;然后,在学生生成的每个去噪状态上,由对应任务的教师模型提供监督信号。这样,学生无需从头探索所有任务,而是直接“借鉴”各教师的策略与本领,高效实现多任务融合。
扩散领域 OPD 的目标函数推导
在大型语言模型中,OPD 的做法很自然:学生模型先按自己的策略生成 token,然后教师模型在学生访问到的每个 token 状态上提供监督。由于语言模型是离散 token 分布,可以直接对每一步的 token distribution 做 KL 蒸馏。
但扩散模型不同:它不是离散 token 序列,而是一个连续状态的去噪过程。
因此,作者先将扩散的去噪过程重新视为连续状态马尔可夫链。在此视角下,每一步去噪 transition 对应一个高斯转移核;学生模型和教师模型各自定义自己的 transition distribution:




接着论文进一步推导发现:由于学生和教师的 transition covariance 相同,整个扩散版 OPD 目标的 reverse KL 可转化为一个完全解析、不含 Monte-Carlo 方差的均值匹配损失:

作者还指出,这一框架同时统一了 stochastic SDE sampler 和 deterministic ODE sampler。在 ODE 情况下,目标会退化为均值之间的 L2 匹配。

与 PPO-style policy gradient 的比较
一个很自然的想法是:把教师当作“过程奖励模型”,将 KL 损失视为每一步去噪的密集奖励,然后计算 advantage,再套用 PPO 损失函数。
DiffusionOPD 论文中严格证明,直接闭式 KL 与 PPO-style policy gradient 在期望意义下梯度完全相等。但 PPO 的梯度中会多出一项 score-function 项,它与高斯噪声成正比,期望值为零但方差不为零。换句话说,PPO 的估计天然比闭式 KL 更“嘈杂”。


更关键的是,PPO 形式离不开 logprob 与 ratio 的计算,因此它在 ODE 确定性采样器下根本无法定义,只支持 SDE sampler。
实验结果
1. 与多任务强化学习方法的对比
定量效果对比:

训练曲线对比:

定性效果对比:

图 2:与多任务强化学习方法以及单任务教师模型的定性对比结果。每个案例分为两行展示:第一行从左到右依次为 DiffusionOPD(本文方法)、Multi-Task GRPO-Guard、Multi-Task NFT 和 Cascade NFT;第二行从左到右依次为输入文本、Aesthetic Teacher、GenEval Teacher 和 OCR Teacher 的生成结果。
2. 蒸馏方法消融
作者还进行了一组有意义的对照实验:固定同一批专家教师,分别使用 DiffusionOPD、DMD、TDM、SFT 蒸馏至同一个学生,在控制变量后对比哪种方法更适合“多任务能力整合”这一场景。
训练曲线对比:

曲线结果清晰表明:在相同的教师与采样设置下,DiffusionOPD 在收敛速度和性能上限上均明显更优。
定性效果对比:

图 3:与不同蒸馏方法的定性对比结果。从左到右依次为:DiffusionOPD(本文方法)、DMD、TDM 和 SFT。
3. 损失形式及采样器类型消融

图 6:关于损失函数形式与采样器噪声水平的消融实验。当噪声水平设为 0 时,SDE sampler 将退化为 ODE sampler。实验结果表明,PPO-style policy gradient 的表现劣于相同 noise level 的 closed-form KL objective;此外,更低的噪声水平能带来更快的收敛速度和更高的性能上限。
```