当SFT与RL结合时如何通过样本学习阶段实现动态策略优化

首页

热心网友

转载

2026-05-15

在大模型推理能力提升的后训练阶段，监督微调（SFT）与强化学习（RL）是两种核心优化范式。前者学习稳定高效，能快速吸收高质量示范数据；后者探索潜力巨大，有望驱动模型实现复杂泛化。然而，一个长期存在的挑战是：这两种信号在实际训练中往往难以有效协同，许多现有方法仅停留在将两种损失函数简单混合的层面。

为从根本上解决这一协同难题，研究团队提出了DYPO（动态策略优化）方法。其核心思考直指问题本质：SFT与RL的学习信号在统计性质上存在天然差异，那么，如何设计优化过程，才能在保留监督学习稳定性的同时，充分释放强化学习的探索潜力？

△ 图1：DYPO动态策略优化的整体框架

如图1所示，DYPO的流程始于一个关键决策：模型会先根据一组轨迹采样（rollout）的结果，动态评估每个样本所处的学习阶段，再智能地为其分配监督学习路径、强化学习路径，或选择暂时跳过。

SFT和RL协同训练的核心难点是什么

若将大模型的后训练比作“教导学生解题”，SFT和RL的特性差异便一目了然。

SFT如同老师直接讲解标准答案。其优势在于学习速度快、过程稳定、收敛可控。但弊端也随之显现：学生容易陷入“套路化”解题，一旦题目稍有变化，就可能暴露出泛化能力的不足。

RL则更像让学生自主反复尝试，再根据得分反馈不断调整策略。其长处在于探索性强，更可能引导模型从“记忆解法”迈向“掌握推理”。然而，其缺点同样突出：训练过程波动大，若奖励信号稀疏，模型极易学偏甚至变得不稳定。

从理论层面看，这对应着经典的偏差-方差权衡矛盾：

SFT：低方差，但高偏差。 其梯度源于静态高质量数据，更新稳定、噪声小，但天然倾向于拟合示范数据的分布，从而压缩了模型的探索空间。
RL：低偏差，但高方差。 它通过奖励驱动试错，更贴近策略优化的本质，但受采样随机性与奖励稀疏性影响，梯度方差高，训练过程易产生剧烈波动。

问题的症结正在于此。许多统一训练方法虽然同时使用了SFT和RL，却默认所有样本都适用同一种处理方式。但实际情况是，不同样本蕴含的学习信号价值差异显著：

简单样本： 模型已完全掌握，多次rollout均能答对，继续训练收益甚微。
困难样本： 模型当前完全不会，多次rollout全部失败，此时直接进行RL优化难以获得有效的正向奖励信号。
中等难度样本： 模型“已会一点但还不稳定”，rollout结果有对有错。这类样本最具优化价值，既表明模型已触及门槛，又保留了区分正误轨迹的宝贵学习空间。

因此，本研究旨在解决的，并非“是否要将SFT和RL结合”，而是更进一步：针对处于不同学习阶段的样本，应如何匹配最优的优化策略，从而在稳定性与探索性之间找到更精细的平衡？

△ 图2：SFT与RL的偏差—方差矛盾示意图

SFT更稳定但偏差更大；RL偏差更低但训练波动更明显。

DYPO如何协同优化偏差与方差

基于上述洞察，DYPO应运而生。其核心思想并非堆砌复杂流程，而是先根据rollout结果判断样本的学习阶段，再为其动态匹配最适宜的优化路径。

具体而言，DYPO会让当前策略为每个问题生成一组rollout，并依据这些轨迹的成败情况，将样本智能划分为三类：

简单样本： 一组rollout全部成功。表明模型已掌握此类问题，直接跳过以减少无效计算。
困难样本： 一组rollout全部失败。说明模型缺乏必要知识基础，直接进行RL难以获得稳定信号。对此，DYPO采用多教师知识蒸馏，引入多个教师模型，让学生学习多种合理推理轨迹中的共通模式，以此减少单一教师带来的特定偏差，为模型建立可靠先验。
中等样本： 一组rollout有成功也有失败，这正是最具价值的“学习前沿”。这类样本适合进行RL优化。但为缓解标准RL的高方差问题，团队在GRPO基础上引入了组对齐损失（GAL）。

GAL的核心思路，是利用同一组rollout中成功与失败轨迹的差异，显式地将模型拉向正确轨迹、推离错误轨迹。这使得RL更新不再仅依赖高噪声的奖励信号，而是额外获得了一层更稳定的相对对齐约束。换言之，GAL的作用并非简单“叠加一个损失函数”，而是在RL更新过程中充当一个动态的方差抑制器。

从理论上总结DYPO的设计逻辑，它实质上是针对SFT和RL各自的核心缺陷精准施策：

多教师蒸馏针对困难样本，缓解SFT的高偏差问题。 多个教师的组合可以抵消个体偏差，使得整体监督偏差随教师数量增加而下降。
GAL针对中等样本，解决RL的高方差问题。 其混合目标的梯度方差严格小于纯GRPO，并且随着模型区分轨迹能力的提升，GAL本身的方差还会进一步自然衰减。

由此可见，DYPO并非简单地将SFT和RL拼凑在一起，而是在结构上将“高偏差的监督学习”和“高方差的强化学习”分别安置在最合适的样本类型上进行处理。正因如此，它更像是一种重新组织后训练过程的方法论框架，而不仅仅是一个孤立的训练技巧。

△ 图3：组对齐损失（GAL）的直观机制

如图3所示，它利用同一组rollout中已出现的正负样本，将模型向正确轨迹拉近，同时将错误轨迹推开。

DYPO实验效果与性能分析

研究团队在数学与逻辑推理场景下进行了全面实验，基础模型涵盖Qwen2.5-Math-7B和Qwen3-4B-Base，评测任务包括AIME 2024/2025、AMC、MATH-500、Minerva，以及更侧重分布外泛化能力的ARC-c和GPQA-Diamond。

对于此类工作，最终分数固然重要，但若只看结果，容易将DYPO误解为“又一个效果更好的训练技巧”。真正值得关注的是，它究竟在哪些维度上取得了实质性优势。

在Qwen2.5-Math-7B上，与传统的SFT→RL顺序流水线相比，DYPO的表现如下：

在五个复杂推理基准测试上的平均得分从47.7提升至52.5，显著提升4.8个百分点。
在分布外泛化任务上，平均得分从48.3大幅跃升至61.6，提升幅度高达13.3个百分点。

这一提升并非依赖单一任务冲高，而是整体表现更加稳健均衡。尤其在GPQA-Diamond这类更看重迁移与推理能力的任务上，DYPO取得了最佳结果，表明其学到的并非仅仅是更贴近训练数据分布的模板，而是更强的泛化能力。

△ 图4：Qwen2.5-Math-7B上的整体结果对比

如图所示，DYPO在复杂推理和分布外任务上均表现出较强的综合优势。

在Qwen3-4B-Base上，类似的优势趋势依然显著。DYPO：

在分布内任务上的平均得分达到66.9，明显高于SFT→RL的56.1。
在分布外任务上，平均得分达到68.5，也高于后者的52.6。

这说明其性能收益并非依赖于某个特定骨干模型，而更可能源于这套动态分流与优化机制本身。

此外，消融实验进一步验证了方法的有效性。很多时候，方法表现更强可能源于使用了更强的教师模型或更优质的数据。但在此工作中，即便将第二个教师模型替换为能力更弱的Qwen3-8B，DYPO依然能将AIME 25的得分从22.0提升到27.8，将GPQA-Diamond的得分从30.8提升到39.4。这意味着，其提升并非仅仅来自“输入了更多强教师数据”，而是其后的动态路由与低方差优化机制确实发挥了关键作用。

除了最终性能，研究还深入分析了DYPO的训练稳定性。作者追踪了训练过程中离线数据占比、奖励值和策略熵的变化。一个有趣的现象是，DYPO并非一开始就将模型推向强探索，而是随着模型能力提升，逐步降低对监督信号的依赖，让训练自然地实现从“依靠教师引导”到“依赖策略自主探索”的平滑过渡。这个过程类似于一种自适应的课程学习：先稳固基础，再逐步释放探索空间。