游乐游手机版
首页/AI教程/文章详情

一行代码让SFT模型泛化能力飙升的实用技巧

时间:2026-06-23 14:55
动态微调(DFT)通过矫正监督微调(SFT)梯度中的病态权重,稳定优化过程,使模型平等学习所有专家知识。在数学推理任务中,DFT性能提升远超标准SFT,收敛更快,甚至超越DPO、PPO等强化学习算法。

一行代码,让你的SFT模型泛化能力飙升,效果直逼PPO

最近,在使用 llama-factory 进行模型微调时,除了常规的监督微调(SFT),许多同行也投入了大量时间尝试DPO、PPO等强化学习算法。

大家普遍的感受是:RLHF(尤其是PPO)调优后的模型,在指令遵循能力和泛化性能上,确实比单纯的SFT高出不少。但它的训练成本和不稳定性也出了名的“劝退”——每次看着那波动的奖励曲线和漫长的训练周期,一个自然的问题就浮现出来:难道就没有一种方法,能让我们用SFT的成本,达到接近强化学习的泛化效果吗?

直到一篇来自东南大学、UCLA、伯克利等机构的最新研究给出了答案——《ON THE GENERALIZATION OF SFT: A REINFORCEMENT LEARNING PERSPECTIVE WITH REWARD RECTIFICATION》。他们提出了一种名为动态微调(Dynamic Fine-Tuning, DFT)的方法,声称仅需一行代码的改动,就能显著提升SFT的泛化能力。

\


SFT的“病根”:一个隐藏在梯度中的“魔鬼”

要理解DFT为何如此有效,得先换个视角——用强化学习(RL)的“X光”去透视SFT,看看它的本质到底是什么。

我们都知道SFT的目标是让模型模仿专家数据,最小化交叉熵损失。它的梯度更新公式看起来平淡无奇:

∇L_SFT(θ) = E(x,y*)~D [ -∇log π_θ(y*"x) ]

但论文作者做了一个非常精妙的数学推导,通过重要性采样,把这个公式“翻译”成了RL策略梯度的语言:

∇L_SFT(θ) = -E(x,y*)~D [ (1/π_θ(y|x)) * ∇log π_θ(y|x) * r(x,y) ]

这个“翻译”后的版本信息量巨大:

  • SFT可以看作一种RL,它的奖励 r(x,y) 极其苛刻:只有当模型输出与专家答案完全一致时,奖励为1,否则为0。
  • 梯度中隐藏了一个“魔鬼细节”:权重项 1/π_θ(y|x)。该权重与模型对专家行为的预测概率 π_θ 成反比。

这意味着什么?当模型遇到一个它认为“可能性很低”(low probability)的专家样本时,1/π_θ 会变成一个巨大的数值,导致梯度瞬间爆炸。

这好比一个学生在做题,SFT这个“老师”会不成比例地、极其严厉地惩罚那些学生认为最难、最不可能做对的题目。这种“高压政策”使得模型在优化时剧烈震荡,被迫去过度拟合那些罕见的、甚至可能是噪声的样本,而忽略了学习普遍规律。

这就是SFT泛化能力受限的“病根”:其梯度中隐藏了一个与模型置信度成反比的、病态的奖励结构。


DFT的“解药”:以子之矛,攻子之盾

找到了病根,开药方就简单了。既然问题出在那个捣乱的 1/π_θ 权重上,那直接把它去掉不就行了?

DFT的核心思想就是这么直接。它在计算SFT损失时,动态地给每个样本的损失 log π_θ 前面,乘上一个“矫正因子” π_θ(技术上通过 stop_gradient 来阻止对这个因子求导)。

最终,DFT的损失函数变成了这样:

L_DFT(θ) = E(x,y*)~D [ -Σ sg(π_θ(y_t|...)) * log π_θ(y_t|...) ]

这个改动堪称神来之笔,起到了“以子之矛,攻子之盾”的效果:

  • π_θ 完美抵消了梯度中那个病态的 1/π_θ 权重。
  • 修正后的隐式奖励,在所有专家数据上都变成了稳定且均匀的1。
  • 优化过程变得极其稳定,模型不再“偏科”,而是平等地从所有专家知识中学习。

这使得模型能够摆脱对罕见样本的过度拟合,转而学习更具鲁棒性和泛化能力的通用策略。而实现这一切,真的只需要一行代码的修改。


效果有多炸裂?直接看数据

理论说得再好,不如实验数据来得有力。论文在一系列高难度的数学推理任务上,把DFT和各种方法进行了全面对比。

1. SFT被“吊打”

从表1可以清楚看到,在Qwen、LLaMA等多个模型上,DFT带来的性能提升是标准SFT的好几倍。例如在Qwen2.5-Math-1.5B上,DFT的平均分提升是SFT的5.9倍。更关键的是,在Olympiad Bench这类奥数级难题上,标准SFT因过拟合甚至出现了性能倒退,而DFT依然能稳定地大幅提升模型表现。

\

表1:在五个数学基准上,DFT(加粗行)相比标准SFT和基础模型,在所有模型上都取得了显著的平均性能提升。

2. 收敛又快又好

从图1的学习曲线来看,DFT(蓝线)不仅最终性能天花板更高,而且起步就领先。往往在训练刚开始的几十步内,它的性能就已经超过了SFT跑完整个训练周期的最终结果。这说明DFT的梯度更新效率极高,每一步都学在了“刀刃上”。

\

图1:在Qwen2.5-MATH-1.5B模型上,DFT(蓝色曲线)在所有基准测试中都比SFT(橙色曲线)表现出更快的收敛速度和更优的性能。

3. 硬刚RL算法也不虚

最令人惊喜的是,当把DFT应用于有奖励信号的离线RL场景时,它的表现甚至超越了DPO、PPO这些复杂的RL算法。

如表3所示,DFT的平均分(35.43)不仅远超DPO(23.20),甚至比强大的在线RL算法GRPO(32.00)还要高。这简直是在说,一个“魔改”后的SFT,在某些场景下比正经的RL还好用。

\

在离线RL设定下,DFT的表现超越了包括DPO、RFT在内的离线方法,甚至优于PPO、GRPO等在线RL方法。


为什么DFT能让模型更“聪明”?

DFT到底对模型做了什么,让它变得如此“通人性”?作者通过分析训练后模型的Token概率分布,给出了一个直观的解释。

图2:不同方法训练后,模型在训练集上的Token预测概率分布。

\

如图2所示,SFT(橙色)试图把所有词的概率都往右边(高概率区)推,试图做到“雨露均沾”。而DFT(深蓝色)和其他RL方法则表现出一种“抓大放小”的智慧:它们会把模型的信心集中在少数关键Token上(概率推向1.0),同时主动放弃对另一些Token的拟合(概率压向0)。

被放弃的是哪些词呢?作者发现,主要是"the', 'let', ',', '.'这类语法功能词或标点。

这背后是一个非常深刻的道理:一个真正聪明的模型,不应该试图完美记住每一个字,而应该学会区分“核心语义”和“语法结构”。

DFT正是通过其独特的重加权机制,教会了模型如何将宝贵的注意力资源聚焦在那些真正重要的内容上,这和我们人类学习时抓重点、忽略次要信息的思维模式高度一致。

这篇论文的工作,对于奋战在微调一线的人来说,价值巨大。它不仅提供了一个即插即用、效果拔群的工具,更重要的是,提供了一种全新的视角来理解SFT和RL的关系,让我们在“炼丹”的道路上,多了一份理论的支撑和优雅的选择。下次再有人抱怨SFT泛化不行时,可以把DFT甩给他试试。

来源:https://cloud.tencent.com.cn/developer/article/2695119
上一篇创新源于对普遍错误的深度追问 下一篇多模态理解模型幻觉问题的有效解决方案
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
Windows Docker Desktop RabbitMQ生产级部署完整指南
AI教程 · 2026-06-29

Windows Docker Desktop RabbitMQ生产级部署完整指南

前言 在 Windows 本地开发环境中,直接安装 RabbitMQ 确实颇为周折:需要单独配置 Erlang 运行环境、手动管理环境变量、服务启停全凭手工操作。更令人困扰的是,版本兼容冲突、端口占用、环境不一致等问题层出不穷。笔者见过不少开发者为搭建环境就得耗费整整半天时间。 相比之下,借助 Do

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践
AI教程 · 2026-06-29

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践

先分享一个切实感受。过去两年,我们与福建制造企业合作较为频繁,发现一个非常突出的现象:超过80%的企业官网,产品参数仍然存放在PDF或图片中。AI爬虫?根本无法抓取。这些企业技术实力不弱、资质证照齐全、应用案例也丰富,但在AI搜索这一全新战场上,它们几乎处于隐身状态。 一、一个正在发生的行业变化 A

阿里云Token Plan团队版功能价格与省钱购买指南
AI教程 · 2026-06-29

阿里云Token Plan团队版功能价格与省钱购买指南

阿里云百炼近期推出了名为“Token Plan 团队版”的全新服务,这一服务专为企业与开发者量身打造,定位为AI大模型订阅平台。通过引入Credits作为统一计量单位,将文本生成、图像生成等多模态AI能力纳入单一计费体系,同时无缝兼容主流AI编程工具及智能体(Agent)生态系统。其核心亮点包括:全

阿里云物联网.NET Core客户端位置信息上报
AI教程 · 2026-06-29

阿里云物联网.NET Core客户端位置信息上报

阿里云物联网平台的位置服务并非一个完全独立的功能模块。位置信息可包含二维坐标与三维坐标,而位置数据的来源本质上是借助设备属性进行上传。换言之,若要让设备上报位置,您需先将其视为一个普通属性进行处理。 1)添加二维位置数据 操作过程十分简洁。进入数据分析 → 空间数据可视化 → 二维数据,点击添加,将

年阿里云服务器选型配置与网站部署全攻略
AI教程 · 2026-06-29

年阿里云服务器选型配置与网站部署全攻略

2026年,阿里云服务器生态已高度成熟,形成了清晰的轻量应用服务器与ECS云服务器两大产品阵营。无论你是计划搭建个人博客、企业官网,还是运营电商平台、进行应用开发,基本都能找到理想的解决方案。本指南将从服务器选型、配置选择、部署流程到安全运维,系统梳理2026年最实用的操作要点,帮助你少走弯路,让网