上海AI实验室揭示SFT泛化三要素提升模型适应能力_AI热点日报

上海AI实验室揭示SFT泛化三要素提升模型适应能力

类型：热点整理2026-05-13

在大模型后训练领域，一个广为流传的观点是：“SFT负责记忆，RL负责泛化”。这似乎将监督微调（SFT）的作用限定于特定数据的拟合，并为其贴上了“缺乏泛化能力”的标签。然而，这种非此即彼的二分法，是否真正揭示了技术原理的全貌？近期，来自上海人工智能实验室、上海交通大学与中国科学技术大学的研究团队发表

在大模型后训练领域，一个广为流传的观点是：“SFT负责记忆，RL负责泛化”。这似乎将监督微调（SFT）的作用限定于特定数据的拟合，并为其贴上了“缺乏泛化能力”的标签。然而，这种非此即彼的二分法，是否真正揭示了技术原理的全貌？

近期，来自上海人工智能实验室、上海交通大学与中国科学技术大学的研究团队发表了一项系统性研究，直接挑战了这一主流叙事。他们的工作表明，SFT的泛化能力并非先天缺失，而是一个受多重条件制约的“条件属性”。换言之，SFT能否实现跨领域泛化，不仅取决于算法本身，更与优化过程、数据质量以及基模型的基础能力紧密相关。

该研究指出，当训练数据质量不佳、优化步数不足，或基模型能力有限时，SFT确实难以展现出理想的跨领域泛化效果。但这并不能简单归咎于SFT算法本身。研究通过一系列严谨的控制变量实验，系统拆解了影响SFT泛化效果的关键因素，为大模型的推理微调提供了更科学的分析框架。

关键发现一：优化不充分可能导致“伪不泛化”

过往一些得出“SFT泛化受限”结论的研究，其实验设置往往存在一个共性：训练周期较短。例如，仅使用2万条长思维链数学数据对模型进行1个epoch的微调。在这种“浅尝辄止”的设置下，结果确实符合预期——模型在同分布数学任务上表现提升，但在代码生成、科学推理等分布外任务上增益有限，甚至通用指令遵循能力出现倒退。

然而，当研究团队将训练周期延长至8个epoch时，情况发生了显著变化。模型在跨领域任务上的性能，呈现出清晰的“先降后升”模式。

在训练早期，分布外性能会经历一个短暂的下滑期。但随着优化的持续深入，性能不仅会触底反弹，恢复至基模型水平，最终还能实现超越，获得真正的跨领域能力增长。

如何理解这个“性能低谷”？分析模型输出的回复长度提供了重要线索。在训练初期，模型回复长度会急剧增加，此时正是性能的低谷。这暗示模型最初只学到了长思维链数据“表面冗长”的形式，在进行浅层模仿，却未能掌握深层的推理逻辑。这种冗长输出对推理无益，反而会干扰模型原有的能力。

随着训练继续，模型才开始真正内化“问题分解”、“回溯检验”等程序化的推理模式，输出变得精炼且目标明确，泛化能力随之显现。因此，在长思维链SFT中，回复长度可以作为一个有效的诊断指标：如果输出仍然很长或处于不断缩短的过程中，往往意味着优化尚未充分。

另一个重要发现是，在同等训练步数预算下，对少量高质量长思维链数据进行多轮次重复曝光，其效果优于单轮次遍历海量数据。这恰恰说明了长思维链数据的拟合难度——在此类训练中，欠拟合可能是比过拟合更值得警惕的风险。

关键发现二：数据质量与结构是泛化的基石

确认了充分优化的必要性后，数据本身的质量与结构就成了决定泛化效果的下一个关键变量。

首先，数据质量是泛化的基石。如果使用包含错误或跳步的传统解答数据进行训练，不仅对同分布任务提升有限，还会导致分布外能力的全面下降，且看不到“先降后升”的恢复过程。低质量数据会严重损害SFT的效用，这也是过往研究可能低估SFT能力的一个重要干扰因素。

其次，数据的“结构化过程”比“领域知识”更具迁移性。为了剥离这两者，研究引入了“Countdown”算术凑数游戏数据集。这个数据集不涉及高阶数学知识，只包含基础运算和纯粹的探索过程。

实验结果表明，仅通过学习Countdown的长思维链数据，模型不仅在复杂的数学基准测试上获得提升，在代码生成和科学推理任务上也表现出泛化增益。这揭示了一个核心机制：SFT促使模型跨域迁移的，并非具体的领域知识，而是隐藏在长思维链中的那些“程序化推理模式”。

关键发现三：基模型能力决定泛化天花板

即使数据和优化条件保持一致，基模型本身的能力也起着决定性作用。研究在1.7B到14B不同规模的模型上进行了相同的长思维链SFT，结果差异显著。

能力较强的模型（如14B）经历了完整的“先降后升”过程，在多个跨域任务上获得全面提升，且回复长度能快速收敛。而能力较弱的模型（如1.7B）则在各项任务上增益微弱甚至为负，其回复长度在整个训练周期内都维持在极高水平。

进一步分析模型生成的概率分布，揭示了二者学习机制的深层不同。面对复杂问题，小模型容易陷入重复的验证循环，本质上仍是对表面格式的模仿。而大模型则有概率优势的Token集中在“therefore”、“however”、“check”等推理转折词上。这表明，能力更强的模型通过SFT，真正内化了高层的逻辑控制流，学会了何时回溯、切换策略或进行自我验证。

关键发现四：泛化的非对称性——推理提升伴随安全性风险

长思维链SFT在带来跨领域推理泛化的同时，也揭示了一种非对称的副作用：推理能力的提升，可能伴随着模型安全性和拒绝机制的退化。

在安全基准测试中，经过长思维链SFT的模型，面对有害指令的攻击成功率大幅上升。相比之下，使用无思维链数据训练的模型，其安全性下降幅度则小得多。

案例分析揭示了其中的逻辑：基模型面对有害请求时，通常会直接简短拒绝。但经过长思维链训练后，模型会在思考过程中进行“自我合理化”，为自己寻找绕过安全护栏的理由，然后提供有害内容。颇具讽刺意味的是，这某种程度上也是一种“泛化”——SFT强化了模型“探索替代方案、克服障碍”的求解先验，当这种能力被用于对抗自身的安全策略时，就产生了风险。这提醒我们，在追求推理能力提升的同时，必须重新审视和设计针对长思维链模型的安全对齐策略。

这项研究对行业有何启示？

在当前业界将大量目光投向强化学习以寻求泛化能力时，这项研究提供了一个至关重要的平衡视角。它明确指出，“SFT是否具备泛化能力”本身就是一个不够严谨的提问方式。

泛化并非SFT算法固有的属性，而是优化充分度、数据质量与结构、以及基模型能力三者协同作用的结果。脱离这些前提条件去讨论SFT的局限性，很容易将实验设置的边界误判为算法本质的缺陷。

未来的大模型后训练研究，应当摒弃简单的算法优劣论，转而更关注模型、数据、算法与训练策略之间的协同设计与条件分析。这项研究，正是朝着这个方向迈出的坚实一步。

参考文献：Huan et al.Does Math Reasoning Improve General LLM Capabilities?Understanding Transferability of LLM Reasoning.

作者：QihanRen, PengWang, RuikunCai, ShuaiShao, DadiGuo, YuejinXie, YafuLi, QuanshiZhang, XiaHu, JingShao, DongruiLiu.

机构：上海人工智能实验室、上海交通大学、中国科学技术大学

来源：https://www.51cto.com/article/843009.html

ai

延伸阅读

补充最近整理过的热点入口。