Layer 6 AI：如何防止大模型训练偏离目标

时间：2026-06-20 14:19

该研究揭示了强化学习训练中大语言模型崩溃的根源，发现正优势与谷值词、负优势与峰值词的更新会引发高熵或低熵崩溃。基于此提出赢家优势策略优化（WAPO），仅对优于平均水平的答案进行更新，在数学和多步推理任务中显著提升稳定性，尤其避免模型输出乱码或陷入重复循环。

这项研究源自加拿大Layer 6 AI研究团队的一篇预印本，论文编号为arXiv:2606.16154。感兴趣的读者可以凭此编号检索并查阅完整的原文内容。

一、模型训练的"崩溃"困局

试想一下，一位平时成绩不错的学生，某天在考卷上突然答非所问——要么写出大段无意义的重复数字，要么用中、英、日、阿拉伯文混杂出一堆乱码。这种看似荒诞的场景，如今在大语言模型的训练过程中正频繁发生。

研究团队记录下了两种典型的"崩溃"模式：高熵崩溃，此时模型的输出就像大脑混乱一样，内容混杂着多种语言、代码片段和杂乱字符；低熵崩溃，模型则走向另一个极端，输出变得极度单调，比如无限重复一长串零或某个固定模板，如同紧张得说不出话来。

这两种崩溃现象的背后，根源都是同一个因素：强化学习训练过程的不稳定性。这项研究的核心目标非常明确——深入挖掘这种不稳定性的根本原因，并提出一个既简单又有效的解决方案。

二、强化学习训练究竟是怎么回事

要透彻理解这项研究，首先得弄清楚大语言模型训练中强化学习的具体运作机制。

大众熟悉的预训练，是让模型在"阅读海量文字后预测下一个词"。但为了让模型真正具备"解题"能力——例如解数学题、处理多步骤问题——研究人员开发了带有可验证奖励的强化学习（RLVR）。

可以这样理解：给模型出一道数学题，它能够生成多种解法，答对了给予奖励，答错了则扣分。通过反复试错，模型会逐渐朝着"更可能答对"的方向优化。这听起来很合理，但在实际执行中却存在不少挑战。

目前最主流的训练方法是GRPO（群组相对策略优化）。其核心逻辑是：针对同一道题，先让"旧版本模型"生成一批答案，然后根据答案的优劣为每个答案计算一个相对分数（称为"优势值"），再基于这些分数来更新"新版本模型"。关键问题在于，新旧模型之间存在差异，使用旧模型生成的样本来训练新模型，就好比用三年前的菜谱来指导今天的厨师。

为了控制这种"偏离"，研究人员引入了重要性比率截断机制：如果新旧模型在某个词上的概率差距过大，就将这个词的训练信号截断。从直觉上看这很稳健——差距越大的地方越不可信，截断它们似乎是个好策略。

然而，Layer 6 AI的研究团队进行了一项实验，直接颠覆了这一直觉。他们发现，截断阈值设置得越严格——也就是截断更多"差距大"的词——模型训练崩溃得就越彻底、越频繁。截断得越狠，问题反而越严重。这充分说明，"与旧模型差距大"本身并非崩溃的根本原因，问题一定另有隐情。

三、一把手术刀：解剖每一个词的梯度效果

研究团队转换了视角：不再追问"这个词离旧模型有多远"，而是思考"更新这个词，会把模型在当前位置的概率分布变成什么样"。

要理解这个思路，首先需要明白语言模型如何"选词"。在每个生成步骤中，模型会为词汇表中的每个词打分，然后通过softmax函数将这些分数转化为概率。例如，在"我今天吃了___"这个位置，"饭"可能被赋予30%的概率，"苹果"可能是20%，而"汽车"可能只有0.001%。

在训练时，模型生成了某个词，并根据正确答案获得奖励信号，随后对模型参数进行微调。这种调整将如何影响下一次遇到同样位置时各个词的概率？

研究团队推导出了一个数学公式（论文中的方程1），揭示了一个出人意料的规律：对于所有未被采样到的词，其概率变化取决于三个因素：该未采样词本身的概率、采样到当前词的概率，以及一个称为C(p)的参考值。C(p)等于所有词概率的平方和，它像一个"标尺"，用于衡量当前概率分布的集中或分散程度。

更直观地说，每个词都有一个"地位"：若其概率高于C(p)这个阈值，则被称为峰值词（Peak）；若低于阈值，则为谷值词（Valley）。同时，采样词的奖励信号有正负之分——如果答案优于平均水平，则优势值为正；反之则为负。

这样一来，每一次对某个词的训练，都可以被归入四个类别之一：正优势+峰值词（Pos-peak）、正优势+谷值词（Pos-valley）、负优势+峰值词（Neg-peak）、负优势+谷值词（Neg-valley）。

这四个类别对模型的影响截然不同。研究团队通过理论推导和实验验证发现，Pos-valley和Neg-peak这两类更新会使模型的概率分布变得更混乱、更随机，是推动高熵崩溃的主要力量。Pos-peak更新则能使分布更集中、更确定，是稳定的。而Neg-valley更新虽然短期内能降低混乱度，但在模型整体已经处于较高熵水平时，反而会把概率分布过度压缩，从而引发低熵崩溃。

这一发现非常关键：决定训练是否崩溃的核心因素，并非某个词"离旧模型有多远"，而是"这个词在当前模型中属于峰值还是谷值，以及它所携带的是正还是负的奖励信号"。

四、实验验证：把四种训练方式分开测试

为了验证理论，研究团队进行了一组极为干净的实验：使用SmolLM3-3B模型在NuminaMath-LEAN数学数据集上进行训练，每次只激活四个类别中的一个，然后观察训练走向。

实验结果完全符合理论预测。仅进行Pos-peak训练时，模型非常稳定，熵值持续下降，但成绩在达到一个高点后便不再提升——模型只是在不断强化它已经擅长的事情，没有探索新的路径。仅进行Pos-valley或Neg-peak训练时，模型的熵值迅速飙升，随后生成的内容崩溃为乱码。仅进行Neg-valley训练时，模型在早期有所进步，但后期陷入过度自信，生成内容变得单调重复，出现了低熵崩溃。

当将这四个类别按照"正/负优势"或"峰值/谷值"进行两两组合作测试时，结论变得更加清晰：正优势（Pos）方向的训练——也就是只强化那些优于平均水平的答案——在稳定性和最终表现上最为均衡，与主流基线方法DAPO的表现相当。换言之，从安全性和有效性来看，"只强化赢家"是一个简单而有力的策略。

五、WAPO的提出：只从赢家身上学

基于上述发现，研究团队提出了一种名为赢家优势策略优化（Winner Advantage Policy Optimization，WAPO）的方法。

其核心思想极为简洁：在一批答案中，只对优势值为正（即优于平均水平）的答案进行策略梯度更新，而那些更差的答案则被直接忽略，不产生任何训练信号。如果一道题的所有回答都是错误的（即没有"赢家"），那么这道题对本轮训练就没有任何贡献。

打个比方：老师批改作业时，只从做对的题目中总结经验，错误题目则不予处理。这与常规的"分析错题"方法截然不同，但在该场景下却更为有效。

WAPO并非简单粗暴地"扔掉失败案例"。它保留了GRPO家族方法的核心机制：重要性比率（用于修正新旧模型差距）、截断（避免单次更新步子迈得太大）、以及以组为单位的优势归一化（让每道题内的答案相互比较）。唯一的改变，就是将所有负优势项的贡献置零。

研究团队还从理论上证明了WAPO的梯度方向是正确的。在简化的"二元奖励"场景（答对得1分，答错得0分）下，WAPO的梯度更新方向与"直接最大化答对概率"的梯度方向一致，只是多了一个自适应权重因子1-qx（其中qx为当前模型在该题上的答对率）。这个权重因子的特性非常理想：当一道题的答对率已经很高时，权重会自动缩小，模型就不会在已经掌握的题目上浪费时间；当题目难度较大时，权重会相应增大，模型就会把更多注意力集中在这道难题上。这是一种天然的"难题优先"机制。

与此同时，研究团队还比较了另外两个只使用正样本的方法。PSR不使用截断和相对优势归一化，学习效率较低，成绩很快就会遇到瓶颈。RAFT++则按答案长度进行归一化，结果导致模型学会了"写短答案"的策略，后期专门产出极短的模板化回答，例如"思考了一下，答案是3。答案：3"——这显然是一种偷懒式的崩溃，虽然形式尚未乱套，但学习质量极差。WAPO通过保留相对优势归一化和截断，有效规避了这两个问题。

六、大规模实验：跨任务、跨模型的全面验证

研究团队在四个数据集和三个模型家族上进行了系统性的实验，涵盖了数学推理和多步问答两大类任务。

在数学推理方面，选用了Math-500（500道标准数学题）和NuminaMath-LEAN（两万多道数学竞赛题）。在多步问答方面，选用了Hotpot-QA和OTT-QA（这两个数据集要求模型先搜索信息，再进行综合推理，难度远超单轮问答）。三个测试模型分别为Qwen3-4B、SmolLM3-3B和Gemma3-4B，参数量在3到4亿之间。

作为对比的基线方法包括GRPO（标准版）、DAPO（改进了长度归一化和截断策略）、以及GSPO（用序列级别比率替换词级别比率）。每种方法都经过了针对各数据集的参数调优，以确保公平比较。

实验结果呈现出非常清晰的规律。在多步问答任务上，WAPO的优势最为突出。在OTT-QA上，与次优的稳定基线相比，WAPO在Qwen3-4B上领先了9.9个百分点，在Gemma3-4B上领先了3.2个百分点。在Hotpot-QA上，WAPO分别领先了4.5和10.6个百分点。DAPO在这些任务中频繁出现崩溃——在Hotpot-QA的三个模型中，有两个发生了崩溃；而OTT-QA的Qwen3-4B在100步内就彻底失败，无法输出有效数字。GRPO和GSPO相对稳定一些，但常常在训练中途就停止进步，而WAPO能够持续提升到训练结束。

在数学任务上，WAPO的表现与最强基线基本持平，仅在训练初期偶尔稍慢一些——这恰恰是"难题优先"权重因子带来的保守性，它不会在已经擅长的题目上拼命追赶。从最终成绩来看，WAPO能够追上并与其他方法并驾齐驱。

研究团队还测试了WAPO的"泛化能力"：将在Hotpot-QA上训练好的模型拿去处理2wiki问答（一个全新的多步问答数据集），将在NuminaMath-LEAN上训练好的模型拿去应对AIME'25（顶级的数学竞赛题集）。在2wiki测试中，WAPO在三个模型家族上全面领先于其他方法，这表明它学到的并非针对特定数据集的技巧，而是更为通用的推理能力。在AIME'25上，各方法整体差距不大，WAPO与其他方法基本持平，而该任务本身已经是极高难度的挑战。

此外，研究团队还考察了一个容易被忽视的指标：pass@k（在k次尝试中至少答对一次的概率）。这个指标用于衡量模型的"探索多样性"——如果模型总是输出相同的内容，其pass@k曲线会很快变得平坦。结果显示，WAPO在pass@k上的表现优于或持平于其他基线，这表明虽然它只使用正样本进行训练，但并没有变成一个只会走老路的僵化模型，仍然保持了良好的探索能力。

七、说到底，这项研究改变了什么

归根结底，这项研究做了一件简单却极具价值的事情：它不再把训练不稳定的原因简单归咎于"模型跑偏了"，而是深入到每个词的训练信号层面，搞清楚了"哪类更新有害、哪类有益"。这就好比医生不满足于诊断"身体不好"，而是能够精确指出"是这两根神经的信号传导出了问题"。

这种分析视角带来了一个极简的解决方案——WAPO。它只做了一件事——去除负优势的更新——却在多个任务和模型上显著提升了训练的稳定性，尤其是在困难的多步推理任务上。

对普通用户而言，这项研究意味着未来的AI助手在学习新能力时，将更不容易"走火入魔"输出乱码或陷入循环，整个训练过程会更加可控、更稳定，最终效果也会更好。研究团队已经开源了完整代码，有兴趣的开发者可以通过论文中提供的GitHub地址自行验证。

对研究人员来说，这篇工作也提出了值得深入探索的方向：负优势样本中是否也包含一些有价值的信息，只是目前难以从粗粒度的奖励信号中区分出来？该分析框架能否扩展到更大的模型或更复杂的任务（比如编程、文字转SQL等）？如果能够更精细地识别和利用负样本中的有效信号，训练效率是否还能得到进一步提升？

如果你对这些话题感到好奇，那么值得去读一读原文，论文编号是arXiv:2606.16154。所有理论推导和实验细节，都在那里等待着你的探索。

Q&A

Q1：WAPO方法与普通GRPO训练方式有何本质区别？

A：在GRPO训练中，无论答案好坏，都会影响模型参数的更新——好的答案会被强化，差的答案则会被抑制。而WAPO则完全忽略那些比平均水平差的答案，只从较好的答案中提取经验。用于更新模型的机制（如截断、重要性比率、相对优势归一化）保持不变，唯一的改动就是将负优势的贡献置零。

Q2：为什么截断更多"离旧模型远的词"反而导致崩溃？

A：研究发现，截断阈值设置得越严格，受影响最大的其实是那些概率本身就极低的词。这些低概率词在负优势更新中，原本是"降低混乱度"的力量（Neg-valley类型）。如果把它们更新信号也截断掉，那么剩下的训练信号中，熵增效应（来自Neg-peak和Pos-valley类型）就会相对更加占主导地位，反而导致模型越训练越混乱，从而加速崩溃的发生。

Q3：WAPO在数学任务上为何有时比GRPO或GSPO慢？

A：WAPO使用了自适应权重因子——当一道题的答对率已经较高时，它会自动减小更新的力度。这意味着在训练初期，面对相对容易的题目时，WAPO的学习步伐会显得比较保守，看起来进步缓慢。但这种保守性在后期会带来好处：模型不会因为过度强化简单题目而丧失探索难题的能力，最终的成绩能够追平甚至超越其他方法，尤其是在困难任务上表现更为突出。

来源：https://www.163.com/dy/article/KVQO73A50511DTVV.html

Layer

上一篇B小模型在代码任务上如何打败数百亿参数大模型 下一篇清华大学研究发现AI大模型存在偷懒规律

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。