这项研究源自加拿大Layer 6 AI研究团队的一篇预印本,论文编号为arXiv:2606.16154。感兴趣的读者可以凭此编号检索并查阅完整的原文内容。
一、模型训练的"崩溃"困局
试想一下,一位平时成绩不错的学生,某天在考卷上突然答非所问——要么写出大段无意义的重复数字,要么用中、英、日、阿拉伯文混杂出一堆乱码。这种看似荒诞的场景,如今在大语言模型的训练过程中正频繁发生。
研究团队记录下了两种典型的"崩溃"模式:高熵崩溃,此时模型的输出就像大脑混乱一样,内容混杂着多种语言、代码片段和杂乱字符;低熵崩溃,模型则走向另一个极端,输出变得极度单调,比如无限重复一长串零或某个固定模板,如同紧张得说不出话来。
这两种崩溃现象的背后,根源都是同一个因素:强化学习训练过程的不稳定性。这项研究的核心目标非常明确——深入挖掘这种不稳定性的根本原因,并提出一个既简单又有效的解决方案。
二、强化学习训练究竟是怎么回事
要透彻理解这项研究,首先得弄清楚大语言模型训练中强化学习的具体运作机制。
大众熟悉的预训练,是让模型在"阅读海量文字后预测下一个词"。但为了让模型真正具备"解题"能力——例如解数学题、处理多步骤问题——研究人员开发了带有可验证奖励的强化学习(RLVR)。
可以这样理解:给模型出一道数学题,它能够生成多种解法,答对了给予奖励,答错了则扣分。通过反复试错,模型会逐渐朝着"更可能答对"的方向优化。这听起来很合理,但在实际执行中却存在不少挑战。
目前最主流的训练方法是GRPO(群组相对策略优化)。其核心逻辑是:针对同一道题,先让"旧版本模型"生成一批答案,然后根据答案的优劣为每个答案计算一个相对分数(称为"优势值"),再基于这些分数来更新"新版本模型"。关键问题在于,新旧模型之间存在差异,使用旧模型生成的样本来训练新模型,就好比用三年前的菜谱来指导今天的厨师。
为了控制这种"偏离",研究人员引入了重要性比率截断机制:如果新旧模型在某个词上的概率差距过大,就将这个词的训练信号截断。从直觉上看这很稳健——差距越大的地方越不可信,截断它们似乎是个好策略。
然而,Layer 6 AI的研究团队进行了一项实验,直接颠覆了这一直觉。他们发现,截断阈值设置得越严格——也就是截断更多"差距大"的词——模型训练崩溃得就越彻底、越频繁。截断得越狠,问题反而越严重。这充分说明,"与旧模型差距大"本身并非崩溃的根本原因,问题一定另有隐情。
三、一把手术刀:解剖每一个词的梯度效果
研究团队转换了视角:不再追问"这个词离旧模型有多远",而是思考"更新这个词,会把模型在当前位置的概率分布变成什么样"。
要理解这个思路,首先需要明白语言模型如何"选词"。在每个生成步骤中,模型会为词汇表中的每个词打分,然后通过softmax函数将这些分数转化为概率。例如,在"我今天吃了___"这个位置,"饭"可能被赋予30%的概率,"苹果"可能是20%,而"汽车"可能只有0.001%。
在训练时,模型生成了某个词,并根据正确答案获得奖励信号,随后对模型参数进行微调。这种调整将如何影响下一次遇到同样位置时各个词的概率?
研究团队推导出了一个数学公式(论文中的方程1),揭示了一个出人意料的规律:对于所有未被采样到的词,其概率变化取决于三个因素:该未采样词本身的概率、采样到当前词的概率,以及一个称为C(p)的参考值。C(p)等于所有词概率的平方和,它像一个"标尺",用于衡量当前概率分布的集中或分散程度。
更直观地说,每个词都有一个"地位":若其概率高于C(p)这个阈值,则被称为峰值词(Peak);若低于阈值,则为谷值词(Valley)。同时,采样词的奖励信号有正负之分——如果答案优于平均水平,则优势值为正;反之则为负。
这样一来,每一次对某个词的训练,都可以被归入四个类别之一:正优势+峰值词(Pos-peak)、正优势+谷值词(Pos-valley)、负优势+峰值词(Neg-peak)、负优势+谷值词(Neg-valley)。
这四个类别对模型的影响截然不同。研究团队通过理论推导和实验验证发现,Pos-valley和Neg-peak这两类更新会使模型的概率分布变得更混乱、更随机,是推动高熵崩溃的主要力量。Pos-peak更新则能使分布更集中、更确定,是稳定的。而Neg-valley更新虽然短期内能降低混乱度,但在模型整体已经处于较高熵水平时,反而会把概率分布过度压缩,从而引发低熵崩溃。
这一发现非常关键:决定训练是否崩溃的核心因素,并非某个词"离旧模型有多远",而是"这个词在当前模型中属于峰值还是谷值,以及它所携带的是正还是负的奖励信号"。
四、实验验证:把四种训练方式分开测试
为了验证理论,研究团队进行了一组极为干净的实验:使用SmolLM3-3B模型在NuminaMath-LEAN数学数据集上进行训练,每次只激活四个类别中的一个,然后观察训练走向。
实验结果完全符合理论预测。仅进行Pos-peak训练时,模型非常稳定,熵值持续下降,但成绩在达到一个高点后便不再提升——模型只是在不断强化它已经擅长的事情,没有探索新的路径。仅进行Pos-valley或Neg-peak训练时,模型的熵值迅速飙升,随后生成的内容崩溃为乱码。仅进行Neg-valley训练时,模型在早期有所进步,但后期陷入过度自信,生成内容变得单调重复,出现了低熵崩溃。
当将这四个类别按照"正/负优势"或"峰值/谷值"进行两两组合作测试时,结论变得更加清晰:正优势(Pos)方向的训练——也就是只强化那些优于平均水平的答案——在稳定性和最终表现上最为均衡,与主流基线方法DAPO的表现相当。换言之,从安全性和有效性来看,"只强化赢家"是一个简单而有力的策略。
五、WAPO的提出:只从赢家身上学
基于上述发现,研究团队提出了一种名为赢家优势策略优化(Winner Advantage Policy Optimization,WAPO)的方法。
其核心思想极为简洁:在一批答案中,只对优势值为正(即优于平均水平)的答案进行策略梯度更新,而那些更差的答案则被直接忽略,不产生任何训练信号。如果一道题的所有回答都是错误的(即没有"赢家"),那么这道题对本轮训练就没有任何贡献。
打个比方:老师批改作业时,只从做对的题目中总结经验,错误题目则不予处理。这与常规的"分析错题"方法截然不同,但在该场景下却更为有效。
WAPO并非简单粗暴地"扔掉失败案例"。它保留了GRPO家族方法的核心机制:重要性比率(用于修正新旧模型差距)、截断(避免单次更新步子迈得太大)、以及以组为单位的优势归一化(让每道题内的答案相互比较)。唯一的改变,就是将所有负优势项的贡献置零。
研究团队还从理论上证明了WAPO的梯度方向是正确的。在简化的"二元奖励"场景(答对得1分,答错得0分)下,WAPO的梯度更新方向与"直接最大化答对概率"的梯度方向一致,只是多了一个自适应权重因子1-qx(其中qx为当前模型在该题上的答对率)。这个权重因子的特性非常理想:当一道题的答对率已经很高时,权重会自动缩小,模型就不会在已经掌握的题目上浪费时间;当题目难度较大时,权重会相应增大,模型就会把更多注意力集中在这道难题上。这是一种天然的"难题优先"机制。
与此同时,研究团队还比较了另外两个只使用正样本的方法。PSR不使用截断和相对优势归一化,学习效率较低,成绩很快就会遇到瓶颈。RAFT++则按答案长度进行归一化,结果导致模型学会了"写短答案"的策略,后期专门产出极短的模板化回答,例如"思考了一下,答案是3。答案:3"——这显然是一种偷懒式的崩溃,虽然形式尚未乱套,但学习质量极差。WAPO通过保留相对优势归一化和截断,有效规避了这两个问题。
六、大规模实验:跨任务、跨模型的全面验证
研究团队在四个数据集和三个模型家族上进行了系统性的实验,涵盖了数学推理和多步问答两大类任务。
在数学推理方面,选用了Math-500(500道标准数学题)和NuminaMath-LEAN(两万多道数学竞赛题)。在多步问答方面,选用了Hotpot-QA和OTT-QA(这两个数据集要求模型先搜索信息,再进行综合推理,难度远超单轮问答)。三个测试模型分别为Qwen3-4B、SmolLM3-3B和Gemma3-4B,参数量在3到4亿之间。
作为对比的基线方法包括GRPO(标准版)、DAPO(改进了长度归一化和截断策略)、以及GSPO(用序列级别比率替换词级别比率)。每种方法都经过了针对各数据集的参数调优,以确保公平比较。
实验结果呈现出非常清晰的规律。在多步问答任务上,WAPO的优势最为突出。在OTT-QA上,与次优的稳定基线相比,WAPO在Qwen3-4B上领先了9.9个百分点,在Gemma3-4B上领先了3.2个百分点。在Hotpot-QA上,WAPO分别领先了4.5和10.6个百分点。DAPO在这些任务中频繁出现崩溃——在Hotpot-QA的三个模型中,有两个发生了崩溃;而OTT-QA的Qwen3-4B在100步内就彻底失败,无法输出有效数字。GRPO和GSPO相对稳定一些,但常常在训练中途就停止进步,而WAPO能够持续提升到训练结束。
在数学任务上,WAPO的表现与最强基线基本持平,仅在训练初期偶尔稍慢一些——这恰恰是"难题优先"权重因子带来的保守性,它不会在已经擅长的题目上拼命追赶。从最终成绩来看,WAPO能够追上并与其他方法并驾齐驱。
研究团队还测试了WAPO的"泛化能力":将在Hotpot-QA上训练好的模型拿去处理2wiki问答(一个全新的多步问答数据集),将在NuminaMath-LEAN上训练好的模型拿去应对AIME'25(顶级的数学竞赛题集)。在2wiki测试中,WAPO在三个模型家族上全面领先于其他方法,这表明它学到的并非针对特定数据集的技巧,而是更为通用的推理能力。在AIME'25上,各方法整体差距不大,WAPO与其他方法基本持平,而该任务本身已经是极高难度的挑战。
此外,研究团队还考察了一个容易被忽视的指标:pass@k(在k次尝试中至少答对一次的概率)。这个指标用于衡量模型的"探索多样性"——如果模型总是输出相同的内容,其pass@k曲线会很快变得平坦。结果显示,WAPO在pass@k上的表现优于或持平于其他基线,这表明虽然它只使用正样本进行训练,但并没有变成一个只会走老路的僵化模型,仍然保持了良好的探索能力。
七、说到底,这项研究改变了什么
归根结底,这项研究做了一件简单却极具价值的事情:它不再把训练不稳定的原因简单归咎于"模型跑偏了",而是深入到每个词的训练信号层面,搞清楚了"哪类更新有害、哪类有益"。这就好比医生不满足于诊断"身体不好",而是能够精确指出"是这两根神经的信号传导出了问题"。
这种分析视角带来了一个极简的解决方案——WAPO。它只做了一件事——去除负优势的更新——却在多个任务和模型上显著提升了训练的稳定性,尤其是在困难的多步推理任务上。
对普通用户而言,这项研究意味着未来的AI助手在学习新能力时,将更不容易"走火入魔"输出乱码或陷入循环,整个训练过程会更加可控、更稳定,最终效果也会更好。研究团队已经开源了完整代码,有兴趣的开发者可以通过论文中提供的GitHub地址自行验证。
对研究人员来说,这篇工作也提出了值得深入探索的方向:负优势样本中是否也包含一些有价值的信息,只是目前难以从粗粒度的奖励信号中区分出来?该分析框架能否扩展到更大的模型或更复杂的任务(比如编程、文字转SQL等)?如果能够更精细地识别和利用负样本中的有效信号,训练效率是否还能得到进一步提升?
如果你对这些话题感到好奇,那么值得去读一读原文,论文编号是arXiv:2606.16154。所有理论推导和实验细节,都在那里等待着你的探索。
Q&A
Q1:WAPO方法与普通GRPO训练方式有何本质区别?
A:在GRPO训练中,无论答案好坏,都会影响模型参数的更新——好的答案会被强化,差的答案则会被抑制。而WAPO则完全忽略那些比平均水平差的答案,只从较好的答案中提取经验。用于更新模型的机制(如截断、重要性比率、相对优势归一化)保持不变,唯一的改动就是将负优势的贡献置零。
Q2:为什么截断更多"离旧模型远的词"反而导致崩溃?
A:研究发现,截断阈值设置得越严格,受影响最大的其实是那些概率本身就极低的词。这些低概率词在负优势更新中,原本是"降低混乱度"的力量(Neg-valley类型)。如果把它们更新信号也截断掉,那么剩下的训练信号中,熵增效应(来自Neg-peak和Pos-valley类型)就会相对更加占主导地位,反而导致模型越训练越混乱,从而加速崩溃的发生。
Q3:WAPO在数学任务上为何有时比GRPO或GSPO慢?
A:WAPO使用了自适应权重因子——当一道题的答对率已经较高时,它会自动减小更新的力度。这意味着在训练初期,面对相对容易的题目时,WAPO的学习步伐会显得比较保守,看起来进步缓慢。但这种保守性在后期会带来好处:模型不会因为过度强化简单题目而丧失探索难题的能力,最终的成绩能够追平甚至超越其他方法,尤其是在困难任务上表现更为突出。
