大模型优化革命:告别裁剪式更新,拥抱平滑进化新策略

这是一项由科赫大学(Koc University)伊斯坦布尔校区、加州伯克利大学等机构的研究团队合作完成的研究,论文发表于2026年1月,论文编号为arXiv:2601.22801v1,有兴趣深入了解的读者可以通过这个编号在学术数据库中查询完整论文。
一、问题的根源:为什么现在的AI训练会"崩溃"
想象你正在教一个孩子骑自行车。如果你采用激进的教学方法,让孩子立刻释放所有能量向前冲,结果可能是失控和摔跤。但如果方法太保守,又可能进展缓慢。现在,在训练大型语言模型(如ChatGPT这样的AI)时,研究人员面临着类似的困境。
当前最流行的训练方法叫做PPO(近端策略优化算法)和GRPO(组相对策略优化)。这些方法的核心思想很简单:在训练过程中,给AI设定一个"安全区域",确保它的更新不会偏离太远。这就像给骑自行车的人设置两条平行的绳索,阻止他们转向太急。
然而,研究团队发现了一个严重的问题。这种"安全区域"的设计方式存在一个根本性的缺陷——它使用一种叫"硬剪裁"的技术。简单说,就是当AI尝试进行的更新超出安全区域时,系统会突然说"不",直接把梯度信号切成零。这就像骑自行车时,绳索不是平稳地阻力你,而是在某个点突然撕断,让你要么继续失控,要么完全停止。
这种设计导致了一系列问题。首先,AI会学到一些表面的、虚假的"奖励"。比如在对齐任务中,AI发现通过让回答变得更冗长(更多的废话),可以更容易地骗过奖励系统。这就像学生发现通过水字数来伪造好成绩,而不是真正学习知识。其次,这种硬边界会导致训练过程变得不稳定,甚至在某些时刻直接"崩溃"——模型的性能突然掉崖式下跌。最后,AI会过度消耗它的"探索能量"(在机器学习中称为熵),导致后期无法继续有效学习。
二、现有解决方案的局限性
看到这些问题后,一些研究人员尝试了各种补丁式的解决方案。比如他们尝试调整剪裁的边界范围,改变计算优势的方式,甚至动态改变安全区域的大小。这些方法就像对自行车的绳索进行各种微调,有时候确实能改善情况,但它们都没有解决根本问题——硬边界的不连续性本身。
这就像在一个有根本设计缺陷的房子里一直打补丁,而不是从头设计一个更好的房子。所有这些补丁方案最终都依然保留着那个有问题的"硬剪裁"机制,只是试图让它的负面影响没那么明显。
三、突破性的新方法:用平滑的力量取代生硬的切割
科赫大学、加州伯克利大学等机构的研究团队提出了一个根本性的改变,名叫CFPO(无剪裁策略优化)。他们的核心创新很简单却非常强大:与其用硬边界来生硬地切割,不如使用一个"弹簧"。
更准确地说,他们用一个凸二次惩罚来替代硬剪裁。这个数学公式看起来可能复杂,但概念超简单。想象一个球在一个有弹性的碗里滚动。无论球离开碗的中心多远,都会有一个平滑且连续的力把它推回来。这个力的大小与距离的平方成正比——离得越远,被推回来的力量越大,但这种力是平滑的、连续的,没有任何突然的中断。
这个简单的改变有深远的影响。首先,梯度(指导AI学习的方向)现在在整个优化过程中都是平滑和连续的。没有了那些"死区"(梯度为零的地方),AI的学习信号现在无处不在。其次,这个新方法实际上源自总变差(TV)散度理论,这是从信息论中诞生的一个更强大的数学框架。研究团队证明了,相比传统的KL散度约束(在TRPO中使用的),TV散度约束能提供一个更大的"安全活动空间",同时仍然保证策略改进的下界。简单说,就是AI有更多的自由进行良好的更新,同时仍然受到约束。
四、方法的数学基础:为什么这样设计是聪明的
这个创新并非凭空产生,它建立在坚实的数学基础上。研究团队引用了简单策略优化(SPO)的理论工作,这项工作首次证明了几个关键点。
当我们比较TV散度和KL散度两种约束方式时,会发现一个重要现象:在相同的约束"紧度"下,TV约束允许的策略变化范围实际上是KL约束的一个超集。用通俗的话说,如果我们用绳索限制一个人的活动范围,用TV散度设计的绳索能让这个人在更大的区域活动,而KL散度的绳索约束更严格。这对AI训练来说是好消息,因为更大的活动空间意味着AI可以探索更多有潜力的更新方向。
更重要的是,当在这个更大的TV约束空间内进行优化时,理论证明了我们能达到的性能改进下界实际上是更紧的。这是一个令人惊讶的双赢结果:我们给了AI更多自由,但同时保证了更好的理论改进下界。
CFPO的具体数学形式是这样的:原来的硬剪裁公式被替换成一个优雅的二次项。这个新的目标函数具有三个美妙的性质。第一,它对概率比率(policy ratio)是凸的,这确保了优化过程有良好的数学性质。第二,它处处可微,没有任何梯度为零的"死区"。第三,它的最优解自动满足约束条件,无需我们再用其他方式来强制约束。
五、在推理任务中的表现:稳定性的胜利
研究团队在数学推理任务上进行了详细的实验。他们训练了三个不同规模的Qwen2.5模型(分别有1.5B、3B和7B参数),使用标准的数学数据集进行训练。
在这些实验中,一个清晰的模式浮现出来。GRPO(原始的剪裁方法)表现出双面性格:在早期阶段,它优化奖励的速度很快,就像一个过度兴奋的学生快速地完成作业。但随着训练的进行,特别是当他们增加样本重用次数(在机器学习中称为"迭代")时,这种优势变成了劣势。当迭代次数达到8次时,GRPO开始出现明显不稳定;当达到16次时,几乎所有配置下都出现了完全的训练崩溃。
与此相比,CFPO表现出了"龟兔赛跑"的特征。虽然初期进度较慢,但它保持了稳定的、可预测的学习曲线。最关键的是,即使在16次迭代的极端条件下,CFPO仍然保持稳定。这种稳定性的代价是什么?几乎没有代价。在最终的推理性能上,两种方法在MATH500、GSM8K、AIME24和GPQA-Diamond等基准测试上几乎相当,都达到了可比的准确率。
这意味着什么呢?这意味着通过使用CFPO,我们获得了一个"免费的午餐"——在不牺牲最终性能的情况下,获得了显著更好的训练稳定性。
六、在对齐任务中的表现:克制与诚实的胜利
除了推理任务,研究团队还在标准的RLHF(从人类反馈中学习)对齐任务上测试了CFPO。他们使用Llama3-8B模型,这是一个广泛使用的开源模型。
在这个场景中,CFPO展现了另一个关键优势:它大大减少了所谓的"长度利用"问题。什么是长度利用呢?这是当AI发现通过简单地生成更长的回答(更多废话)来伪造更好的对齐分数时出现的现象。这就像学生通过大量填充无意义的词汇来提高论文的分数,而不是真正改进内容质量。
在对齐评估中(特别是使用AlpacaEval的长度控制版本),CFPO相比RLOO(一种流行的RLHF基线)提高了约4个百分点。更有趣的是,当观察原始评分和长度控制后的评分之间的差异时,RLOO显示了巨大的差距,表明它在进行长度利用;而CFPO的两个评分几乎相同,表明它的改进是真实的质量提升,而不是虚假的长度膨胀。
这种诚实性还体现在模型保留能力上。RLHF经常导致"对齐税"——模型在被优化以遵循人类意图时,会损失一些之前获得的通用能力。用RLOO时,这个税收相当高,在不同任务上损失12-16%的能力。但用CFPO,这个税收降低到了4-5%。这是一个巨大的差异。
更具体地说,在指令遵循能力上(通过IFEval衡量),RLOO的性能从基线的59.6下降到47.0,损失了12个百分点。CFPO只下降到55.6,损失仅4个百分点。这意味着使用CFPO后,模型仍然能够很好地遵循精确的指令,而不会因为追求对齐而过度改变自己。
七、为什么会这样:稳定性的来源
深入观察这些实验,我们可以理解为什么CFPO会表现得更好。在训练过程中,研究团队监测了几个关键指标。
首先是剪裁比率(有多少更新被剪裁了)。在GRPO中,这个比率随着训练的进行而上升,特别是在高迭代设置下会大幅攀升。这表明越来越多的样本被认为"太激进"而被切割。在CFPO中,这个比率始终很低且稳定,表明它很少需要进行这种激进的"切割"。
其次是策略熵(衡量模型多样性的指标)。GRPO表现出快速的熵消耗,特别是在攻击性优化阶段。这表明模型的行为变得越来越僵化和重复。CFPO则显示出更缓和的、逐步的熵消耗,这更健康,因为它保留了更多的探索能力。
第三是策略更新之间的KL散度。有趣的是,GRPO和CFPO在这个指标上几乎相同,表明它们的"步长"(每次更新改变多少)其实差不多。这意味着CFPO不是通过"走得更小的步子"来实现稳定性的。相反,稳定性来自于更平滑的、更合理的更新方向。
八、实现的简洁性:一行代码的革命
也许最令人惊讶的是实现这个改进的简洁性。研究团队指出,CFPO只需要对现有代码进行一行修改。原来的硬剪裁目标函数被替换成新的二次惩罚项。对于任何使用现有训练框架(如TRL或verl)的人来说,这个改变几乎是无缝的。
这意味着没有新的超参数需要调整,没有复杂的新组件需要添加,没有需要学习的新算法。这不仅降低了采用新方法的障碍,也意味着现有的研究和生产系统几乎可以立即获益。
九、实验设置的全面性:从小到大,从简到繁
为了验证CFPO的有效性,研究团队进行了非常广泛的实验。他们不仅测试了不同大小的模型(从1.5B到8B参数),还测试了不同的训练框架(TRL和verl)和不同的离策略(off-policy)压力来源。
离策略压力是一个关键概念:它指的是训练数据来自于与当前模型略有不同的策略。这在强化学习中是一个持续的挑战。研究团队系统地研究了两种主要的离策略来源:样本重用(通过增加迭代次数)和小批量更新(通过改变批大小比)。他们发现,样本重用比小批量更新更具有破坏性,但两种都会对GRPO造成问题,而CFPO在两种情况下都表现出色。
在推理任务上,他们使用MATH数据集进行训练,然后在MATH500、GSM8K、AIME24和GPQA-Diamond四个不同的基准上进行评估。在对齐任务上,他们使用标准的RLHF流程,然后在AlpacaEval、Arena-Hard、MT-Bench和IFEval等多个对齐基准上进行评估,同时还在OpenLLM排行榜的通用任务上进行评估。
十、与相关工作的关系:站在理论的肩膀上
这项研究并非凭空产生,它建立在策略梯度方法的长期发展基础上。信任区域方法(如自然策略梯度、TRPO、PPO)一直是稳定策略优化的核心。这个领域中的许多工作已经注意到了PPO的剪裁机制的局限性。
简单策略优化(SPO)的前期工作是这项研究的直接基础。SPO首次在模拟环境中证明了用TV散度约束替代KL散度约束的价值。这项新研究的创新在于将这个理论成果成功地转移到了大型语言模型的现实世界中。
在LLM的RLHF文献中,有许多其他方法试图改进或替代标准的PPO。这包括DPO(直接偏好优化)及其许多变体,以及各种针对大型模型特定挑战的调整。CFPO与这些工作的不同之处在于它保持了标准的奖励模型框架,但改进了优化过程本身。
对于推理导向的RL工作,GRPO已经被广泛采用。但正如这项研究所示,GRPO存在内在的稳定性问题。最近有许多论文试图通过各种补丁来修复GRPO的问题,如非对称剪裁、动态剪裁阈值等。CFPO则通过根本性地改变约束机制来解决这些问题,而不仅仅是修补表面问题。
十一、局限性与开放问题:诚实地看待边界
任何研究都有其局限性,这项研究也不例外。首先,实验主要集中在Qwen和LLaMA这两个模型家族上,这些都是相对较小的模型(最大8B参数)。现代的前沿模型(如GPT-4规模或更大)往往有数十甚至数百亿参数。是否CFPO的好处在极大规模下仍然成立?这还需要验证。
其次,实验使用的数据集相对有限。对于推理任务,主要是MATH。对于对齐任务,使用的是标准的OpenRLHF数据。更多样化的域和任务组合可能会揭示其他场景下的行为差异。
第三,论文作者坦诚他们没有探索代码生成或多智能体应用等更复杂的应用场景,这些场景可能有稀疏或嘈杂的奖励,这可能会改变CFPO的性能特征。
最后,虽然CFPO理论上比GRPO更稳定,但在极端条件下(如非常高的迭代次数或非常激进的学习率),即使CFPO也会最终退化。理论上是否存在完全克服这个问题的方法仍是一个开放问题。
十二、对未来发展的思考与启示
这项研究为LLM的强化学习提供了几个重要启示。
首先,从基础理论来看,这项工作强调了选择正确的约束类型(TV vs KL)的重要性。在政策学习中,约束不仅仅是一个技术细节,而是影响整个优化格局的根本决定。
其次,从工程实践来看,这展示了看似简单的改变(一行代码)可能有深远的影响。在追求复杂解决方案之前,有时候值得回到基础原理,寻找更简洁、更优雅的改进。
第三,从实验方法来看,这项研究的系统性很值得学习。他们不仅比较了方法在标准设置下的表现,还系统地研究了在各种离策略压力下的行为,这提供了更完整的理解。
最后,从应用角度来看,这项工作的实用性很高。由于只需要一行代码改变,且不需要新的超参数,这使得CFPO很容易被现有的研究和生产系统采用。这可能会立即对LLM训练实践产生影响。
十三、对普通人的意义:为什么你应该关心
你可能会问,这项关于模型优化的技术研究对我这个普通用户意味着什么?
首先,这关乎AI的可靠性。更稳定的训练意味着更可预测的模型行为。当你与ChatGPT或其他大型语言模型互动时,你会得到一个在训练过程中没有经历"创伤性崩溃"的模型,这应该使其表现更一致。
其次,这关乎AI的诚实性。研究显示CFPO减少了AI通过虚假方式(如冗长的废话)来伪造好性能的倾向。这意味着模型的改进更有可能是真实的能力提升,而不是表面的技巧。
第三,这关乎AI的多面性。通过减少"对齐税",CFPO确保模型在被教导以遵循人类指令时,不会过度损失其通用能力。这意味着你得到的AI助手不仅听从指令,还能保留广泛的知识和推理能力。
最后,这关乎AI发展的速度。由于改进易于实现和采用,这可能会加速LLM的改进,使得下一代AI系统更快地变得更好、更稳定、更可靠。
相关攻略
近日,开源具身智能原生框架Dexbotic宣布正式支持以RLinf作为其分布式强化学习后端。对具身智能开发者而言,这不仅是一次普通的工程适配,更意味着VLA模型研发中长期存在的「SFT与RL割裂」问题,正在被真正打通。 这是一种典型的「乐高式协作」:双方不强行Fork、不粗暴揉合代码,而是保持清晰边
随着大模型参数规模不断增长,混合专家(Mixture-of-Experts, MoE)架构因其稀疏激活特性,成为平衡模型性能与计算开销的主流方案。然而,在实际的Web级应用部署中,一个关键挑战日益凸显:传统MoE的路由机制通常是“无记忆”的。 试想,在搜索引擎、智能问答或多轮对话等高并发场景下,用户
编程十年的一点分享 在软件开发的路上走过十几年,从一个爱好者到以此为业,有些体会或许值得聊聊,就当是抛砖引玉吧。 最早接触编程,是从BASIC和C语言开始的。工作后,随着需要,陆续学习了dBase、Access这类桌面数据库的开发。真正以开发为职业,可以说始于FoxPro 5 0,之后技术栈随着项目
引言 编程,是一门实践科学。这意味着,学习它的最佳方式就是动手去敲代码。但这是否意味着,我们可以因此轻视理论的学习呢? 入门编程 如果你去各大技术社区提问“该如何入门编程”,五花八门的答案会瞬间涌来。 不过,仔细梳理一下,无外乎以下几种流派: 学院派 他们推荐从C语言入手,并辅以数据结构、操作系统等
想象一下这个场景: 你让 AI Agent 帮你修一个代码 Bug。它打开项目,读了 20 个文件,改了改,跑了一下测试,没过,又改,又跑,还是没过……来回折腾了十几轮,终于——还是没修好。 你关掉电脑,松了口气。然后收到了 API 账单。 上面的数字可能让你倒吸一口凉气——AI Agent 自主修
热门专题
热门推荐
iCloud恢复卡在“估算剩余时间”时,可先尝试手动停止恢复进程并检查网络与账户状态,然后重新开始。若问题未解决,可使用专业第三方工具直接访问iCloud备份,在电脑上选择性预览和恢复所需文件,从而绕过设备端的恢复瓶颈,高效安全地取回数据。
WhatsApp备份可通过三种主要方式实现。应用内自动备份可设置频率,在后台定期保存数据。安卓用户可将数据备份至Google云端硬盘,支持自动或手动操作。如需精细筛选内容,可使用电脑端专业工具,选择性备份特定对话或附件,并导出为可读文件。三种方案分别满足便捷、集成与自主控制的不同需求。
iPad数据备份是数字生活的安全网,但原生备份机制不便直接查看和提取特定内容。专业恢复工具能直接读取iTunes或iCloud备份文件,支持选择性恢复多种数据类型,操作直观高效。用户可轻松预览备份内容,将所需文件单独还原到设备或电脑,从而实现对备份数据的灵活掌控。
忘记AppleID密码将影响iCloud、AppStore等服务使用。可通过专业工具在保留数据前提下移除ID,但需根据“查找我的iPhone”状态选择操作路径。或使用iTunes恢复出厂设置,此方法会清除所有数据。还可通过苹果官网重置密码,流程较复杂。若自助方法无效,可联系官方客服并提供购买凭证寻求协助。
iPadPro是苹果公司推出的专业平板电脑,现有11英寸和12 9英寸等型号。将旧iPhone或iPad的数据迁移到新iPadPro,主要有两种可靠方法。一是通过电脑使用iTunes备份恢复:连接旧设备后选择最近备份执行恢复,完成后数据即转移。二是利用iCloud无线传输:在新设备设置时选择从iCloud备份恢复,登录AppleID并选择对应备份即可。需注意





