快手团队攻克模型训练难题：CE-GPPO算法平衡探索与收益

首页

热心网友

转载

2025-10-16

在人工智能技术迅猛发展的当下，如何优化大型语言模型的训练效果已成为学界与产业界共同关注的核心议题。快手科技Klear团队联合独立研究者李云涛完成的一项突破性研究，为这一难题提供了创新解决方案。该成果以论文形式发表于arXiv预印本平台（编号：arXiv:2509.20712v3），通过重新设计强化学习算法，在模型探索能力与知识利用效率之间实现了更佳平衡。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

研究团队将传统训练方法比喻为“填鸭式教育”：模型被严格限制在预设的解题框架内，任何超出范围的思考都会直接被否定。这种模式虽能保证训练稳定性，却会导致模型逐渐丧失创新能力。以数学解题为例，现有主流算法（如PPO）如同只接受标准答案的教师，完全忽视学生提出的非常规思路，即便这些思路可能蕴含着重要突破点。

核心问题在于传统算法的“策略熵”控制机制存在缺陷。研究指出，模型输出的词元可根据概率与优势值分为四类：高概率正优势、低概率负优势、高概率负优势和低概率正优势。前两类虽能加速模型收敛，但容易导致过早陷入局部最优解；后两类看似“非主流”，却是维持模型探索能力的关键。传统PPO算法通过简单裁剪机制丢弃后两类信息，直接引发了“熵坍缩”（探索能力丧失）和“熵爆炸”（过度探索导致知识利用失效）两大问题。

针对这些弊端，研究团队提出CE-GPPO（通过梯度保持裁剪策略优化协调熵）算法。该方案的创新之处在于引入“停梯度”技术，为模型创新思考设置安全缓冲区。通过两个可调节参数β1和β2，算法能够精准控制不同类型词元的影响权重：对具有潜在价值的低概率创新方案给予适度关注，同时抑制可能导致模型偏离的噪声信息。

实验数据显示，CE-GPPO在数学推理基准测试中表现卓越。在AIME24、AIME25、HMMT25等权威测试集上，新算法均显著超越现有强基线方法。规模效应测试显示，其优势随模型参数增加而扩大：1.5B参数模型提升2.5个百分点，7B参数模型提升达3个百分点。特别是在复杂任务中，CE-GPPO展现出更强的适应能力。

参数调节实验揭示了算法的灵活性。当β1=0.5或0.75且β2=1时，模型能在探索与利用间取得最佳平衡。增大β1或减小β2可加速收敛，反之则增强探索能力。这种可调节性使算法能够适配不同应用场景的需求。

稳定性监测表明，CE-GPPO在整个训练过程中保持平稳表现。KL散度和梯度范数曲线显示，新算法在引入额外学习信号的同时，未出现传统方法常见的剧烈波动。与其他先进算法（如CISPO、GSPO）的对比测试中，CE-GPPO在五个测试集的四个中取得最优成绩，且避免了竞争方法常见的模型崩溃问题。

理论层面，研究团队构建了策略熵动态变化的数学模型，首次证明了被传统方法忽视的“越界”词元对维持探索能力的重要性。推导出的公式清晰展示了不同类型词元如何影响模型的决策平衡，为算法设计提供了坚实的理论支撑。

实际应用中，CE-GPPO在需要深度思考的任务领域（如数学推理、科学计算、代码生成）展现出巨大潜力。通过平衡创新探索与知识利用，该算法有望推动更智能、更可靠的AI系统开发。不过研究也指出，不同模型可能需要调整最优参数设置，β1=0.5、β2=1的通用配置仍需根据具体场景微调。

来源:https://www.itbear.com.cn/html/2025-10/987927.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：OPPO Find X9系列16日晚发布：全网首发亮点一文汇总下一篇：牛津大学调查：超八成13-18岁青少年用AI写作业，老师难辨真伪

热门推荐

web3.0

美国SEC主席Paul Atkins证实：加密货币安全港提案已送交白宫审查

加密货币行业翘首以盼的监管里程碑，终于有了实质性进展。美国证券交易委员会（SEC）主席保罗·阿特金斯（Paul Atkins）近日证实，那份允许加密项目在早期获得注册豁免权的“安全港”框架提案，已经正式送抵白宫，进入了最终审查阶段。在范德堡大学与区块链协会联合举办的数字资产峰会上，阿特金斯透露了这

热心网友

04.08

web3.0

微策略Strategy报告：第一季录得144.6亿美元浮亏再斥资约3.3亿美元买进4871枚比特币

微策略Strategy报告：第一季录得144 6亿美元浮亏再斥资约3 3亿美元买进4871枚比特币市场震荡的威力有多大？看看Strategy的最新季报就明白了。根据其最新向美国证管会(SEC)提交的8-K报告，受市场剧烈波动影响，这家公司所持的比特币在第一季度录得了一笔惊人的数字——144 6亿

热心网友

04.08

web3.0

稳定币发行商Tether再扩Web3版图！Paolo Ardoino：正开发去中心化搜索引擎Hypersearch

稳定币巨头Tether的动向，向来是加密世界的风向标。这不，它向Web3基础设施的版图扩张，又迈出了关键一步。公司执行长Paolo Ardoino在社交平台X上透露，其工程团队正在全力“烹制”一个新项目——去中心化搜索引擎 “Hypersearch”。这个消息一出，立刻引发了行业的广泛猜想。采用D

热心网友

04.08

web3.0

Base链首个原生DeFi借贷协议Seamless Protocol倒闭将于2026年6月30日下线

基地位于Coinbase旗下以太坊Layer2网络Base的Seamless Protocol，日前正式宣告了服务的终结。这个曾经吸引了超过20万用户的原生DeFi借贷协议，在运营不到三年后，终究没能跑赢时间。它主打的核心产品是Integrated Leverage Markets（ILMs）——一

热心网友

04.08

web3.0

PAAL代币如何参与治理？社区投票能决定哪些事项？

PAAL代币揭秘：深度解析Web3社区治理的核心钥匙在去中心化自治组织的浪潮中，谁真正掌握了项目的话语权？PAAL代币提供了一套系统化的答案。它不仅是生态内流转的价值媒介，更是开启链上治理大门的核心凭证。通过持有并质押PAAL代币，用户能够对协议升级、资金分配乃至战略方向等关键事务投出决定性的一票

热心网友

04.08

快手团队攻克模型训练难题：CE-GPPO算法平衡探索与收益

热门专题

最新APP

热门推荐