首页
AI
INFLY TECH推出DPH-RL框架,破解AI训练专精难题
INFLY TECH推出DPH-RL框架,破解AI训练专精难题
随着人工智能技术日新月异的发展,大型语言模型在需要精确解答的数学推导、代码生成等领域展现出非凡实力。一个耐人寻味的现象却引起了研究者们的深入思考:运用强化学习方法训练模型后,模型的首次回答准确性显著提升,却在重复回答相同问题时整体成功率骤降。这种"训练越充分重答能力越弱"的反常现象,就像学生首次测试成绩提高但补考表现反而退步,成为了当前AI研究领域的热点课题。
INFLY TECH联合复旦大学与格里菲斯大学的科研团队经过细致研究后发现,传统强化学习训练中的"反向KL散度"方法是这一现象的关键成因。这项原本用于约束模型更新幅度的数学技术,意外触发了"模式聚集"效应——模型会过度集中于少数高频答案,犹如学生偏科般忽略其他可能的解题路径,最终导致输出结果极度单一化。
研究发现,使用传统方法训练的模型在完成强化学习后,面对先前能够正确解决的问题,其成功率会大幅降低15%左右,表现出典型的"灾难性遗忘"特征。这很好地解释了为何模型在重复回答时表现欠佳:虽然首次回答可能幸运地命中强化训练的少数答案,但缺乏解题多样性的模型在后续尝试中往往铩羽而归。
针对这一挑战,研究团队开创性地提出了多样性保持混合强化学习框架(DPH-RL)。该技术的创新突破在于采用了"正向KL散度"和"JS散度"等具备"广度覆盖"特性的数学方法。与传统训练方式的"聚焦效应"不同,新技术更像是建立了"定期复习"机制,确保模型在提升新能力的同时不会遗忘已有技能,有效维持了解题路径的多样性。
DPH-RL框架采用了独特的双阶段训练设计。预处理阶段,系统会智能地将训练数据划分为"优秀样本集"与"探索样本集":前者记录着模型已掌握的稳定解法及其概率分布;后者则针对性地收集需要改进的难题样本。在实质训练阶段,框架对探索样本给予充分创新空间,鼓励模型寻找新颖解法;同时对优秀样本施加稳健约束,确保既有能力不被削弱。
多维度的实验评估充分验证了该框架的优势。在处理数学推理与SQL查询生成任务时,采用从70亿到320亿参数的不同规模模型进行测试,结果一致显示DPH-RL不仅完美解决了多样性缺失问题,还在初始准确率与重复成功率两项关键指标上双双取得突破性进展。以Llama-3.1-8B模型执行SQL任务为例,传统GRPO方法的Pass@8评分下跌2.6%,而DPH-JS方法却实现了1.7%的提升。在跨领域适应性测试中,传统方法性能急剧波动,新框架则展现出惊人的稳定性。
在AIME24数学竞赛题的测试中,传统GRPO方法将基础模型的40%Pass@64成绩拉低至33.3%,DPH-JS方法不仅守住了原有水平,在其他数学数据集测试中还稳步提升了表现。研究还揭示了一个极具价值的发现:不同架构模型对强化学习的响应差异显著——Llama系模型提升空间有限且Pass@k指标下滑,而Qwen系模型却能同时提升20%左右的准确率与多样性指标,这为模型选型提供了重要参考。
从计算效率维度考量,DPH-RL框架展现出显著优势。传统散度计算需要维持在线参考模型,大幅增加了计算负担;新框架创新性地采用生成函数形式计算f-散度,仅需从初始策略采样,彻底免除了在线模型的消耗,训练效率获得质的飞跃。对不同f-散度的系统性对比研究表明,α-散度族能在正向KL与反向KL间取得理想平衡,实验数据显示随着α值增加,Pass@k评分持续走高,为研究人员提供了丰富的技术选择。
这项研究不仅带来了技术创新,更从根本上重塑了学术界对散度项作用的理解。传统认知将散度项视为消极的限制工具,而DPH-RL框架将其重新定义为积极的多样性保持机制。严格的数学理论证明显示,该框架具备更强化的单调改进保障,在特定条件下,单次策略更新的改进下限远超传统TRPO的分析结果,为方法的可靠性提供了坚实的数学基础。
在实际应用维度,DPH-RL框架为构建通用推理模型指明了新方向。当下大型模型应用日益广泛,保持解答多样性与泛化能力至关重要。本研究的成功实践表明,通过精心设计的训练方法,完全可以在提升模型性能的同时避免能力退化。这项研究也为强化学习在大模型训练中的应用提供了宝贵启示:简单移植经典算法可能适得其反,必须充分考虑大模型的特有性质。
研究团队设计的验证实验匠心独运。他们构建了一个能输出五种解题风格的基础模型,分别采用传统方法与新方法进行训练。结果显示传统方法训练的模型近99%情况仅输出一种风格,而正向KL散度训练的模型约60%情况下能产生三种以上不同风格解答。进一步的保持率和探索率分析揭示,传统方法在正确样本和错误样本上的保持率同时下滑,导致严重的遗忘效应;反之,KL散度约束方法通过提高保持率持续优化得分表现。
来源:https://www.itbear.com.cn/html/2025-09/955188.html
免责声明:
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
热门推荐
智能文本处理引擎在文本分类中有哪些优点呢
智能文本处理引擎在文本分类中的优点 提到文本分类,很多人首先想到的是海量数据和繁琐的人工标注。但智能文本处理引擎的出现,正在彻底改变这一局面。那么,它究竟带来了哪些实实在在的优势呢?以下几个方面,或许能给你清晰的答案。 高效性 面对成山堆的文本数据,人工逐篇审阅分类的效率瓶颈显而易见。智能文本处理引
快递面单识别应用了哪些OCR技术
快递面单OCR识别:让物流信息“开口说话”的技术 在现代物流体系中,让一纸面单上的信息快速、准确地“活”起来,是提升效率的关键。这背后,倚赖的正是光学字符识别技术,也就是我们常说的OCR。这项技术的核心任务很明确:把快递面单上印刷或手写的文字信息,通过图像扫描转化为计算机能直接理解和处理的数字格式,
什么是半监督信息抽取?
半监督信息抽取 信息抽取这事儿,如果纯靠人工标注,耗时费力;如果全无监督,效果又难以保证。于是,一种折中且高效的策略应运而生——半监督信息抽取。它巧妙地将监督学习与无监督学习的优势结合了起来。 那么,它具体是如何运作的呢?简单说,就是先由人工“播种”。研究者会预先定义好需要抽取的关系类型,并手动添加
超级自动化平台是什么?
超级自动化平台:企业效率革命的核心引擎 如果说单一的工具是解决特定问题的“螺丝刀”,那么超级自动化平台,就是为企业提供的一整套“智能工具箱”。它并非某项孤立的技术,而是集机器人流程自动化、人工智能、机器学习等多种能力于一身的综合性解决方案。更关键的是,它还集成了低代码开发、智能流程编排与数据分析等功
多个平台店铺的财务账单核对
多平台电商店铺财务账单核对指南 在多个电商平台同时运营店铺,财务账单的核对工作是一项不小的挑战。这事儿有多重要,想必各位掌柜都深有体会。今天,咱们就来系统地聊聊,怎么把这份复杂的工作变得清晰、高效。 一、统一数据格式:打好基础第一步 想象一下,面对来自不同平台、格式各异的报表,光是“对齐口径”就能让