强化学习新突破FusionBrain团队让AI多思路并行思考

首页

热心网友

转载

2026-05-14

2026年2月，俄罗斯FusionBrain实验室与数值数学研究所的研究团队发布了一项突破性成果（论文arXiv:2602.05281v2），提出了一种名为ProGRPO的创新AI训练方法。该方法精准瞄准了大型语言模型在推理学习中的核心痛点：模型容易陷入思维定式，导致训练后期思路越练越窄，多样性显著下降。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

FusionBrain团队发明了一种让AI更聪明地

在AI求解数学题等复杂推理任务时，研究者常观察到一种现象：模型初期可能尝试多种路径，但随着强化学习训练的推进，它会逐渐固化于某一种看似“稳妥”的解法，最终丧失探索能力。这类似于一个学生，发现某种解题思路得分稳定后，便不再尝试其他可能同样正确的创新方法。

技术层面，这被称为“策略熵坍塌”或“模式坍塌”。其根本原因在于，传统的基于策略梯度的强化学习机制会不断放大当前最高回报路径的概率，从而抑制了其他潜在正确解法的探索空间。

核心机制：动态奖励调节，打破思维固化

ProGRPO的核心突破在于引入了一套“基于置信度的优势重新加权”机制。简单来说，系统会实时评估模型对自身生成答案的“信心度”，并据此动态调整奖励信号：对模型过度自信的答案路径适当降低奖励，而对那些模型信心不足但实际正确的替代路径则给予更多鼓励。

这好比一位智慧的老师，不仅认可标准答案，更会特意鼓励那些思路新颖、但学生尚不确定的解法，从而有效保护和激发思维的多样性，防止“一招鲜”的思维僵化。

研究团队用“平衡木表演”来生动类比：传统方法如同让所有演员挤向天平一端，导致失衡；而ProGRPO则像一位敏锐的指挥，根据天平实时倾斜状态动态调整演员站位，从而维持整体平衡与表演形式的丰富性。

如何量化“信心”？两大评估指标

实现动态平衡的前提是准确量化模型的“信心”。研究团队设计了两大核心评估指标：

提示困惑度：衡量模型对输入问题本身的熟悉程度。类似于学生审题时的直觉反应——是“驾轻就熟”还是“似曾相识”。

答案信心度：评估模型对自身所生成答案的确信程度。好比学生完成作答后，内心是“胸有成竹”还是“犹豫不决”。

这里涉及一项关键技术细节：团队采用了“低概率词元长度标准化”处理。该技术旨在区分文本生成中的“功能词”与“推理词”。像“因此”、“答案是”这类高频功能词，模型选择它们几乎无需费力；而真正体现推理难度的，是那些需要深思熟虑的关键词。传统方法将二者混为一谈评估信心，有失公允。新方法则聚焦于约占总词数20%的“低概率关键推理词元”，由此得出的信心度更能真实反映模型的推理质量与不确定性。

实际效果：数学推理与代码生成能力双提升

在数学推理任务上的实验结果极具说服力。以Qwen2.5-7B模型为例，采用ProGRPO方法后，其一次性答对率（Pass@1）相比传统GRPO提升了5.7%；而在允许尝试32次的场景下，至少答对一次的概率（Pass@32）更是大幅提升了13.9%。

这两个指标的对比意义重大：Pass@1提升代表基础准确性得以保持；而Pass@32的显著提升则证明模型掌握了多种正确的解题路径，而非仅固守一种。这直接验证了ProGRPO在促进解法多样性方面的有效性。

在包括AIME 2024/2025、AMC 23、MATH500等多个高难度数学竞赛数据集上，ProGRPO均展现出稳定优势。尤其在最具挑战性的AIME 2024数据集上，其Pass@1达到21.3%，比对比方法FlowRL高出12.1个百分点；Pass@32达到53.3%，显著超越所有基线模型。

不仅如此，在代码生成任务上，ProGRPO同样表现卓越。在LiveCodeBench、CodeForces和HumanEval+等编程评测集上均取得优异成绩。例如在CodeForces平台，经ProGRPO训练的模型评分达到1422.49（对应百分位排名75.4%），比传统GRPO高出近180分——这相当于从编程新手水平跃升至具备竞争力的中级开发者水平。

泛化能力与训练过程：更健康的学习动态

为了检验方法的泛化性，团队在MMLU-Pro和GPQA等分布外通用知识测试集上进行了验证。结果表明，ProGRPO相对于传统GRPO仍能保持性能优势，说明其提升并非过拟合于特定任务，而是增强了模型面对新问题的适应性与泛化推理能力。

从训练动态曲线观察，ProGRPO展现出独特的熵值变化模式：训练初期，输出多样性（熵）会合理下降，代表模型正在学习基本规则；随后，熵值开始回升并稳定在较高水平，表明模型在掌握基础后，重新开启了多样化解决方案的探索。相比之下，传统GRPO的输出熵会持续下降至接近零，清晰揭示了其思维日益僵化的趋势。

多样性的本质：是逻辑创新，而非措辞把戏

研究团队进一步深入分析了生成答案的多样性质量。通过计算Distinct-2、Self-BLEU和语义余弦相似度等指标发现：ProGRPO生成的正确答案，在词汇层面的多样性可能变化不大，但在语义和逻辑层面的多样性却显著提升。

这意味着，模型学会的是从不同角度、运用不同原理来解决同一问题，而非进行简单的同义词替换或句式调整。这才是具有实际价值的、深层次的思维多样性。

应用前景与理论贡献

这项研究的应用前景十分明确。当前的AI助手虽能力强大，但常给人以“死板”之感，倾向于用固定模式回应。ProGRPO方法有望让AI助手具备多路径推理能力，能够根据用户的具体上下文和偏好，提供真正多样化、个性化的解答方案。

在理论层面，它为强化学习中的经典困境——“探索与利用的权衡”——提供了新颖且实用的解决方案。传统方法往往过早收敛，过度“利用”当前最优策略；而ProGRPO通过基于置信度的奖励调节，在保证性能的前提下有效促进了“探索”，实现了更优的平衡。

论文中提供的理论分析证明，ProGRPO会收敛到一个“置信度均衡”状态，此时所有正确策略的置信度趋于相等，模型最终会以近似均匀的概率分布覆盖所有可行解，从而实现最大熵策略，从根本上避免了对单一解法的过度偏好。

技术细节、局限与更广的启示

实验设计严谨全面：不仅对比了传统GRPO，也与FlowRL等前沿方法进行了比较；并通过消融实验证实，提示困惑度与答案信心度两个指标结合使用至关重要，缺一不可。

方法中引入了一个关键超参数α，用于控制置信度调节的强度。实验表明，α=0.3时效果最佳，能在促进多样性和维持训练稳定性之间取得最佳平衡。

在计算效率方面，ProGRPO极具实用性。它无需引入额外的价值网络等复杂结构，仅在现有GRPO框架上增加了轻量的置信度计算，训练开销增加微乎其微，便于在实际场景中部署。

当然，方法也存在其边界：效果高度依赖于置信度评估的准确性；低概率词元的识别阈值可能需要针对不同任务进行微调；在数学和编程之外的其他复杂推理任务上的普适性，仍有待未来更多研究验证。

从更广阔的视野看，这项研究契合了AI发展的一个重要趋势：从单纯追求准确率指标，转向追求模型的泛化性、鲁棒性、可解释性及创造性等多维度能力的综合提升。ProGRPO正是这一理念的优秀实践。

其思想甚至对教育领域具有启发意义。人类学习同样容易形成思维定式。ProGRPO的成功提示我们，在教学评价中，有意识地“奖励思维的多样性”，鼓励学生探索不同的解题路径，或许能有效打破认知僵局，培养更具创新性的思考者。

总结

总而言之，ProGRPO为解决AI推理中的多样性缺失与思维固化问题，提供了一个原理清晰、实现高效且效果显著的方案。通过巧妙利用模型自身的置信度信号进行动态奖励调节，它成功地在探索与利用之间找到了更优的平衡点，让AI在保持高准确性的同时，焕发出更丰富的创造性。这不仅是一项精巧的技术创新，更是对AI学习机制的深刻洞察与成功应用。随着此类方法的持续演进，我们有望迎来更加智能、灵活且真正具备多路径解决问题能力的下一代AI系统。

Q&A

Q1：ProGRPO方法是什么？

A：ProGRPO是一种创新的AI模型训练方法，专门用于解决大型语言模型在强化学习过程中容易出现的思维僵化问题。它通过动态评估模型对答案的信心，并据此调整奖励，鼓励模型探索并掌握多种正确的解决方案，从而提升思维的灵活性与多样性。

Q2：这个方法比传统方法好在哪里？

A：传统强化学习方法容易导致模型过早收敛于单一策略，陷入“思维定式”。ProGRPO的核心优势在于，它能在维持高单次答对率（Pass@1）的同时，显著提升模型在多次尝试中的成功概率（Pass@32）。例如在Qwen2.5-7B模型上，Pass@32指标提升了13.9%，这证明模型真正学会了用多种不同方式正确解决同一问题，而非仅记忆一种套路。

Q3：ProGRPO方法适用于哪些任务？

A：目前该方法已在需要复杂逻辑推理的数学问题求解和代码生成任务上得到充分验证，在AIME、AMC、CodeForces等多个权威竞赛级数据集上表现优异。其设计理念具有通用性，未来有潜力扩展到科学推理、逻辑分析、创意写作等任何需要避免思维单一化的AI应用场景中。

来源:https://www.techwalker.com/2026/0316/3181216.shtml

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：新西伯利亚大学推出Pisets系统让机器精准识别语音内容下一篇：即梦AI水彩效果生成教程轻松模拟手绘质感