首页 游戏 软件 资讯 排行榜 专题
首页
AI
强化学习新突破FusionBrain团队让AI多思路并行思考

强化学习新突破FusionBrain团队让AI多思路并行思考

热心网友
62
转载
2026-05-14

2026年2月,俄罗斯FusionBrain实验室与数值数学研究所的研究团队发布了一项突破性成果(论文arXiv:2602.05281v2),提出了一种名为ProGRPO的创新AI训练方法。该方法精准瞄准了大型语言模型在推理学习中的核心痛点:模型容易陷入思维定式,导致训练后期思路越练越窄,多样性显著下降。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

FusionBrain团队发明了一种让AI更聪明地

在AI求解数学题等复杂推理任务时,研究者常观察到一种现象:模型初期可能尝试多种路径,但随着强化学习训练的推进,它会逐渐固化于某一种看似“稳妥”的解法,最终丧失探索能力。这类似于一个学生,发现某种解题思路得分稳定后,便不再尝试其他可能同样正确的创新方法。

技术层面,这被称为“策略熵坍塌”或“模式坍塌”。其根本原因在于,传统的基于策略梯度的强化学习机制会不断放大当前最高回报路径的概率,从而抑制了其他潜在正确解法的探索空间。

核心机制:动态奖励调节,打破思维固化

ProGRPO的核心突破在于引入了一套“基于置信度的优势重新加权”机制。简单来说,系统会实时评估模型对自身生成答案的“信心度”,并据此动态调整奖励信号:对模型过度自信的答案路径适当降低奖励,而对那些模型信心不足但实际正确的替代路径则给予更多鼓励。

这好比一位智慧的老师,不仅认可标准答案,更会特意鼓励那些思路新颖、但学生尚不确定的解法,从而有效保护和激发思维的多样性,防止“一招鲜”的思维僵化。

研究团队用“平衡木表演”来生动类比:传统方法如同让所有演员挤向天平一端,导致失衡;而ProGRPO则像一位敏锐的指挥,根据天平实时倾斜状态动态调整演员站位,从而维持整体平衡与表演形式的丰富性。

如何量化“信心”?两大评估指标

实现动态平衡的前提是准确量化模型的“信心”。研究团队设计了两大核心评估指标:

提示困惑度:衡量模型对输入问题本身的熟悉程度。类似于学生审题时的直觉反应——是“驾轻就熟”还是“似曾相识”。

答案信心度:评估模型对自身所生成答案的确信程度。好比学生完成作答后,内心是“胸有成竹”还是“犹豫不决”。

这里涉及一项关键技术细节:团队采用了“低概率词元长度标准化”处理。该技术旨在区分文本生成中的“功能词”与“推理词”。像“因此”、“答案是”这类高频功能词,模型选择它们几乎无需费力;而真正体现推理难度的,是那些需要深思熟虑的关键词。传统方法将二者混为一谈评估信心,有失公允。新方法则聚焦于约占总词数20%的“低概率关键推理词元”,由此得出的信心度更能真实反映模型的推理质量与不确定性。

实际效果:数学推理与代码生成能力双提升

在数学推理任务上的实验结果极具说服力。以Qwen2.5-7B模型为例,采用ProGRPO方法后,其一次性答对率(Pass@1)相比传统GRPO提升了5.7%;而在允许尝试32次的场景下,至少答对一次的概率(Pass@32)更是大幅提升了13.9%。

这两个指标的对比意义重大:Pass@1提升代表基础准确性得以保持;而Pass@32的显著提升则证明模型掌握了多种正确的解题路径,而非仅固守一种。这直接验证了ProGRPO在促进解法多样性方面的有效性。

在包括AIME 2024/2025、AMC 23、MATH500等多个高难度数学竞赛数据集上,ProGRPO均展现出稳定优势。尤其在最具挑战性的AIME 2024数据集上,其Pass@1达到21.3%,比对比方法FlowRL高出12.1个百分点;Pass@32达到53.3%,显著超越所有基线模型。

不仅如此,在代码生成任务上,ProGRPO同样表现卓越。在LiveCodeBench、CodeForces和HumanEval+等编程评测集上均取得优异成绩。例如在CodeForces平台,经ProGRPO训练的模型评分达到1422.49(对应百分位排名75.4%),比传统GRPO高出近180分——这相当于从编程新手水平跃升至具备竞争力的中级开发者水平。

泛化能力与训练过程:更健康的学习动态

为了检验方法的泛化性,团队在MMLU-Pro和GPQA等分布外通用知识测试集上进行了验证。结果表明,ProGRPO相对于传统GRPO仍能保持性能优势,说明其提升并非过拟合于特定任务,而是增强了模型面对新问题的适应性与泛化推理能力。

从训练动态曲线观察,ProGRPO展现出独特的熵值变化模式:训练初期,输出多样性(熵)会合理下降,代表模型正在学习基本规则;随后,熵值开始回升并稳定在较高水平,表明模型在掌握基础后,重新开启了多样化解决方案的探索。相比之下,传统GRPO的输出熵会持续下降至接近零,清晰揭示了其思维日益僵化的趋势。

多样性的本质:是逻辑创新,而非措辞把戏

研究团队进一步深入分析了生成答案的多样性质量。通过计算Distinct-2、Self-BLEU和语义余弦相似度等指标发现:ProGRPO生成的正确答案,在词汇层面的多样性可能变化不大,但在语义和逻辑层面的多样性却显著提升。

这意味着,模型学会的是从不同角度、运用不同原理来解决同一问题,而非进行简单的同义词替换或句式调整。这才是具有实际价值的、深层次的思维多样性。

应用前景与理论贡献

这项研究的应用前景十分明确。当前的AI助手虽能力强大,但常给人以“死板”之感,倾向于用固定模式回应。ProGRPO方法有望让AI助手具备多路径推理能力,能够根据用户的具体上下文和偏好,提供真正多样化、个性化的解答方案。

在理论层面,它为强化学习中的经典困境——“探索与利用的权衡”——提供了新颖且实用的解决方案。传统方法往往过早收敛,过度“利用”当前最优策略;而ProGRPO通过基于置信度的奖励调节,在保证性能的前提下有效促进了“探索”,实现了更优的平衡。

论文中提供的理论分析证明,ProGRPO会收敛到一个“置信度均衡”状态,此时所有正确策略的置信度趋于相等,模型最终会以近似均匀的概率分布覆盖所有可行解,从而实现最大熵策略,从根本上避免了对单一解法的过度偏好。

技术细节、局限与更广的启示

实验设计严谨全面:不仅对比了传统GRPO,也与FlowRL等前沿方法进行了比较;并通过消融实验证实,提示困惑度与答案信心度两个指标结合使用至关重要,缺一不可。

方法中引入了一个关键超参数α,用于控制置信度调节的强度。实验表明,α=0.3时效果最佳,能在促进多样性和维持训练稳定性之间取得最佳平衡。

在计算效率方面,ProGRPO极具实用性。它无需引入额外的价值网络等复杂结构,仅在现有GRPO框架上增加了轻量的置信度计算,训练开销增加微乎其微,便于在实际场景中部署。

当然,方法也存在其边界:效果高度依赖于置信度评估的准确性;低概率词元的识别阈值可能需要针对不同任务进行微调;在数学和编程之外的其他复杂推理任务上的普适性,仍有待未来更多研究验证。

从更广阔的视野看,这项研究契合了AI发展的一个重要趋势:从单纯追求准确率指标,转向追求模型的泛化性、鲁棒性、可解释性及创造性等多维度能力的综合提升。ProGRPO正是这一理念的优秀实践。

其思想甚至对教育领域具有启发意义。人类学习同样容易形成思维定式。ProGRPO的成功提示我们,在教学评价中,有意识地“奖励思维的多样性”,鼓励学生探索不同的解题路径,或许能有效打破认知僵局,培养更具创新性的思考者。

总结

总而言之,ProGRPO为解决AI推理中的多样性缺失与思维固化问题,提供了一个原理清晰、实现高效且效果显著的方案。通过巧妙利用模型自身的置信度信号进行动态奖励调节,它成功地在探索与利用之间找到了更优的平衡点,让AI在保持高准确性的同时,焕发出更丰富的创造性。这不仅是一项精巧的技术创新,更是对AI学习机制的深刻洞察与成功应用。随着此类方法的持续演进,我们有望迎来更加智能、灵活且真正具备多路径解决问题能力的下一代AI系统。

Q&A

Q1:ProGRPO方法是什么?

A:ProGRPO是一种创新的AI模型训练方法,专门用于解决大型语言模型在强化学习过程中容易出现的思维僵化问题。它通过动态评估模型对答案的信心,并据此调整奖励,鼓励模型探索并掌握多种正确的解决方案,从而提升思维的灵活性与多样性。

Q2:这个方法比传统方法好在哪里?

A:传统强化学习方法容易导致模型过早收敛于单一策略,陷入“思维定式”。ProGRPO的核心优势在于,它能在维持高单次答对率(Pass@1)的同时,显著提升模型在多次尝试中的成功概率(Pass@32)。例如在Qwen2.5-7B模型上,Pass@32指标提升了13.9%,这证明模型真正学会了用多种不同方式正确解决同一问题,而非仅记忆一种套路。

Q3:ProGRPO方法适用于哪些任务?

A:目前该方法已在需要复杂逻辑推理的数学问题求解和代码生成任务上得到充分验证,在AIME、AMC、CodeForces等多个权威竞赛级数据集上表现优异。其设计理念具有通用性,未来有潜力扩展到科学推理、逻辑分析、创意写作等任何需要避免思维单一化的AI应用场景中。

来源:https://www.techwalker.com/2026/0316/3181216.shtml
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

强化学习新突破FusionBrain团队让AI多思路并行思考
AI
强化学习新突破FusionBrain团队让AI多思路并行思考

2026年2月,俄罗斯FusionBrain实验室与数值数学研究所的研究团队发布了一项突破性成果(论文arXiv:2602 05281v2),提出了一种名为ProGRPO的创新AI训练方法。该方法精准瞄准了大型语言模型在推理学习中的核心痛点:模型容易陷入思维定式,导致训练后期思路越练越窄,多样性显著

热心网友
05.14
GigaBrain-0.5M世界模型发布:机器人先思考后行动的革命性突破
AI
GigaBrain-0.5M世界模型发布:机器人先思考后行动的革命性突破

当人类面对复杂任务时,大脑会本能地进行预演:伸手取物前会模拟动作轨迹,烹饪前会规划步骤顺序。相比之下,传统机器人更像“条件反射者”,只能对即时画面做出反应,缺乏前瞻性规划。GigaAI团队在2026年2月发布的研究,首次为机器人赋予了类似人类的“预见性思维”——它能在行动前,在内部模型中模拟未来场景

热心网友
05.12
Y Combinator总裁开源AI记忆系统GBrain个人生产级应用
业界动态
Y Combinator总裁开源AI记忆系统GBrain个人生产级应用

在AI Agent领域,让机器拥有“长期记忆”一直是个棘手的问题。传统的向量数据库解决了“记住”的问题,但离真正的“理解”和“推理”还差得远。最近,Y Combinator总裁Garry Tan开源了他的个人生产级解决方案——GBrain,直接把一个经过实战考验的AI记忆系统摆在了开发者面前。 简单

热心网友
05.12
Brain Behind : Live Chat & Chat Bot for your website & Mobile Apps
AI
Brain Behind : Live Chat & Chat Bot for your website & Mobile Apps

需求人群 如果你正苦于网站或移动应用上的客户咨询像潮水般涌来,人工客服实在应接不暇,那么,这个工具就是为你准备的。它尤其适用于那些需要处理实时客户互动、并提供即时支持的团队,无论是电商、在线服务,还是技术支持领域,都能找到它的用武之地。 产品特色 第一个核心亮点,是它能让你“面对面”地与访客即时对话

热心网友
05.01
Board Brain- 基于人工智能的国际象棋训练助手
AI
Board Brain- 基于人工智能的国际象棋训练助手

AI驱动的国际象棋训练伙伴,用于棋局分析与水平提升。 什么是Board Brain? 简单来说,Board Brain是一位全天候在线的AI国际象棋教练。它的核心任务,是帮助棋手深度解析自己的对局,提供智能化的棋评,并通过互动聊天解答疑问。最实用的一点,是它能精准定位一局棋中的关键转折点——那些左右

热心网友
04.30

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

马中新能源论坛探讨产业合作与人才培养新路径
科技数码
马中新能源论坛探讨产业合作与人才培养新路径

5月12日,马来西亚吉隆坡成功举办了一场具有前瞻性的行业盛会——中国-马来西亚电动汽车、电池技术与新能源人才创新发展论坛。来自两国政府部门、领军企业、顶尖高校及国际组织的代表共聚一堂,深入交流了在未来产业协同、清洁能源技术创新及高端人才培养等核心领域的合作路径与机遇。 马来西亚第一副总理兼乡村及区域

热心网友
05.14
智元APC香港观察:具身智能如何成为先进生产力单元
科技数码
智元APC香港观察:具身智能如何成为先进生产力单元

具身智能要迈过的第一道硬门槛,从来都是量产。 过去几年,全球人形机器人行业反复印证了这一点:舞台演示可以很快,工程验证可以很快,视频传播也可以很快。但当一台机器人要从实验室走向产线,再走向客户现场,问题的复杂度会呈指数级上升。 特斯拉的Optimus就是一个典型的参照系。马斯克多次表达过对Optim

热心网友
05.14
AI回答第一个字就暴露真假?识别AI胡说八道的关键信号
科技数码
AI回答第一个字就暴露真假?识别AI胡说八道的关键信号

向朋友问路时,如果对方清楚路线,通常会立刻回答“直走然后左转”。但如果对方并不确定,往往会先停顿一下,犹豫地说“呃……好像是……往那边?”。这个开口前的短暂迟疑,往往比最终给出的答案更能说明问题——对方是否真的知道答案。 近期,美国天普大学计算机与信息科学系的一项研究,正是捕捉到了AI回答问题时类似

热心网友
05.14
浙江大学万能分割学习器技术原理与应用场景详解
科技数码
浙江大学万能分割学习器技术原理与应用场景详解

这项由浙江大学、华南理工大学、南京大学和北京大学联合开展的前沿研究,于2026年4月正式发布,其论文预印本编号为arXiv:2604 24575。 图像分割技术听起来或许有些专业,但它早已深度融入我们的日常生活。无论是智能手机拍摄的背景虚化人像、AI系统在CT影像中精准勾勒病灶轮廓,还是自动驾驶汽车

热心网友
05.14
比亚迪大汉纯电续航1000公里对标56E车型参数曝光
科技数码
比亚迪大汉纯电续航1000公里对标56E车型参数曝光

“大唐”预售热潮尚未平息,“大汉”已蓄势待发,比亚迪王朝系列正以前所未有的攻势,叩响高端市场的大门。 在北京车展引发轰动的比亚迪大唐,预售订单已迅速突破10万台大关,彰显了市场对比亚迪高端产品的强烈期待。而最新信息显示,汉家族即将迎来一位重磅新成员——“大汉”,这款定位D级旗舰的轿车,目标直指20-

热心网友
05.14