首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
Nebius团队发布智能化多目标强化学习新方法,提升效率

Nebius团队发布智能化多目标强化学习新方法,提升效率

热心网友
53
转载
2026-02-13


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

这项由Nebius公司和The Humanoid公司联合完成的研究发表于2026年2月,论文编号为arXiv:2602.10231v1。该研究提出了一种名为"Blockwise Advantage Estimation"的全新方法,专门解决大型语言模型在复杂任务中的奖励分配问题。

想象一下,你正在教一个学生解数学题。这道题需要学生先写出解题步骤,然后给出答案,最后评估自己的信心程度。传统的教学方法就像是给整个过程一个总分,无法告诉学生哪个环节做得好,哪个环节需要改进。而这项研究就像是为每个环节分别打分的智慧老师,能够精确地指出学生在解题、答题、自我评估这三个不同阶段的表现。

当前的AI训练方法面临一个根本性问题:它们通常把一个复杂任务当作一个整体来评价和奖励。就好比一位老师给学生的整篇作文只打一个总分,而不分别评价开头、论证过程和结尾的质量。这种做法会导致AI无法准确理解哪个部分做得好,哪个部分需要改进,从而影响学习效果。

研究团队发现,许多AI任务实际上都具有天然的分段特征。比如在数学问题求解中,AI需要先生成解题过程,然后给出最终答案,最后报告对答案的信心程度。每个段落都有不同的目标:第一段追求准确性,第二段追求正确答案,第三段追求对不确定性的准确估计。如果用一个单一的奖励信号来指导所有段落,就会造成目标之间的相互干扰。

这就好比一位厨师在做一道需要多个步骤的菜品:切菜需要整齐,炒制需要火候适中,调味需要恰到好处。如果只根据最终菜品的味道来评判厨师在每个步骤的表现,厨师就无法知道问题出在哪个环节,也就难以针对性地改进技能。

**一、核心创新:分块优势估计方法**

研究团队提出的"分块优势估计"方法就像是给AI配备了一位细致入微的导师。这位导师不再简单粗暴地给整体表现打分,而是针对每个具体环节给出精准的反馈。

这种方法的工作原理可以用烹饪课堂来类比。传统方法就像是老师尝了最终菜品后,对学生说"这道菜不好吃,所有步骤都要改进"。而新方法则像是老师全程观察,分别评价"你的切菜技术很棒,火候掌握得当,但调料放得过多了"。这样,学生就知道要保持前两个优点,重点改进调味技巧。

在技术实现上,研究团队将AI生成的内容划分为不同的文本块,每个块对应一个特定的目标。然后,系统为每个文本块计算独立的优势分数,确保每个部分都能收到针对其特定功能的准确反馈。这种方法避免了传统单一奖励信号可能造成的目标冲突和错误归因问题。

更重要的是,这种方法与现有的群组相对策略优化技术完全兼容。群组相对策略优化是一种内存高效的AI训练方法,它通过比较同一组样本的表现来进行学习,而不需要额外的价值网络。新方法在保持这种高效性的同时,显著提升了学习的精确度。

**二、技术挑战:条件基线估计的巧妙解法**

在实施分块奖励时,研究团队遇到了一个重要的技术挑战。这个挑战就像是在接力赛中给每一棒选手打分:后面的选手接到的接力棒状态不同,直接比较他们的表现是不公平的。

具体来说,当AI生成一个多段落的回答时,后面段落的质量往往取决于前面段落的内容。比如,如果第一段的数学解题过程是错误的,那么第二段的信心评估就应该相应地调整期望值。简单地用所有样本的平均表现作为基准是不合适的,就好比用所有学生的平均成绩来评价每个学生,而忽视了他们面临的题目难度可能不同。

研究团队提出了一个叫做"结果条件基线"的巧妙解决方案。这个方法就像是把学生按照他们遇到的题目类型进行分组,然后在组内进行比较。比如,所有解对了前面步骤的学生归为一组,解错了的归为另一组,然后分别在组内评价他们后续步骤的表现。

这种分组策略的核心思想是:如果两个AI样本在前面阶段达到了相同的中间结果(比如都得到了正确答案),那么它们在后续阶段的表现就具有可比性。通过这种方式,系统可以更准确地估计每个阶段的期望表现,从而给出更精准的奖励信号。

实验表明,这种结果条件基线比简单的组均值基线更接近真实的蒙特卡罗估计,同时又避免了蒙特卡罗方法需要额外采样的计算开销。这就好比找到了一种既准确又高效的评分方法,不需要额外的考试就能给出公正的评价。

**三、数学自信度评估:实际应用的典型案例**

为了验证新方法的有效性,研究团队选择了数学问题求解中的自信度评估作为主要测试场景。这个场景特别适合展示分块方法的优势,因为它天然地包含了两个截然不同的目标:求解准确性和信心校准。

在这个应用中,AI需要完成三个连续的任务。首先,它要像学生解题一样,写出详细的推理过程并给出最终答案。接着,它需要分析自己解题过程的可靠性,识别可能的错误点。最后,它要给出一个0到1之间的数字,表示对答案正确性的信心程度。

传统的训练方法会把这三个环节的表现混合成一个单一的奖励信号。这就好比老师给学生的试卷只打一个总分,不区分解题过程分、答案分和自我评估分。这种做法的问题在于,如果学生答对了题目但信心评估不准确,或者信心评估很好但答案错误,系统都无法准确识别具体的改进方向。

而新方法则像是配备了专业分工的评判团队。解题过程由专注准确性的评委评分,信心评估由专注校准性的评委评分。每个评委都有自己的专业标准,不会被其他方面的表现干扰。这样,AI就能收到更精确的反馈信号,知道在哪个方面需要重点改进。

研究团队使用了多个不同规模的语言模型进行实验,包括Qwen2.5系列的3B、7B基础版和指令版模型。实验涵盖了多个数学数据集,从相对简单的小学数学问题到高难度的数学竞赛题目,全面测试了方法在不同复杂度下的表现。

**四、实验结果:显著提升的性能表现**

实验结果展现了新方法的显著优势。在数学问题求解的准确性方面,使用结果条件基线的模型表现与当前最先进的方法相当,有时甚至略有超越。更重要的是,在信心校准方面,新方法显示出了明显的改进。

校准质量可以用一个叫做"期望校准误差"的指标来衡量。这个指标就像是测量AI的"自知之明"程度。如果AI说自己有80%的把握答对某题,那么在所有它给出80%信心的题目中,应该确实有大约80%是正确的。期望校准误差越小,说明AI的自我评估越准确。

实验显示,在主要测试集上,新方法将期望校准误差从5.9%降低到3.0%,这是一个相当显著的改进。这意味着AI对自己能力的认知变得更加准确,既不会过度自信,也不会过度谦虚。

更令人鼓舞的是,这种改进在不同难度的测试中都保持了一致性。无论是面对简单的基础题目,还是困难的竞赛级问题,新方法训练的AI都表现出了更好的自我认知能力。这说明方法的改进是根本性的,不是针对特定类型问题的局部优化。

研究团队还测试了模型在测试时刻的扩展能力。这就像是让学生在考试时可以多做几遍同一道题,然后选择最有信心的答案。结果显示,使用新方法训练的AI在这种测试策略下表现更好,证明了其信心评估的实用价值。

**五、方法的普适性:双次尝试改进实验**

为了证明新方法不仅仅适用于信心评估,研究团队还设计了另一个实验场景:双次尝试改进。这个场景模拟的是学生做题时的自我纠错过程。

在这个设置中,AI首先尝试解决一个数学问题,给出初步的答案。然后,它需要反思自己的解答过程,识别可能的错误,并给出改进后的答案。这种情况在现实中很常见,就像是学生做完题后检查答案,发现问题后进行修正。

这个场景同样具有明显的分块特征:第一次尝试主要考验基础解题能力,第二次尝试则考验自我反思和错误纠正能力。两个阶段有不同的目标和评价标准,应该接受不同的训练信号。

实验结果表明,新方法在这个场景下同样表现出色。AI的第二次尝试相比第一次尝试有了明显改进,而且这种改进在不同的测试策略下都保持稳定。这证明了方法的通用性,它不是专门为某个特定任务设计的,而是一个可以广泛应用的通用框架。

**六、技术优势:与现有方法的深度比较**

与现有技术相比,新方法具有多个显著优势。首先是计算效率方面的优势。传统的精确方法需要额外的蒙特卡罗采样来估计中间状态的价值,这在处理长文本和复杂任务时会带来巨大的计算开销。新方法通过巧妙的分组策略,仅使用已有的样本就能得到准确的估计,避免了额外的计算负担。

其次是训练稳定性的改进。单一奖励信号容易导致训练过程中的目标冲突,就像是让一个人同时追求跑得快和跑得稳,往往会导致两个目标都无法很好实现。分块方法通过目标分离,让每个部分专注于自己的职责,避免了这种冲突。

第三是可扩展性优势。随着AI任务变得越来越复杂,涉及的步骤和目标也越来越多。传统的单一奖励设计会变得极其复杂,需要大量的人工调试来平衡不同目标的权重。而新方法提供了一个模块化的框架,可以自然地扩展到更多的目标和更复杂的任务。

研究团队还特别测试了方法在不同奖励函数下的表现。他们发现,即使使用不同的数学形式来定义信心评估的奖励(比如用交叉熵损失替代布莱尔评分),新方法依然表现出色。这说明方法的核心优势来自于架构设计,而不依赖于特定的奖励函数形式。

**七、实践意义:走向更智能的AI系统**

这项研究的意义远超出了技术层面的改进。它为构建更智能、更可靠的AI系统提供了重要思路。在现实应用中,我们往往需要AI不仅能给出答案,还能评估自己答案的可靠性。这种自我认知能力对于AI系统的安全性和实用性至关重要。

比如在医疗诊断辅助系统中,AI不仅要给出诊断建议,还要准确评估这个建议的可信度。如果AI对自己的局限性有准确认知,医生就能更好地判断何时相信AI的建议,何时需要进行额外检查。这种校准良好的不确定性评估可能比提高几个百分点的准确率更有价值。

在教育领域,这种技术可以帮助开发更好的智能辅导系统。AI导师不仅要能解题,还要能识别学生的困惑点,评估不同解释方法的有效性。分块训练方法可以让AI在解题、解释、评估这些不同任务上都达到专业水平。

从长远来看,这种方法为开发更复杂的AI代理系统铺平了道路。未来的AI系统需要处理包含数十甚至数百个步骤的复杂任务,每个步骤都可能有不同的目标和约束。分块优势估计提供了一个可扩展的框架,使得这种复杂系统的训练变得可行。

**八、局限性与未来发展方向**

尽管新方法表现出色,但研究团队也诚实地指出了其局限性。首先,方法的有效性依赖于任务的自然分段特征。如果一个任务无法清晰地划分为不同的功能块,那么方法的优势就会减弱。这就好比有些工作是高度整合的,很难拆分成独立的步骤进行评估。

其次,结果条件基线的效果取决于分组策略的合理性。如果选择的分组标准不能很好地反映任务的本质结构,可能会引入偏差。这需要对具体应用领域有深入理解,不是一个完全自动化的过程。

第三,当某个结果类别的样本数量很少时,基线估计的方差会增大,可能影响训练效果。这在处理罕见情况或边缘案例时尤其明显。

针对这些局限性,研究团队提出了多个潜在的改进方向。首先是开发更智能的自动分段方法,能够根据任务特征自动识别最优的分块策略。其次是设计更鲁棒的基线估计方法,在样本数量不足时能够借助全局信息进行平滑。

另一个有趣的方向是将这种思想扩展到多层次的分块结构。就像俄罗斯套娃一样,大的任务块可以进一步细分为更小的子块,形成层次化的目标体系。这可能为处理极其复杂的任务提供新的思路。

研究团队还计划在更多的应用领域测试方法的有效性,包括代码生成、对话系统、内容创作等。他们特别希望看到这种方法在长篇幅生成任务中的表现,因为这类任务通常包含更多的自然分段结构。

说到底,这项研究代表了AI训练方法论的一次重要进步。它从根本上改变了我们思考多目标学习的方式,从粗放的整体优化转向精细的分段优化。这种思维方式的转变可能会启发更多创新,推动AI系统向更智能、更可靠的方向发展。

归根结底,就像一位优秀的老师会针对学生的不同方面给予专门指导一样,这项研究让AI训练也变得更加精准和高效。随着AI系统承担越来越复杂的任务,这种精细化的训练方法将变得愈发重要。它不仅能够提升AI的性能,更重要的是增强了AI系统的可解释性和可信度,为AI技术的广泛应用奠定了更坚实的基础。

Q&A

Q1:什么是分块优势估计方法?

A:分块优势估计是一种新的AI训练方法,它将复杂任务分解为多个功能块,为每个块单独计算奖励信号。就像给学生的作文分别评价开头、正文和结尾一样,而不是只给一个总分。这样AI就能知道在哪个环节表现好,哪个环节需要改进。

Q2:结果条件基线解决了什么问题?

A:它解决了后续环节评价不公平的问题。比如两个AI都要评估答案信心,但一个的前面答案是对的,另一个是错的,直接比较不合理。结果条件基线会把答案正确的AI归为一组,答案错误的归为另一组,然后在组内比较信心评估的好坏。

Q3:这种方法比传统训练方法有什么优势?

A:主要有三个优势:计算效率更高,不需要额外采样;训练更稳定,避免了不同目标之间的冲突;扩展性更好,可以轻松适应更复杂的多步骤任务。实验显示,在数学问题的信心评估上,期望校准误差从5.9%降低到3.0%。

来源:https://www.163.com/dy/article/KLLTK9TN0511DTVV.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

斯坦福团队新研究:合成数据助力RAG训练效果反超,成本大降
科技数码
斯坦福团队新研究:合成数据助力RAG训练效果反超,成本大降

在大模型商业化落地的进程中,医疗、金融等高精尖垂直领域,始终面临着一个核心难题:既要严控回答准确率、杜绝AI幻觉,又要控制部署成本,适配更多实际应用场景。长期以来,业内早已形成定论,检索增强生成(R

热心网友
03.28
Meta开源TRIBE v2模型:精准预测人脑多模态反应
科技数码
Meta开源TRIBE v2模型:精准预测人脑多模态反应

IT之家 3 月 28 日消息,科技媒体 The Decoder 昨日(3 月 27 日)发布博文,报道称 Meta 基础人工智能研究团队(FAIR)开源全新 AI 模型 TRIBE v2,可精准预

热心网友
03.28
Epalea人工智能突破:模拟人类律师高效处理多重证据的实战策略
科技数码
Epalea人工智能突破:模拟人类律师高效处理多重证据的实战策略

这项由Epalea公司研究团队完成的创新研究发表于2026年3月的arXiv预印本平台,论文编号为arXiv:2603 15674v1。该研究提出了一个名为 "潜在后验因子 "(LPF)的全新框架,旨在

热心网友
03.27
Anthropic新突破:用数学原理优化AI记忆,类脑智能能力提升
科技数码
Anthropic新突破:用数学原理优化AI记忆,类脑智能能力提升

这项由独立研究者Varun Pratap Bhardwaj完成的研究于2026年3月发表在arXiv预印本平台,论文编号为arXiv:2603 14588v1。该研究构建了一套完整的数学理论体系来解

热心网友
03.27
深入地下560米:硬核实验室的科学突破
科技数码
深入地下560米:硬核实验室的科学突破

  2024年9月,中国国家原子能机构在国际原子能机构第68届大会期间宣布,面向世界各国和全球南方,开放包括中国北山高放废物地质处置实验室(以下简称北山实验室)在内的12个核科研设施和实验平台。自此

热心网友
03.27

最新APP

暗黑之地
暗黑之地
角色扮演 03-28
你比我猜
你比我猜
休闲益智 03-26
锦绣商铺
锦绣商铺
模拟经营 03-26
儿童画画
儿童画画
休闲益智 03-25
疯狂猜词
疯狂猜词
休闲益智 03-25

热门推荐

揭秘中国联通:九成宽带已支持千兆,百大城市试点领先部署
网络安全
揭秘中国联通:九成宽带已支持千兆,百大城市试点领先部署

3月28日消息,中国联通近日发布2025年度业绩报告,在网络建设领域交出亮眼答卷。中国联通表示,公司持续落实信号升格、宽带升级相关举措,目前近九成宽带已具备千兆接入能力,万兆光网更在全国100多个城

热心网友
03.28
163邮箱登录指南:个人版与手机网页版入口详解
电脑教程
163邮箱登录指南:个人版与手机网页版入口详解

163邮箱个人版登录入口为https: mail 163 com,支持网页及手机浏览器直接访问,提供手机号、邮箱账号、扫码三种登录方式,界面简洁,功能齐全,适配多终端使用。163

热心网友
03.28
冒险岛:3步设置游戏键盘,社区玩家必备指南
手机教程
冒险岛:3步设置游戏键盘,社区玩家必备指南

在冒泡社区中,设置键盘能为用户带来更便捷、舒适的操作体验。以下是详细的设置方法。首先,打开冒泡社区应用程序。进入社区主界面后,找到屏幕上的设置选项。这通常可以在界面的某个角落,以一

热心网友
03.28
崩铁谎言终幕效果解析:星穹铁道光锥特效全览
游戏攻略
崩铁谎言终幕效果解析:星穹铁道光锥特效全览

一场谎言的终幕是崩坏星穹铁道中4 1版本的新光锥之一,其属性可以提高装备的暴击率,下面小编就为大家带来《崩坏:星穹铁道》一场谎言的终幕光锥效果一览,不清楚的一起来看看吧。《崩坏:星

热心网友
03.28
《白夜提灯》开播槽点全解析:男女主无CP感,演技能否逆转口碑?
娱乐
《白夜提灯》开播槽点全解析:男女主无CP感,演技能否逆转口碑?

2026年3月28日中午12时整,由腾讯视频全网独播的古装奇幻剧《白日提灯》准时上线。该剧开播前预约人数高达674万人次,被平台力推为“年度古偶扛鼎之作”,然而仅播出六小时后,口碑便急速崩塌,引发全

热心网友
03.28