首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
清华研发TDRM模型:时间差分学习优化奖励平滑

清华研发TDRM模型:时间差分学习优化奖励平滑

热心网友
42
转载
2025-12-08

奖励模型(RM)作为大语言模型(LLM)强化学习和推理验证的核心组件,已在数学推理、代码生成和指令执行等任务中展现出强大能力。然而现有奖励模型存在一个关键瓶颈——时间一致性不足,这不仅导致策略优化效果欠佳,还使得强化学习训练过程难以稳定收敛。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

这一问题的根源在于:当前LLM推理过程中的单步奖励与上下文步骤缺乏关联性,使得训练信号变得混乱且误导性强。特别是在长思维链推理(CoT)场景中,模型往往要完成数十步推理后才能获得终端奖励,导致中间过程的奖惩信号极为稀疏。

为解决这一业界难题,清华-加州理工联合团队创新性地提出了TDRM框架,通过引入时间差分(TD)学习技术来构建具备时序一致性的平滑奖励信号。值得一提的是,该研究已完整开源所有代码、数据集及模型检查点。

TDRM框架示意图

技术突破与核心贡献

研究数据表明,经过TD优化的过程奖励模型(PRM)在两个关键场景中取得显著提升:在Best-of-N采样策略中最高提升6.6%准确率,在树搜索场景中提升幅度高达23.7%。更令人振奋的是,当与可验证奖励强化学习(RLVR)结合时,新方法展现出惊人的数据效率——仅需2.5k训练数据即可达到基线模型50.1k数据的性能水平。

框架设计原理

TDRM创新性地重构了传统奖励模型的训练范式,其核心包含三大模块:

  • 时序奖励建模:采用n步TD学习结合奖励塑造技术
  • 在线强化学习:基于PRM的实时策略优化
  • 混合奖励机制:将过程奖励与可验证奖励智能融合

TDRM框架架构图

关键技术亮点

1. 奖励平滑性保障

研究团队通过双维度验证框架确保奖励信号的稳定性: - 局部Lipschitz常数分析(TDRM=0.2741 vs ScalarPRM=0.3331) - TD误差动态监测机制

2. 创新奖励塑造

  • 余弦奖励函数:根据推理步长动态调整奖励权重
  • TD-λ算法:实现奖励信号的实时传播
  • 交叉熵损失:强化时序一致性学习

实证性能评估

推理验证场景

在Best-of-N采样测试中,TDRM展现出惊人的稳定性——当采样预算从128提升到1024时,其在MATH-500数据集上的表现持续领先基准模型。

MATH-500测试结果

强化学习场景

在包含MATH-500在内的5个高难度数学数据集测试中,TDRM仅用2500条提示数据就在8个不同规模的模型上实现了SOTA性能,其数据效率较基线提升20倍。

数学基准测试结果

来源:https://www.tmtpost.com/7715688.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

择天大陆异界佣兵系统钻石与铜币使用指南-资源优先级解析
游戏攻略
择天大陆异界佣兵系统钻石与铜币使用指南-资源优先级解析

速览 在《择天大陆异界佣兵系统》里,钻石和铜币是驱动你前进的两大核心燃料。用对了地方,战力提升和游戏体验都能事半功倍;用错了方向,则可能事倍功半。那么,这两种硬通货究竟该往哪儿花,才能把每一分价值都榨干呢?下面这份使用指南,或许能帮你理清思路。 择天大陆异界佣兵系统钻石与铜币使用 钻石 钻石作为顶级

热心网友
04.28
《聪明开局吧》第108关颤怎么过-第108关颤找出17个常用字图文攻略
游戏攻略
《聪明开局吧》第108关颤怎么过-第108关颤找出17个常用字图文攻略

《聪明开局吧》第108关“颤”字找17个常用字,通关攻略详解 卡在《聪明开局吧》第108关了?不少玩家看到这个“颤”字就有点发懵,感觉笔画多,组合复杂,不知从何下手。别急,这份详细的图文攻略,就是为你准备的。咱们一步步来拆解,保证让你豁然开朗。 核心思路与关键提示: 面对这类拆字游戏,最怕的就是毫无

热心网友
04.28
TON Station每日组合 2026年4月28日:赢取SOON积分!
web3.0
TON Station每日组合 2026年4月28日:赢取SOON积分!

TON Station每日套餐 2026年4月28日:最新优惠码和优惠券 想了解2026年4月28日TON Station每日套餐的详情?这个页面就是为你准备的,它会第一时间同步最新动态。 不仅如此,这里还会详细解释任务的运作机制、正确的打开方式,以及在官方屏幕上需要核验哪些关键信息。 为什么强调这

热心网友
04.28
《聪明开局吧》第106关煤怎么过-第106关煤找出17个常用字图文攻略
游戏攻略
《聪明开局吧》第106关煤怎么过-第106关煤找出17个常用字图文攻略

《聪明开局吧》第106关“煤”怎么过?手把手教你找出全部17个常用字 卡在《聪明开局吧》第106关了?这一关要求从“煤”字里找出17个常用字,确实让不少玩家有点挠头。别急,这份详细的图文攻略,就是为你准备的。咱们一步步来,保证让你豁然开朗。 《聪明开局吧》第106关“煤”找出17个常用字图文攻略 首

热心网友
04.28
在构建企业大脑时,如何选择合适的数据源和数据处理方法,以
业界动态
在构建企业大脑时,如何选择合适的数据源和数据处理方法,以

在构建企业大脑时,数据源与处理方法的选择为何如此关键? 说到底,企业大脑的运作基础在于数据。一旦数据源头或处理环节出了偏差,得出的结论就可能与实际情况南辕北辙,甚至误导关键决策。因此,数据源的准确可靠与处理方法的科学得当,绝非锦上添花,而是关乎全局的基石。那么,具体该如何着手呢?可以围绕两个核心环节

热心网友
04.28