清华团队研发TDRM算法：用时间差分优化奖励函数

首页

科技数码

热心网友

转载

2025-10-09

前沿研究突破：时间差分奖励模型TDRM重塑LLM强化学习范式

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

奖励模型作为大语言模型强化学习与推理验证的核心组件，在数学推导、编程辅助和指令响应等关键领域展现出巨大潜力。但传统奖励模型存在一个致命短板——时间维度上的评估连续性缺失。这一问题直接导致策略优化方向偏差和训练过程波动加剧。

研究发现，当前模型在长序列推理过程中，单步奖励评估往往与其他步骤隔离割裂，产生误导性训练信号。特别是在复杂思维链场景下，模型需完成多步推演后才能获得终端奖励，致使各推理步骤价值难以准确判断。

针对这一核心挑战，清华大学联合加州理工研发团队创新性提出TDRM框架——运用时间差分(TD)训练方法构建具备时间一致性的奖励模型，显著提升模型训练稳定性。

值得关注的是，该项目已全面开源包括核心代码、训练数据和模型参数，为学界提供重要研究资源。

TDRM框架的技术创新

TDRM引入三重技术突破：首先是建立基于n步时间差分的过程奖励模型，其次在强化学习阶段实现实时在线优化，最终通过可验证奖励的线性整合形成完整解决方案。

与传统方法不同，TDRM创造性将时间差分技术应用于奖励模型本身的构建过程，而非仅用于数据预处理。这种革新思路带来了更平滑的奖励空间和更密集的训练信号。

TDRM框架架构

关键技术特征

平滑性优化： 通过局部普希茨连续分析验证，TDRM相比传统方法显著降低27%的评估敏感度，确保推理微调不会引发奖励值剧烈波动。

创新的奖励机制： 引入余弦奖励函数与TD-λ算法的结合范式，既考虑单步推理正确性，又兼顾整体推理长度因素，实现精细化的奖励分配。

在线强化学习： 采用动态状态值计算方法，使模型能够实时适应训练轨迹变化，大幅提升价值预测的准确性。

实验结果验证

在MATH-500等五个高难度数学数据集上的测试表明，TDRM展现出卓越性能：Best-of-N采样方法中最高提升6.6%准确率，树搜索场景更是实现23.7%的性能飞跃。

强化学习场景下，TDRM仅需5%的训练数据量就能达到传统方法同等效果，在GLM4-9B等主流模型架构上都取得了明显的策略优化。

性能对比结果

这项研究不仅解决了奖励模型的时间一致性问题，更为复杂推理任务的自动化评估开辟了新方向。开源资源的释放将加速该技术在更广泛领域的应用落地。

来源:https://36kr.com/p/3501437759003785

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：2025年Q3教育科技投融资复盘：AI平台驱动1.5亿美元交易潮下一篇：诺贝尔奖得主奥马尔·亚吉的科研传奇之路

热门推荐

游戏攻略

《七界梦谭》长戟刚鬣boss打法攻略

七界梦谭长戟刚鬣boss怎么打？全面打法机制解析在《七界梦谭》中，即将登场的精英首领“长戟刚鬣”以其独特的造型与高难度的战斗机制，成为了众多玩家关注的焦点。它通体呈现深邃的黑色，外形轮廓融合了刺猬般的刚刺与修长的尾部，移动时带有鼠类特有的迅捷与灵动。其名“刚鬣”源于古语，精准地描述了它颈背部如刀锋

热心网友

04.15

游戏资讯

王者荣耀世界pk模式怎么玩-王者荣耀世界pk模式玩法全解析

王者荣耀世界的 pk 模式是玩家展现实力、与各路高手激烈对抗的舞台想体验更自由、更开放的竞技快感吗？王者荣耀的PK模式，正是这样一个让你与各路高手一决高下的舞台。在这里，战斗的规则更灵活，策略的博弈也更直接，能带来与常规对战截然不同的竞技乐趣。参与条件参与门槛并不复杂：当玩家等级达到要求，并且

热心网友

04.15

我在AI

我在AI是什么简单来说，“我在AI”是一款来自南京有零科技的免费人工智能应用。它的核心思路挺有意思：不再提供单一的聊天机器人，而是打造了一个多元化的“智能体”生态。用户可以根据自己的喜好，选择不同性格、设定的人设进行互动，相当于把选择权交给了用户，让AI服务于更个性化的生活场景。我在AI的主要功

热心网友

04.15

业界动态

张雪机车LOGO陷抄袭国外品牌标识争议真相藏不住了

张雪机车LOGO陷抄袭争议：一场关于“原创”的舆论风波最近几天，机车圈里有点热闹。一组对比图在网络上流传开来，把张雪车品牌的LOGO和国外一个已有标识放在了一起。仔细一看，二者在图形结构、线条走势，乃至整体轮廓上，确实有着高度的相似性，差别似乎只存在于一些微小的细节处理上。这事儿之所以迅速发酵，

热心网友

04.15

数据库

mysql报Server selection timeout怎么办_排查负载均衡器配置与节点存活检查

MySQL连接报Server selection timeout怎么办？排查负载均衡器配置与节点存活检查首先需要明确一个核心概念：Server selection timeout这一错误信息，本质上是MongoDB驱动层抛出的异常，与MySQL服务自身的运行状态并无直接关联。它通常出现在错误混用M

热心网友

04.15