伊利诺伊大学与清华大学联合研究 AI 奖励模型训练成本降低 38 倍

首页

热心网友

转载

2026-05-13

2024年12月，一项由伊利诺伊大学香槟分校与清华大学联合进行的研究在arXiv预印本平台发布，为提升人工智能训练效率带来了突破性进展。该研究的核心发现直指一个长期困扰行业的核心成本问题：训练一个能够精细评估AI每一步决策的“过程奖励模型”，其成本有望降低至传统方法的近四十分之一。

伊利诺伊大学香槟分校和清华大学联合发现：训练AI奖励模型的成本竟然可以降低38倍？

要理解这一突破的价值，首先需要了解AI训练中“奖励模型”的关键作用。你可以将其视为一位导师或裁判：当AI模型生成一段文本或完成一项任务后，需要一个机制来评判其质量，并给出“分数”作为反馈，从而引导AI模型朝着更优的方向学习和优化。这正是奖励模型的核心功能。

传统上，为了更精细地指导AI，尤其是在处理数学推理、代码生成这类多步骤的复杂任务时，研究人员通常会追求两种不同的奖励模型。一种是“结果奖励模型”，它仅对任务的最终产出进行评分，类似于期末考试的最终成绩。另一种则是“过程奖励模型”，它会对任务解决过程中的每一个中间步骤都给出反馈，好比老师在批改作业时对每一步推导都进行对错评判。

显然，过程奖励能够提供更密集、更有效的学习信号。但问题在于，获取训练这种模型所需的数据——即对海量任务中每一步的正确性进行人工或自动化标注——成本极其高昂。根据论文数据，传统方法收集过程奖励训练数据的成本，比训练基础的结果奖励模型高出惊人的38.8倍。这一矛盾就像明知一对一辅导效果更佳，但其高昂价格却让大多数人望而却步。

那么，是否存在一种可能，在不支付这笔“天价辅导费”的情况下，依然能获得具备“分步指导”能力的“老师”呢？这项研究给出了肯定的答案，其解决思路相当巧妙。

一、核心发现：奖励模型中的隐藏能力

研究团队的核心洞察可以用一个比喻来理解：我们原本认为，要获得“步骤指导老师”的能力，必须进行专门的培训。但他们发现，一个训练得当的“总体评分老师”，其内在已经蕴含了这种分步评估的潜力，只是我们此前不知道如何有效地将其“激发”出来。

他们提出了一种名为“隐式过程奖励模型”的创新方法。该方法的关键不在于收集新的标注数据，而在于对奖励的计算方式进行了数学上的重新定义。传统的奖励模型通常被视为一个“黑箱”：输入文本，直接输出一个分数。而新方法则将奖励定义为两个模型输出对数概率的差值：一个是被训练的策略模型，另一个是作为参考基准的模型。

正是这种看似简单的数学重构，带来了质的飞跃。当使用这种方法来训练一个常规的（结果）奖励模型时，这个模型会自动获得评估每个中间步骤质量的内在能力。这好比原本只想教会系统判断一盘菜是否美味，结果却发现它不知不觉已掌握了评价火候、刀工、调味等每一个烹饪环节的技巧。

更值得一提的是，这种方法的通用性很强。无论研究人员偏好使用DPO（直接偏好优化）、KTO、NCA还是标准的交叉熵损失作为训练目标，这一框架都能适用，这为不同研究场景和实际应用提供了极大的灵活性。

二、实验验证：数学推理任务中的卓越性能

为了验证理论，研究团队选择了极具挑战性的数学推理作为测试场景。他们构建了一个包含3.3万道数学题的训练数据集，并为每道题生成了多个不同的解答方案。

实验结果显示，在从64个候选答案中挑选最佳答案的任务上，隐式过程奖励模型的表现显著超越了需要依赖步骤标注的传统方法。并且，这种性能优势是在其训练成本不足传统方法1/38的前提下实现的，性价比极高。

团队还与两种代表性的传统方法（Math-Shepherd和AutoPSV）进行了直接对比，新方法在答案选择的准确率和整体效率上均展现出明显优势。一个特别有价值的发现是，基于交叉熵损失训练的隐式模型，在数据稀缺（例如每个问题仅有一个解答样本）的情况下表现依然稳健，这大大提升了其在现实应用场景中的实用性。

三、深入分析：多数投票机制的效能提升

在基本方法取得成功的基础上，研究团队进一步探索了如何通过集成策略来提升性能，引入了“多数投票”机制。

普通的方法是直接挑选单个得分最高的答案。而多数投票机制则更为智能：它将所有导向相同最终答案的候选解决方案视为一个“阵营”，并将该阵营内所有候选解的得分进行汇总。最终，选择总得分最高的那个阵营所对应的答案。

这种方法同时兼顾了答案个体的“质量”和答案群体间的“一致性”。一个得分很高但孤立的答案，其可靠性可能不如一组得分中等但结论一致的答案。实验表明，结合多数投票机制后，所有隐式过程奖励模型的性能都获得了额外的提升。

四、规模化研究：训练数据的影响规律

研究还系统地探索了数据规模对模型性能的影响。结论部分符合直觉，部分则出人意料：

增加训练问题的数量确实能提升模型性能，但提升曲线并非线性，存在边际效益递减。更有趣的发现是，增加每个问题的解答样本数量，比单纯增加问题数量带来的性能收益更大。这意味着，让AI针对同一个问题探索多种不同的解法，比浅尝辄止地接触更多不同问题，有时能带来更深刻、更有效的学习效果。

此外，研究还发现，在训练数据中加入与下游任务无关的指令，反而会损害模型的最终性能，这凸显了训练数据“相关性”与“任务对齐”的重要性。

五、意外发现：步骤标注数据的冗余性

一个挑战常规认知的发现是：即使为隐式过程奖励模型额外提供昂贵的步骤级别标注数据，其性能也未能得到进一步改善。

这强烈暗示，通过新方法训练出的模型，已经从结果级别的监督信号中“领悟”或“内化”了足够的步骤知识，额外的细粒度标注在此框架下显得冗余。当然，研究者也谨慎指出，这一结论可能受限于实验中所使用的自动生成标签的质量以及具体的标签整合算法。

六、实用性考量：推理效率的权衡分析

新方法在推理时需要同时运行策略模型和参考模型，理论上会增加计算开销。但详细的分析发现，在最佳候选答案选择任务中，主要的计算成本在于生成大量候选答案的过程，而非后续的评估过程。当生成模型本身规模很大时，额外运行一个参考模型的开销占比相对较小（约10%-30%），有时甚至可以被忽略。

更具实用价值的是，当策略模型本身已经非常强大时，甚至可以移除参考模型而几乎不影响最终的性能表现，这为实际生产环境的部署提供了极大的便利和灵活性。

七、性能与策略能力的分离现象

另一个有趣的现象是模型不同能力之间的“分离”：在奖励评估任务上表现最好的模型，直接用来解题时，其成绩可能并非最顶尖的；反之，解题能力最强的模型，其评估能力也可能不是最优。这类似于一位顶尖的评论家未必是同样顶尖的创作者。这一发现提醒我们，AI模型在不同任务上的能力可能存在复杂的权衡与专精关系，在设计和使用时需要仔细考量。