AI老师与学生共进步机器推理能力提升多少

时间：2026-05-30 16:27

这项由Salesforce AI Research主导的研究以预印本形式发布于2025年5月，论文编号为arXiv:2605 15113，有兴趣深入了解的读者可通过该编号在arXiv平台查询完整论文。先从一个日常场景说起：你正在学习解数学题，做错了之后老师只告诉你 "错了 "两个字，没有任何解释。你下

这项由Salesforce AI Research主导的研究以预印本形式发布于2025年5月，论文编号为arXiv:2605.15113，有兴趣深入了解的读者可通过该编号在arXiv平台查询完整论文。

先从一个日常场景说起：你正在学习解数学题，做错了之后老师只告诉你"错了"两个字，没有任何解释。你下次再做同样类型的题，还是不知道哪里出了问题。这种感觉是不是很沮丧？现在的主流AI训练方法，面临的正是同样的困境。

当前让大型语言模型（也就是我们常说的大型AI）变得更聪明的主流方式，叫作"基于可验证奖励的强化学习"。说白了，就是"答对了给颗糖，答错了什么也不说"的训练方式。AI写了一大段推理过程，最后答案对了，得一分；答案错了，得零分。仅此而已。这就像一个学生做了满满一页推导，最终算错了最后一步，却被老师判定和那个连题目都没读懂的同学得了同样的分数——零分。这种"只看结果、不看过程"的方式，使得AI在遇到困难题目时几乎无法进步：它不知道自己哪里错了，只能不断随机尝试，效率极低。

Salesforce的研究团队注意到一个有意思的现象：在现实中，失败往往是伴随着丰富信息的。程序运行出错时会有错误提示；解题过程错了，可以对照正确解法找出偏差；就连AI自己也可以反思自己的错误。这些文字性的反馈信息，比一个简单的"0分"要丰富得多。于是，他们想到了一个核心问题：能不能让AI从这些文字反馈中学习，而不是仅仅依赖最终的对错判断？

这个想法并不新鲜。已经有一些方法尝试让AI把文字反馈用起来，其中有一类叫作"自蒸馏"的方法颇为聪明——让AI自己既当老师又当学生。具体操作方式是：把错误信息或者正确示范告诉AI，让它基于这些额外信息预测下一步应该怎么做，然后再把这种"带着提示的AI"的行为，教给"不带提示的AI"，让后者在没有提示的情况下也能做得更好。可以把这个过程比作：有一位厨师在知道菜谱的情况下炒菜，另一位厨师在不知道菜谱的情况下观察前者的每一个动作，然后自己去复现。

然而，Salesforce的团队发现这类方法存在一个根本性的天花板：那位"知道菜谱的厨师"从未接受过任何训练，他的水平从头到尾都是固定的。随着"不知道菜谱的厨师"越来越厉害，前者却始终停留在原地，最终再也教不了什么新东西。这就是已有方法失效的根本原因。

Salesforce提出的解决方案叫作变分策略蒸馏（Variational Policy Distillation，简称VPD）。核心洞察很简单：老师和学生应该一起成长。在这个框架里，老师不再是一个固定不动的参照物，而是一个会不断被优化、越来越会解读反馈信息的动态存在。随着学生的进步，老师也在进步，两者相互促进，形成真正的"教学相长"。

一、AI训练的"只看结果"困境

要理解VPD的价值，得先搞清楚现有方法为什么会陷入困境。

当前最流行的AI强化训练算法，比如GRPO，本质上就是让AI反复尝试，答对了就加强这种行为，答错了就削弱这种行为。这个逻辑在简单任务上效果很好，但在复杂推理任务上会撞墙。原因在于：对于真正困难的题目，AI一开始几乎不可能答对。如果每次尝试都是零分，算法就完全不知道该往哪个方向调整——所有的错误看起来都一样糟糕，没有任何信号帮助区分"差一点点就对了"和"完全跑偏了"这两种情况。

研究团队用一个精准的词来形容这种困境："探索瓶颈"。AI就像一个在黑暗中找出口的人，不管走哪条路都看不到任何光，自然就只能随机乱走，效率极低。

相比之下，文字反馈就像是给那个在黑暗中摸索的人一支手电筒。编译器报错会告诉你第37行的变量类型不匹配；参考答案会告诉你在第三步漏掉了一个负号；AI评论员会告诉你你的推理在第二个假设处就出现了逻辑跳跃。这些信息不只是说"你错了"，而是说"你在哪里错了，为什么错了"。

已有的自蒸馏方法（比如SDPO）的思路是：把文字反馈加到AI的输入里，让AI在"知道反馈"的状态下预测正确答案，然后把这种预测当成"老师"，用它来指导"不知道反馈"的学生版AI。这样一来，学生在训练阶段就能获得比"0或1"更丰富的指导信息——每个词、每个步骤层面的细粒度信号。

但问题在于，这个"老师"从来没有被专门训练过如何解读反馈。它只是被动地接受反馈作为额外输入，然后凭着预训练阶段的能力去理解它。随着学生越来越强，老师那点"零样本理解反馈"的能力就越来越捉襟见肘，最终给出的指导也越来越没用，学生的进步随之停滞。

二、让老师和学生一起成长的核心思路

VPD的设计哲学可以用一句话来概括：与其让老师被动地接受反馈，不如主动训练老师更好地解读反馈。

研究团队把这个问题用一套叫作"变分期望最大化"的数学框架来描述。这套框架可以用厨房里培养新厨师的场景来理解。目标是培养出一位顶级主厨（理想的AI策略），但这位"顶级主厨"是个抽象概念，我们永远无法直接观察他。于是，我们引入一位"指导厨师"（老师模型）和一位"学徒厨师"（学生模型）。

整个训练过程分成两个交替进行的步骤，像钟摆一样来回切换。第一个步骤是"提升指导厨师"（E步骤，即期望步骤）：观察学徒做过的所有菜，以及每道菜的评价（成功或失败），加上具体的文字反馈（比如"这道菜太咸了，因为你在步骤三加了两勺盐"），然后专门训练指导厨师，让他更善于根据这些文字反馈来判断好菜和坏菜的区别。第二个步骤是"让学徒学习"（M步骤，即最大化步骤）：让学徒观察这位已经变得更厉害的指导厨师，学习他在每一步操作上的判断和选择，把这种知识内化到自己身上，争取以后不需要额外提示也能做出好菜。

这两个步骤反复交替：指导厨师变厉害了，就能给学徒更好的指导；学徒变厉害了，他做出的菜（无论成功还是失败）就给指导厨师提供了更丰富的学习素材，让指导厨师继续进化。两者真正地共同成长。

三、"提升老师"这一步是怎么做到的

E步骤是VPD最关键的创新所在，也是与所有既有方法的根本区别之处。

回到数学框架里，研究团队证明了：训练老师（指导厨师）的目标，等价于让老师的行为尽可能接近一个"理想的奖励加权分布"。简单说就是，老师应该倾向于产生那些实际上会带来正确结果的答案，同时避免那些带来错误结果的答案。

这个目标在数学上等价于一个标准的强化学习问题。但如果直接用强化学习来训练老师，就又回到了"探索瓶颈"的老问题——老师也要自己去随机尝试才能找到正确答案。为了避免这个问题，研究团队采用了一个巧妙的绕道：老师不需要自己去探索，而是直接利用学生已经生成的轨迹。学生在练习过程中产生了大量的尝试（有成功的，也有失败的），这些尝试连同它们的文字反馈，就成了训练老师的现成素材。

具体的训练方法叫作"无配对偏好优化"（Binary Classifier Optimization，BCO）。通常的偏好训练需要在完全相同的问题下比较两个答案的好坏，但在VPD里，每个学生尝试都对应着一份独特的文字反馈，不同尝试的反馈各不相同，所以无法直接配对比较。BCO的聪明之处在于，它把"比较两个答案"这个需求分解成了两个独立的问题：对成功的尝试，让老师学会"给高分"；对失败的尝试，让老师学会"给低分"。两个方向分别优化，不需要强行配对。

还有一个关键设计叫作"动态参考基准"。在普通的偏好训练里，老师的评分是相对于一个固定的初始模型来打分的。但VPD把这个基准动态设置为当前的学生模型。这样一来，老师的目标分布就和学生的当前状态紧密绑定：老师被训练成在学生现有能力的基础上往前走一步，而不是向着一个遥远的、学生根本够不着的理想目标猛冲。从数学角度来说，这相当于给老师的优化施加了一个"信任区域"约束——老师不能离学生太远，它的指导必须是学生实际上能够学习和吸收的。

这个设计还有一个有趣的理论含义：从另一个角度看，这个E步骤的优化目标等价于"最大化老师分布的期望奖励，同时惩罚老师分布与当前学生分布之间的偏离程度"。换句话说，老师被明确地约束在学生能理解的范围内，这从根本上保证了后续M步骤的稳定性——老师给出的目标，学生总是能够接近和学习的。

四、"让学生学习"这一步的具体机制

M步骤相对更直观一些。经过E步骤的优化，老师现在已经是一个更好地理解反馈的模型。接下来，就是把老师掌握的知识转移给学生。

转移的方式是让学生的每一步预测，尽可能接近老师在同一步骤上的预测。这种接近是在词汇层面上的——不只是最终答案对不对，而是每一个词的选择倾向是否与老师一致。这就好比学徒不只是模仿指导厨师最终做出的成品，而是在炒菜的每一个动作上都尽可能复制导师的手法：加盐的时机、翻锅的力度、火候的掌握。

学生学习的素材是自己生成的。在每个训练周期里，学生先自己去做题（生成答案），然后用这些自己生成的答案去和老师的预测做对比，进行学习。这种"在自己生成的数据上学习"的方式，避免了另一类常见问题：如果学生直接去模仿一个比自己强得多的外部模型，往往因为差距太大而适应不了，学得一知半解。就像让一个初学者直接照着米其林大厨的食谱操作，反而会做出四不像的东西。

在具体实现上，整个系统只用了一个神经网络。老师和学生共享同一套参数，唯一的区别在于输入：老师的输入包含文字反馈，学生的输入不包含。这个设计大幅节省了计算资源——不需要同时维护两个独立的大型模型，内存开销减少了一半左右。而且，由于E步骤的信任区域约束保证了老师不会离学生太远，在实践中甚至不需要用复杂的重要性采样技术来修正学生数据的分布偏差——误差小到可以忽略不计。

研究团队还发现，E步骤和M步骤不需要以1:1的频率交替进行。在他们的实验中，每做一次E步骤（训练老师），就做五次M步骤（训练学生），效果最好。这个安排类似于强化学习里的"目标网络"机制：让学生有足够的时间消化老师的当前水平，然后老师再前进一步。频率太高，老师还没让学生学会就又变了，学生跟不上；频率太低，老师进步太慢，学生的素材开始陈旧，进步也会停滞。

五、真实测试：效果到底怎么样

研究团队在多个不同任务和不同文字反馈来源上测试了VPD，以检验它的实际效果。

第一个测试场景是代码生成，使用的是LiveCodeBench这个编程测评平台，测试模型是Qwen3-8B（一个关闭了"思考模式"的版本）。在这个场景里，文字反馈来自最自然的来源：程序运行时的报错信息。程序崩溃了？报错提示就是反馈；单元测试没通过？具体哪个测试用例失败就是反馈。这是最直接、最客观的文字反馈形式。

测试结果显示，原始模型的通过率是28.05%。单纯用强化学习（GRPO）训练后，提升到45.61%。单纯用自蒸馏（SDPO）训练后，提升到47.33%。研究团队还测试了三种把强化学习和自蒸馏混合在一起用的方法——把两个损失函数加权求和、在优势值层面混合信号、用蒸馏信号重新加权优势值——结果却令人失望：这三种混合方法的成绩分别是47.52%、46.95%和44.85%，不是平平无奇就是比单纯的自蒸馏还要差。VPD的成绩则达到了49.62%，比所有其他方法都高。

更能说明问题的是一条训练过程曲线。研究团队监测了整个训练过程中老师对"成功尝试"和"失败尝试"打分差距的变化。用SDPO训练时，这个差距在训练初期有所扩大，但随后迅速收窄，最终几乎消失——说明老师分不清好坏了，给出的指导成了噪声。而用VPD训练时，这个差距持续扩大，说明老师越来越善于区分高质量和低质量的尝试，一直在产生有价值的指导信号。

第二个测试场景是科学推理，使用的是SciKnowEval基准测试，覆盖生物、化学、材料和物理四个领域，在三个不同规模的模型上进行：Qwen3-1.7B、Qwen3-8B和OLMo3-7B-Instruct。在这个场景里，环境只返回对或错，没有任何文字解释。为了产生文字反馈，研究团队采用了一种叫作"对照兄弟轨迹"的方法：在同一道题的多次尝试中，如果某次答对了，就把这次正确答案的推理过程提供给老师作为参考，让老师对比正确做法和错误做法。

在Qwen3-1.7B上，VPD达到了74.34%的平均准确率，而GRPO是69.81%，SDPO是66.34%，三种混合方法最好的也只有67.24%。在Qwen3-8B上，VPD达到77.15%，超过了SDPO的74.44%和GRPO的73.11%。在OLMo3-7B-Instruct上，VPD达到70.80%，同样领先其他方法。

特别值得关注的是训练稳定性。那三种"混合方法"在训练过程中间出现了严重的不稳定现象——准确率忽高忽低，曲线像心电图一样剧烈波动。研究团队分析认为，原因在于同时用两种性质差异很大的信号（KL散度和强化学习优势值）去更新同一个模型，会造成"规模不匹配"——就像同时往一个杯子里倒热水和冷水，结果既不热也不冷，而且还可能把杯子弄坏。VPD把这两种信号在时间上分开处理，完全避免了这个问题，训练曲线单调上升，非常稳定。此外，普通SDPO还经常出现"后期退化"——训练到一定步数后，准确率开始下降。VPD彻底消除了这个现象。

第三个测试场景探索了一种更极端的情况：如果所有尝试都失败了，没有可以对照的正确示范，怎么办？研究团队让模型扮演自己的评论员，对自己的错误答案生成文字批评（只给模型最终正确答案的字母，不给推理过程，让模型自己分析哪里出了问题）。测试结果显示，这种"自我批评"方式与"对照兄弟轨迹"方式效果相当，而且VPD依然明显优于SDPO。在Qwen3-8B上，VPD以78.14%对74.87%的差距胜出。这个结果表明，即使没有任何外部参考，模型通过自我反思配合VPD的持续优化，依然能够有效提升能力。

六、VPD失灵的场景：诚实地面对局限

这项研究还做了一件令人敬重的事：主动去测试VPD在哪些情况下行不通，并诚实地展示结果。

第一个考验是"冷启动"问题。最近有研究表明，对一个还没经过任何对话微调的"基础模型"，直接用强化学习训练，也能激发出复杂的推理能力。于是研究团队用Qwen3-4B-Base（一个未经指令微调的原始模型）来测试VPD。结果是：SDPO几乎立即崩溃，准确率迅速降至接近零；VPD大幅延缓了这种崩溃，显示出比SDPO强得多的鲁棒性；但最终还是不如纯强化学习（GRPO）的效果，后者在同一个任务上达到了74.49%，而VPD只能达到63.95%。

研究团队的解释是：自蒸馏方法（无论是VPD还是SDPO）都内在地依赖于模型已经具备一定的"读懂指令"能力。一个完全未经微调的基础模型，连如何理解和使用文字反馈这件事本身都还没学会，老师给出再好的指导也无从吸收。这不是VPD的算法缺陷，而是这类方法的本质边界：你得先能读懂菜谱，才能从菜谱里学到东西。

第二个考验是数学推理。在用DAPO-Math数据集训练并在Math500上评估时，SDPO出现了严重的训练崩溃；VPD再次成功延缓了这种崩溃，并在训练过程中保持了更长时间的有效性；但最终，纯强化学习GRPO仍然以83.8%的成绩胜出，而VPD没能超越它。

研究团队对此的解释颇有深度：数学推理的特殊性在于，它对中间步骤的正确性极为敏感，任何一处细微的错误都可能导致整条推导链崩塌。当老师提供的文字反馈本身不够精确，或者包含了轻微的错误时，学生去模仿这种有瑕疵的推导过程，反而会固化错误的思维方式，比没有任何指导还要糟糕。纯强化学习则不同——它只关心最终答案对不对，不会被中间过程的噪声干扰，因此在需要严格逻辑的数学推理上反而更为可靠。

这两个发现划定了VPD的适用边界：当模型已经具备基本指令理解能力、任务本身对文字反馈的容忍度较高（比如科学问答和代码生成），VPD效果显著；当模型处于从零开始的冷启动阶段，或者任务对推理精确性要求极高（比如竞技数学），纯强化学习更为适合。

七、调参经验：两个关键设计的验证

研究团队还通过系统实验验证了两个核心设计决策的重要性。

关于E步骤的更新频率，研究团队在Qwen3-1.7B上对比了三种设置：每做一次E步骤就做一次M步骤（F=1），每做一次E步骤就做五次M步骤（F=5，默认设置），以及每做一次E步骤就做十次M步骤（F=10）。结果非常清晰：F=5以74.34%的平均准确率明显胜出，F=1降至70.21%，F=10降至69.27%。更新太频繁，老师还没稳定就又变了，学生的学习目标一直在移动，无法有效收敛；更新太稀疏，老师的水平已经滞后于学生的进步，给出的指导越来越陈旧失效。

关于动态参考基准的重要性，研究团队对比了将参考基准固定在初始模型（固定基准）与动态更新到当前学生状态（动态基准）两种设置。结果非常戏剧性：固定基准不只是准确率低（67.84%对74.34%），而且训练曲线极为不稳定，出现了剧烈的波动和反复。动态基准的训练曲线则稳定而单调地上升。原因在于：随着学生越来越强，与初始模型的距离越来越远，而如果老师的目标依然是相对于那个遥远的初始基准来优化，它给出的指导就会越来越脱离学生的实际状态，引发"指导方向"和"学生需求"之间的冲突，最终导致训练崩溃。

八、为什么这项研究值得关注

说到底，VPD的意义不只是在几个基准测试上多了几个百分点。它提出了一个更有原则性的框架来思考"如何让AI从反馈中学习"这个问题。

以往的自蒸馏方法本质上是在用一个固定的、被动的工具来做一件需要主动适应的事情。VPD则把这件事变成了一个动态的、自适应的过程——老师和学生共同进化，老师的进化保证学生始终有值得学习的目标，学生的进化给老师提供新的学习素材，形成一个真正的良性循环。

从更宏观的角度看，这项研究也为"AI能否在没有人类干预的情况下持续自我改进"这个大问题提供了一些实证线索。答案是：在一定范围内可以，而且方法得当的话效果相当可观；但这种自我改进并非无限的，对于需要极端精确推理的任务，来自外部环境的真实验证信号（对或错）目前仍然不可替代。

对于普通读者来说，这项研究的意义在于：未来AI助手的进步，不只是靠堆砌更多人类标注的数据，也可以来自让AI在自身的错误和反馈中不断学习。当AI能够更有效地从失败中提取教训，它就能在科学探索、软件开发、教育辅助等各种复杂任务上展现出更强的能力，最终惠及每一个使用这些工具的人。

感兴趣的读者可以通过arXiv平台搜索编号2605.15113查阅原始论文，Salesforce AI Research团队在论文中提供了完整的数学推导、算法伪代码和所有实验的详细超参数配置，对复现研究或深入理解细节都非常有帮助。

Q&A

Q1：变分策略蒸馏（VPD）和普通的自蒸馏方法（SDPO）最大的区别是什么？

A：最核心的区别在于老师模型是否会进步。SDPO里的老师是固定不动的，只是被动地把文字反馈加到输入里，靠预训练时的能力去解读反馈，随着学生越来越强，老师就越来越跟不上。VPD则通过E步骤主动训练老师，让老师专门学习如何根据文字反馈区分好答案和坏答案，老师和学生同步进化，老师始终能为学生提供有价值的指导信号，不会出现"老师跟不上学生"的情况。

Q2：VPD在哪些任务上效果最好，哪些任务上不适合用？

A：VPD在科学推理（生物、化学、材料、物理）和代码生成任务上效果明显优于其他方法，因为这些任务的文字反馈相对丰富且容错性较高。但在竞技数学推理和未经指令微调的基础模型冷启动场景下，VPD虽然比普通自蒸馏更稳定，但仍然不如纯强化学习（GRPO）。根本原因是数学推理对精确性要求极高，一旦老师给出稍有瑕疵的指导，学生照着学反而会固化错误思维方式。

Q3：VPD需要两个独立的模型吗，计算成本高不高？

A：VPD只用一个共享参数的神经网络，老师和学生的区别仅在于输入里是否包含文字反馈，不需要维护两套独立的模型，大幅节省了显存。而且E步骤和M步骤共用同一批学生生成的数据，不需要额外采样，零额外验证成本。唯一的开销是E步骤的梯度计算，实测增加了约30%到55%的训练时间，通过每五次M步骤才做一次E步骤的不对称频率策略，这个开销在实际中是完全可以接受的。

来源：https://www.163.com/dy/article/KU23JCNP0511DTVV.html

上一篇同济大学首款滚动优化芯片实现自动驾驶边走边算 下一篇小米亟需再次创业

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。