清华腾讯联手破解AI训练瓶颈，助力大模型高效学习

时间：2026-06-23 15:06

由清华大学深圳国际研究生院与腾讯混元联合提出的STARE方法，通过词级别优势重加权有效缓解了AI强化学习中的策略熵崩溃问题。在1 5亿至320亿参数模型上验证，AIME24与AIME25基准测试准确率提升4%至8%，并支持更长训练周期。

这项由清华大学深圳国际研究生院与腾讯混元研究团队联合完成的科研成果，于2026年6月正式在arXiv预印本平台发布，论文编号为arXiv:2606.19236。

当我们探讨当今那些能够撰写文章、解答数学难题乃至编写程序的AI大模型时，其背后有一套至关重要的“训练机制”在默默驱动——即强化学习。这套机制的工作原理类似于培养一位棋手：让他不断对弈，获胜则给予鼓励，落败则施加惩罚，久而久之，他的棋艺便日益精进。近年来备受瞩目的DeepSeek-R1、Qwen3等AI模型，其卓越表现很大程度上都依赖于这一机制。

然而，这个看似完美的训练流程存在一个致命短板——它会逐步导致AI陷入一种“思维固化”的状态。在学术领域，这被称为“策略熵崩溃”。通俗来说，就是AI在学习过程中，开始固执地重复同一路径，丧失了探索新方法的好奇心，从而过早地停止了进步。针对这一顽疾，清华大学与腾讯的研究团队提出了一套名为STARE的解决方案，并在从1.5亿到320亿参数规模的多个主流AI模型上验证了其有效性。在AIME24和AIME25这两项权威的数学竞赛基准测试中，该方案相比当时最强的基线方法，准确率提升了4%到8%。

一、AI是如何“学会思考”的，又是如何“学偏”的

要理解这项研究解决的问题，我们首先需要了解AI如何通过强化学习来提升自身能力。

让我们借助一个比喻来快速把握这项研究的核心方法。研究团队采用的核心训练算法名为GRPO（Group Relative Policy Optimization，组相对策略优化）。GRPO的操作可以这样理解：就像一位老师让同一名学生就一道数学题，写出八份思路各异的解答，然后进行统一批改。得分高的思路会受到鼓励，而得分低的思路则被提示摒弃。这种方法的优点在于，无需额外的“裁判模型”，直接根据答案的正确与否进行奖惩，既简单又高效。

但问题恰恰出现在训练进行一段时间之后。随着AI对解题模式越来越熟悉，它面对同一道题时，生成的八份答案会变得越来越相似，最终近乎完全相同。这就是“熵崩溃”——熵是衡量多样性或不确定性的指标，熵值越低，意味着AI的输出越单一。当所有答案都大同小异，无法区分优劣时，老师（算法）给出的奖惩信号便失去了意义。AI就像一个已经陷入“内卷”的学生，每次考试都采用同一套路，虽然短期内成绩尚可，但彻底丧失了应对新题型的灵活性，也不再有任何进步。

现有的修复方案各有局限。有些方法在全局层面上，对表现好和表现差的答案采用不同权重，相当于“好答案加倍鼓励，坏答案加倍惩罚”，但并未细化到每一个具体的词（token）上。还有些方法直接将“多样性奖励”纳入训练目标，结果往往矫枉过正，导致AI为了维持多样性而开始“胡言乱语”。这些方法的共同问题在于，它们都在“轨迹”层面（即整条答案路径）进行调整，而未能深入到“词语”层面去分析真正的根源。

二、找到病根：是哪些词在悄悄“压制”AI的探索欲

清华与腾讯团队的首要贡献，是从数学上严格推导出熵崩溃的根本原因。

这里需要引入一个关键概念：token（词语单元）。AI在生成文字时，是一个词一个词地逐步输出的，每次输出一个词，都伴随着一次概率分布的选择。“熵”这个指标，正是用于衡量这个概率分布有多“均匀”——如果AI认为下一个词100%是“等于”，那么这个分布的熵就是零；如果它认为“等于”、“所以”和“因此”都有出现的可能，那么熵值就相对较高。

研究团队推导出一个核心定理（定理3.1，论文中称为“词级别熵变定理”）：在GRPO的训练机制下，每个词对整体熵的影响，等于该词所在答案的“优劣评分（优势值）”乘以一个与该词本身概率相关的“熵敏感函数”。这一推导结果揭示了一个此前被忽视的矛盾结构。

为了理解这个矛盾，我们可以想象这样一个场景：AI在做一道数学推导题时，其中大部分词都是“因为”、“所以”、“等于”这类高频词，AI对它们有十足的把握（概率很高，“惊讶度”很低）；而只有少数关键节点，比如“不妨设”、“反设”、“验证”这类词，AI还不太确定（概率偏低，“惊讶度”较高）。

研究团队发现，这两类词对熵的影响方向完全相反。当一个答案被判定为“好答案”（正优势）时，AI会强化整条路径上的所有词——然而，那些高频、低惊讶度的词（如“所以”、“等于”）会使熵下降，而那些低频、高惊讶度的词（如“反设”、“验证”）则会使熵上升。

问题就在这里。由于这些词都是AI自己生成的，高频词天然就比低频词多得多。在一段数学推导中，“所以”可能出现几十次，而“反设”可能只出现一两次。于是，“使熵下降”的词的总影响力，远远超过了“使熵上升”的词——GRPO为整条答案路径分配同一个评分，完全无法区分这两类词截然相反的效果。

研究团队将这个现象概括为一个“四象限结构”。具体来说，一个词所在答案的评分（正/负）与这个词本身的惊讶度（高/低）组合起来，决定了它对熵的影响方向：正评分遇到低惊讶度，熵下降；正评分遇到高惊讶度，熵上升；负评分遇到低惊讶度，熵上升；负评分遇到高惊讶度，熵下降。由于高频、低惊讶度的词在统计上占据绝大多数，整体效果就是持续压低熵，直到AI的输出变得极度单一。这便是熵崩溃的真正根源：问题不在于训练目标本身，而在于词级别的“信用分配”出现了偏差。

三、接近临界点：只需轻轻一推，便能改变方向

找到病根后，研究团队接下来证明了另一个关键性质，这个性质直接决定了解决方案所需的力度：近临界性（Near-Criticality）。

想象一下用手推动一个位于斜坡上的球。如果球已经在斜坡顶端接近临界点的位置，你只需要施加一点点力，它就会开始滚落，然后越滚越快。这里的“一点点力”，正是研究团队发现的那个惊人结论：要让熵从“持续下降”变为“开始回升”，所需的词级别权重调整，在数学上是一个极小的量——大约相当于训练序列长度的倒数（O(T⁻¹)）。换句话说，你不需要大幅改变整个训练机制，只需对少量关键词语的权重进行微调，就足以扭转整体熵的演化方向。而且，一旦超过这个临界点，具体调整多少其实并不重要，方向已经确定，调整幅度只影响“多快回升”，而不影响“能否回升”。

这个性质的证明依赖于另一个数学定理（定理3.4，“熵中性恒等式”）：对于任何概率分布，所有词语的熵敏感函数的期望值恰好等于零。这意味着在理想情况下（如果每个词都受到公平对待），熵既不会增加也不会减少。实际中熵之所以会减少，完全是因为高频词获得了过多的“话语权”。纠正这种不均衡，成本极低。这个发现极其重要，因为它告诉研究者：无需大动干戈地修改整个训练框架，一个精准、轻量的干预就足够了。

四、STARE：一把精准的“调音师”之手

基于上述理论分析，研究团队设计了STARE（Surprisal-guided Token-level Advantage Reweighting for policy Entropy stability，基于惊讶度的词级别优势重加权方法）。

这套方法的核心逻辑可以用“调音”来理解。一首交响乐中包含各种乐器，如果小提琴（相当于高频低惊讶度词）的音量盖过了其他所有乐器，整首曲子就会失去层次感。STARE的做法是：识别出那些被淹没的“关键少数乐器”（高惊讶度词），然后选择性地将它们的音量调高一点，让整体音乐恢复平衡。

具体的实现分为三个步骤。第一步是识别关键词。在每个训练批次中，STARE分别对“被评为好答案”的那组词语和“被评为差答案”的那组词语，按照惊讶度从高到低排序，各自取排名前10%的词组成两个“关键词集合”。惊讶度的计算非常直接，就是词语在当前模型下的生成概率取对数后取负值——概率越低，惊讶度越高，说明这个词越出人意料。

第二步是调整权重。对于“好答案中的高惊讶度词”，将其对训练梯度的贡献放大（乘以权重W，默认为1.1）；对于“差答案中的高惊讶度词”，将其贡献缩小（乘以权重M，默认为0.9）。前者的逻辑是：这些词同时具备“来自好答案”和“能提升熵”两个属性，理应获得更多鼓励。后者的逻辑是：差答案中的高惊讶度词如果受到过度惩罚，会让AI放弃那些原本具有探索价值的词语选择，进一步压缩多样性。

第三步是闭环控制。纯粹调大这些词的权重，可能会走向另一个极端——AI开始“胡言乱语”，为了维持高熵而输出无意义内容。为避免这种情况，STARE引入了一个“目标熵”（默认设为0.3）作为控制阀门。每个训练批次结束时，算法会检查当前批次的平均熵：如果熵低于目标值，则激活上述权重调整；如果熵已经高于或等于目标值，则自动关闭调整，恢复为普通的GRPO训练。这样一来，熵就像被恒温器控制的室温一样，始终在目标值附近小幅震荡，既不会崩溃，也不会过热。

整套方案的参数非常少，也非常稳健。权重W只需在1.05到1.5之间，关键词比例P在5%到20%之间，目标熵在0.2到0.4之间，效果都相当好。这与前面提到的“近临界性”完美对应：一旦超过临界点，具体数值的影响不大，方向才是关键。

五、实验验证：从小模型到大模型，从数学到工具调用

为了全面验证STARE的有效性，研究团队进行了一系列规模可观的实验。

在模型规模方面，实验覆盖了从DeepSeek-R1-Distill-Qwen-1.5B（15亿参数）、Qwen2.5-Math-7B-Base（70亿）、Qwen2.5-14B-Instruct（140亿），一直到Qwen2.5-32B-Base（320亿），跨越了当前主流的几乎所有参数量级。

在任务类型方面，实验分为三类场景：短链推理（直接输出答案，无需长篇思考）、长链推理（需要写出完整推导过程，甚至进行自我反思和纠错）、多轮工具调用（AI需要在对话中反复调用计算器、搜索等工具来解题）。这三类场景覆盖了当前AI应用的主要方向。

训练时长也专门进行了压力测试。在70亿参数的短链推理场景下，研究团队进行了整整5000步的训练，是通常实验规模的数倍。结果非常清晰：使用普通GRPO的对照组，在大约前1000步时熵就跌近于零，随后AIME24的准确率在略微上升后完全停滞，不再进步；而使用STARE的实验组，熵始终稳定在0.3左右小幅震荡，准确率则持续攀升，一直到5000步时仍在提高，最终比对照组高出约7个百分点。

在140亿和320亿参数的模型上，研究团队进行了1500步的训练。同样的规律再次出现：普通GRPO的熵快速下滑，性能很快饱和；STARE维持了稳定的熵，准确率持续改善，在AIME24上分别高出6.6和4.8个百分点。

在多轮工具调用场景（使用Qwen2.5-7B-Base从零开始训练）中，STARE将AIME24的平均准确率从46.8%提升到53.2%，AIME25从32.4%提升到37.5%，平均提升约5.5个百分点，同时超越了SimpleTIR等专门针对工具调用场景设计的方法。

实验结果还揭示了一个有趣的细节：经过STARE训练的模型，在回答问题时会更频繁地出现“等等”、“但是”、“重新验证”这类词语，体现出更活跃的自我检查和纠错行为。研究团队对Qwen2.5-32B-Base的回答进行了分类统计，发现STARE模型在对比、反思、自我纠错、犹豫、回溯、总结修正这六类“反思行为”词语上，全面超过了普通GRPO，尤其是“反思”和“自我纠错”这两类的差距最为显著。这与STARE保护高惊讶度词（那些不常见但往往承载关键思维转折的词）的设计初衷完全吻合。

研究团队还进行了一项精细的消融实验：分别测试了四种“单极性操作”（只调整四个象限之一）和四种“双极性组合操作”，共八种变体。结果发现，所有八种变体都能有效缓解熵崩溃，但表现最佳的是“放大好答案中的高惊讶度词”（O1变体）和“同时放大好答案高惊讶度词、缩小差答案高惊讶度词”（C2变体），两者分别达到AIME24准确率44.2%和42.5%。这个对比证明了理论推导中的四象限分析是实际有效的，每个象限都真实地对应着一类有意义的干预方向。

另一个关键对比是将STARE的动态分位数选词方式，与一种简单替代方案进行比较：简单替代方案是把“概率低于0.1的所有词”全部放大权重。这个方案只能让AIME24提升1.8个百分点，而STARE能提升7.1个百分点。这个差距直观地说明了动态、自适应地从当前批次中选取关键词，远胜于使用一个固定阈值强行划线。

六、为什么这件事比看起来重要得多

STARE的意义不仅仅在于让几个数学测试分数变得更高。它指向的是AI训练中一个更基本的问题：长周期训练的可持续性。

目前，大多数AI模型的强化学习训练都在几百步到一两千步时就因熵崩溃而被迫停止，继续训练反而会导致性能退步。STARE在实验中证明，至少在5000步时模型性能仍在稳定提升，真正的性能上限究竟在哪里，目前还无法确定。这意味着此前整个领域都可能低估了强化学习训练AI的潜力，以为遇到了瓶颈，实际上只是因为训练方式上存在一个可以修复的缺陷。

从Pass@32这个指标（让AI对同一道题回答32次，只要有一次答对就算通过）来看，STARE训练的模型在整个训练过程中始终保持着比对照组更高的值，说明模型内部保留了更多的多样性和探索能力。这类似于一个学生在考试中不仅知道一种解题方法，而是内心储备了多条备用路径。当遇到新题型时，这种储备的价值就体现出来了。

此外，STARE的介入方式极为轻量。它没有修改GRPO的核心算法，没有增加额外的计算开销（惊讶度是生成文本时顺手就能获得的信息），也没有引入新的超参数组合难题。它只是在原有框架内，对一小部分词语的梯度贡献进行了微小调整，就实现了显著的效果改善。这使得它在工程实践中非常容易被已有的训练流程采纳。

说到底，STARE这项工作真正的贡献，在于它把一个此前只能模糊感知、难以解释的训练问题（“AI为什么会越训越僵化？”），转化成了一个具有明确数学形式的机制分析，然后基于这个分析设计出了一个有针对性的、理论上可证明有效的解决方案。这条从“发现问题”到“分析本质”到“设计方案”再到“实验验证”的完整链条，为AI训练领域提供了一个可以借鉴的研究范式。

归根结底，熵崩溃这个问题就像是训练过程中一块慢慢积累的水垢，堵塞了AI继续学习的管道。STARE做的事情，是找到了水垢积累的化学原理，然后配制了一种精准的清洁剂，只作用于积垢的地方，不伤害管道本身。未来随着AI模型规模越来越大、训练时间越来越长，这样的“管道维护”工具会变得越来越重要。

Q&A

Q1：STARE方法是如何选出那些“关键词”的？

A：STARE在每个训练批次中，分别从“被评为好答案的词组”和“被评为差答案的词组”里，按照每个词被AI生成时的概率高低进行排序——概率越低，说明AI越“惊讶”，排名就越靠前。然后，取各自排名前10%的词作为关键词集合。这个方法不需要任何额外计算，因为生成文本时模型自然就会产生这些概率值，非常轻量高效。

Q2：熵崩溃只在数学题训练中才会出现吗？

A：并非如此。研究中验证的场景除了数学推理之外，还包括需要撰写长篇推导过程的“长链推理”场景，以及AI需要在对话中反复调用工具（如计算器）的“多轮工具调用”场景。在这三类场景中都出现了熵崩溃，并且STARE在三类场景中都有效缓解了这个问题，这说明熵崩溃是当前强化学习训练框架中一个相当普遍的现象。

Q3：STARE和DAPO这类方法有什么本质区别？

A：DAPO等方法主要在答案层面（整条回答路径）进行调整，例如改变对低概率词的惩罚力度或调整不同答案之间的权重比例，属于较粗粒度的干预。STARE则深入到了单个词语的层面，基于每个词对熵的影响方向来差异化调整其训练权重，并且有严格的数学推导作为支撑。打个比方，DAPO像是给整道菜调整咸淡，而STARE像是精确地为每种食材单独调味，颗粒度更细、理论基础更扎实。

来源：https://www.163.com/dy/article/L02CVNOF0511DTVV.html

AI训练

上一篇豆包新功能一句话打车上线太惊艳 下一篇AI自己设计训练场地的想法实现了吗

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。