中科大联合阿里通义实验室揭示大语言模型训练的熵动力学机制_AI热点日报

中科大联合阿里通义实验室揭示大语言模型训练的熵动力学机制

类型：热点整理2026-05-12

这项由中国科学技术大学和阿里巴巴通义实验室于2025年联合发表的研究（arXiv:2602 03392v1），为大语言模型（LLM）的强化学习微调过程提供了一个深刻的理论透镜。它首次精确揭示了模型“创造性”或“输出多样性”如何随时间演变的数学规律，这一规律被命名为“熵动力学”。一、初识“熵”这个神

这项由中国科学技术大学和阿里巴巴通义实验室于2025年联合发表的研究（arXiv:2602.03392v1），为大语言模型（LLM）的强化学习微调过程提供了一个深刻的理论透镜。它首次精确揭示了模型“创造性”或“输出多样性”如何随时间演变的数学规律，这一规律被命名为“熵动力学”。

中科大与阿里通义实验室联手：揭秘大语言模型训练中的

一、初识“熵”这个神秘概念

训练一个大语言模型，其过程类似于引导一位天赋异禀的学生。在初始阶段，模型面对问题时的回答可能天马行空，答案五花八门。这种输出的不确定性或多样性，在信息论中用一个核心概念——“熵”来量化。熵值越高，意味着模型的“创造性”越强，答案更具出人意料性；熵值越低，则说明模型趋于“保守”，倾向于给出最稳妥、最常见的标准答案。

例如，当你询问一个未经充分微调的模型“天空是什么颜色的？”，它可能会列举出蓝色、灰色、甚至橙色或紫色等多种答案。然而，经过大量以“正确性”为目标的强化学习训练后，模型会学会在绝大多数场合下都优先回答“蓝色”。这个过程，直观地体现了模型熵（即创造性）的下降趋势。

研究团队观察到一个普遍但关键的现象：在标准的强化学习微调过程中，模型的熵往往会快速且持续地下降。这就像一位原本思维发散的学生，在应试训练下逐渐收敛思维，只敢给出最保险的标准答案。其背后的驱动力非常直接：模型通过试错发现，选择那些高频、高概率的“安全”词汇更容易获得奖励信号。然而，若对此趋势不加约束，模型极易陷入“局部最优”，丧失探索新颖、潜在更优解决方案的能力，最终导致创造力枯竭和泛化能力减弱。

二、破解熵变化的数学密码

研究团队的工作，如同为这一现象构建了一套“预测物理学”。他们建立的理论框架，能够精确量化训练过程中每一步对模型熵的影响。

这套理论的核心是一个称为“判别分数”的指标。你可以将其理解为每个词汇自带的“创造性倾向指示器”。当模型考虑使用某个词时，这个分数能精准预测，选择该词将会导致模型整体熵（创造性）的增加还是减少。

他们推导出一个简洁而有力的数学关系：熵的变化量，等于负的判别分数乘以模型参数的更新强度。这意味着，训练过程对创造性的影响，可以被精确地分解、追踪和预测。

更有趣的是，当研究团队将这一理论应用于分析当前流行的GRPO等训练算法时，发现了一个理想条件下的平衡态：如果训练过程完全随机且均匀，所有词汇对熵的净贡献平均会相互抵消，从而使模型的总创造性保持稳定。但现实情况是，训练信号天然地偏向于奖励那些已经具有高概率的“安全”词汇，这就打破了平衡，导致了我们观察到的熵的持续性下降——如同天平的一端被不断加重。

三、设计熵控制的实用方法

基于上述理论洞察，研究团队提出了两种切实可行的干预方法，旨在为训练过程装上“创造性调节阀”。

第一种方法称为“批次归一化熵判别器裁剪”。其思路非常直观：在每一轮训练中，计算所有词汇判别分数的分布，然后识别并“裁剪”掉那些数值异常极端（无论是正或负）的词汇。这些异常值就像是合唱团中严重走调的声音，会对整体和谐（熵的稳定）造成过度影响。通过只保留判别分数处于合理范围内的词汇参与参数更新，就能有效平滑训练过程，防止创造性发生剧烈波动。

第二种方法更为精细，叫做“词汇归一化熵判别器裁剪”。它不仅考虑词汇在当前批次中的表现，还将其与在整个词汇表中的期望贡献进行比较。这就好比评估一个学生，不仅看其本次考试分数，还要参考其长期成绩排名。这种方法能更精准地定位那些长期、系统性破坏创造性平衡的词汇，并进行针对性抑制。

实验证明，这两种方法都能显著稳定训练过程中的熵水平。更重要的是，它们带来的不仅是创造性的维持，更是模型实际性能的提升。在数学推理、代码生成等需要灵活思维的任务上，采用这些方法训练的模型展现了更强的探索能力和更丰富的解题路径。

四、重新理解现有训练方法的奥秘

这套熵动力学理论，如同一把万能钥匙，为许多现有但原理模糊的训练技巧提供了统一的解释框架。

过去，研究人员常使用各种“黑盒”技巧来稳定训练或提升效果，但往往知其然而不知其所以然。现在，从熵动力学的视角回看，这些方法可以被清晰地归类并理解：

1. 裁剪机制： 通过限制参数更新的幅度来防止训练崩溃。理论分析表明，其本质是约束了低概率词汇（往往是创造性来源）对模型参数的过度影响，从而避免了熵的剧烈变化。

2. 熵正则化： 直接在训练目标中增加一项鼓励高熵（多样性）的惩罚项。研究发现，只对熵值最高的前20%词汇进行此类正则化效果最好，因为这恰好精准地奖励了那些对维持创造性最关键的选择。

3. 概率加权更新： 根据词汇概率分配不同的更新权重。理论揭示，这实际上是在重新平衡“探索”（常关联低概率词）与“利用”（常关联高概率词）之间的力量对比，从而间接调控了熵的变化趋势。

这种统一的理解，不仅解释了既有方法的有效性，更为未来设计更高效、更可控的大语言模型训练算法奠定了坚实的理论基础。

五、实验证实理论的威力

任何理论的终极试金石都是实验验证。研究团队设计了一系列严谨的实验来检验其预测。

首先，他们验证了“判别分数”作为预测指标的有效性。当实验性地只训练判别分数为正的词汇时，模型的熵如预期般上升；反之，只训练判别分数为负的词汇时，熵则下降。这直接证明了理论框架的预测能力。

随后，在真实的数学推理任务（如AIME24、AIME25数据集）上测试新提出的熵控制方法。以7B参数的Qwen2.5模型为例，采用“批次归一化裁剪”方法后，在AIME24上的准确率从16.88%提升至19.69%，在AIME25上从15.42%提升至16.35%。在顶级数学竞赛难度的问题上，这种幅度的提升具有显著意义。

更深入的分析揭示了模型行为模式的改变。传统训练方法下的模型，其表现常呈“两极分化”：要么完全解不出某类题（成功率0%），要么轻松攻克（成功率100%）。而经熵控制方法训练的模型，其能力分布更为平滑均衡，在不同难度的问题上都能保持一定的解决能力，这表明模型减少了对“死记硬背”式安全策略的依赖，学会了更灵活的思考。

这种改进在不同模型规模（从4B到14B参数）和不同任务类型（数学、代码）上均得到验证，体现了该理论框架的普遍适用性。

六、探索与利用的微妙平衡艺术

机器学习中长期存在一个核心权衡：“探索”未知领域以发现新机会，与“利用”已知经验以获取稳定收益。熵动力学为理解和调控这一平衡提供了新的量化工具。

传统的强化学习微调往往过度偏向“利用”侧，导致模型保守化。新的熵控制方法，本质上是在校准这个天平。通过识别并保护那些促进“探索”（增加熵）的词汇选择，同时抑制过度“利用”（减少熵）的倾向，模型得以在可靠性与创新性之间找到更优的平衡点。

这种平衡改善直接体现在模型输出的质量上。研究人员观察到，使用新方法训练的模型在解题时，会尝试更多样的推理路径和表达方式，即使最终答案相同，其思考过程也展现出更接近人类专家的灵活性和逻辑性。

七、理论框架的广泛启示

这项研究的价值，远不止于几个实用的训练技巧。它构建的理论框架，为理解AI训练的根本动态提供了新范式。

研究指出，创造性丧失的根源在于训练信号的不对称性：模型因输出“正确”答案而受奖，却因尝试“可能正确”的新颖答案而承担风险（可能受罚）。这种机制在短期提升性能的同时，长期会削弱模型的适应性与泛化能力。

这一发现对AI安全与可控性研究尤为重要。一个过度保守、缺乏探索能力的模型，在面对全新或对抗性情境时可能异常脆弱。熵动力学提供了一套监控和干预这种状态的指标与工具。

此外，该理论所揭示的数学规律在不同模型和任务中展现的一致性，暗示着可能存在支配AI学习过程的更基础性原理，类似于物理学中的守恒定律。这也为AI可解释性研究开辟了新路径——通过监控熵的动态，我们可以更直观地理解模型的学习状态与潜在缺陷。

八、面向未来的技术展望

基于此项研究，大语言模型的训练技术有望走向更精细、更可控的新阶段。

未来，可以针对不同任务（如创意写作vs.事实问答）设计定制化的熵调控策略，实现“因材施训”。该理论也有望扩展至图像、音频等多模态模型的训练中，指导构建更通用、更健壮的AI系统。

从工业实践角度看，这些熵控制方法计算开销相对较小，易于集成到现有训练管线中，具备快速落地的潜力。更重要的是，它代表了一种研究范式的转变：从依赖经验直觉的“炼金术”，转向基于数学理论预测与设计的“现代化学”。

归根结底，这项合作研究不仅破解了大模型训练中创造性流失的谜题，更重要的是提供了一套强大的理论工具和分析语言。它证明，即使在最复杂的AI系统内部，其学习行为也遵循着可被数学描述和调控的基本规律。这对于开发既强大又灵活、既可靠又富有创造力的下一代人工智能，无疑指明了关键的方向。

对技术细节感兴趣的读者，可查阅论文arXiv:2602.03392v1获取完整信息。

Q&A

Q1：什么是大语言模型训练中的熵动力学？

A：熵动力学描述了大语言模型在强化学习微调过程中，其输出多样性（即“熵”或“创造性”）随时间变化的精确数学规律。这项研究通过理论框架精确刻画了这一过程，解释了模型为何以及如何从多样化的输出变得趋于保守，并提供了控制这一变化的方法。

Q2：为什么大语言模型在训练后会变得缺乏创造性？

A：核心原因在于训练机制的奖励导向存在偏差。模型通过试错学习到，选择那些高频、高概率的“安全”词汇或回答模式，更容易获得正向奖励。这导致它逐渐放弃对低概率但可能新颖的选项的探索，从而在行为上表现为创造性下降和答案趋同，即“熵”的持续衰减。

Q3：中科大和阿里提出的熵控制方法如何改善模型性能？

A：他们提出了两种基于“判别分数裁剪”的策略，能够在训练过程中实时识别并抑制那些会对模型创造性平衡造成极端破坏的词汇更新。这好比为训练过程安装了“稳定器”，使得模型在优化正确答案的同时，不至于过度牺牲输出的多样性和探索能力。最终结果是，模型在复杂任务（如数学推理）上不仅准确率可能提升，更重要的是展现出更丰富、更灵活的问题解决策略和更强的泛化能力。

来源：https://www.techwalker.com/2026/0209/3178880.shtml

模型训练

延伸阅读

补充最近整理过的热点入口。