中科院自动化所揭示强化学习崩溃真相与解决方案

时间：2026-07-01 11:03

先说几句判断：这项由中国科学院自动化研究所与国科大人工智能学院联合进行的研究，于2026年6月以预印本发布，编号是arXiv:2606 26027。感兴趣的读者，可以直接根据这个编号去查阅完整论文。当聪明的AI学生遇到“自由发挥”的考试不妨设想一下：你是一位严格的烹饪学校校长，手下有个天赋异禀的学生

先说几句判断：这项由中国科学院自动化研究所与国科大人工智能学院联合进行的研究，于2026年6月以预印本发布，编号是arXiv:2606.26027。感兴趣的读者，可以直接根据这个编号去查阅完整论文。

当聪明的AI学生遇到“自由发挥”的考试

不妨设想一下：你是一位严格的烹饪学校校长，手下有个天赋异禀的学生厨师。最初，你手把手地教他每道菜的做法，他学得有模有样。后来，你决定让他参加一场全新的比赛——不再提供任何菜谱，而是让他自己去摸索，做对了奖励，做错了扣分。结果呢？这个学生不仅没进步，反而越来越离谱，最后做出来的所谓“菜”，根本就是一堆毫无意义的食材碎片。

没错，这个比喻几乎完美地再现了近年来AI研究中的一个头疼问题：当研究人员尝试用“强化学习”（一种让AI通过反复试错来自我提升的训练方式）来教导ChatGPT这类大型语言模型，学会使用外部工具时，AI偶尔会突然“崩溃”，性能一落千丈，甚至彻底瘫痪。

这项研究要做的，就是把这块遮羞布彻底扯下来，找出崩溃背后的真相，并系统性地给出修复方案。

一、AI的“工具使用”到底是什么

要搞清楚这个问题，得先理解“工具使用”在AI领域是怎么一回事。现代大型语言模型的本质，其实只擅长处理文字，就像一个博学的图书馆员，能回答你各种问题，但他自己没法出门查资料，没法帮你订机票，也没法查实时天气。

所以研究人员设计了一种机制，让AI学会“调用外部工具”。比如，用户问“明天北京的天气怎样”，AI不是脑补一个答案，而是向一个天气查询API发送格式规范的请求，拿到真实数据后再回复用户。这就相当于给那位图书馆员配了电话、电脑和搜索助理，能干的事情瞬间就拓展了。

这种“工具调用”在格式上必须极端严格。AI得用特定的语法（比如用特殊标签包裹符合JSON格式的指令），系统才能看懂并执行。这个格式，就像烹饪学校的标准菜谱格式——差一个标点符号，整道菜就毁了。

更复杂的是，现实中的任务往往需要多轮交互。用户问问题，AI调用工具，工具返回结果，AI再根据结果继续对话或调用下一个工具。整个流程，就像一个侦探在破案，不是一次性拿到答案，而是不断收集线索、交叉验证，才能最终还原真相。

研究团队在这项工作中，选用了名为BFCL-V3的基准测试平台，这是一个专门用来评测AI多轮工具调用能力的“闯关游戏”，囊括了普通场景、缺少某些功能、缺少某些参数，以及超长对话等多种情况。实验对象是阿里巴巴开发的Qwen2.5-1.5B-Instruct和Qwen3-1.7B这两款轻量级但代表性很强的模型。

二、强化学习：听起来很美，现实却令人头疼

强化学习的思路，说起来很直观：让AI自己去试，做对了给奖励，做错了不给（甚至惩罚），如此反复，它慢慢就会学会正确的行为模式。这背后的逻辑，有点像训练小狗：做对了给零食，做错了没零食，小狗自然就学会了坐下、握手。

然而，当这套方法套用到多轮工具调用上时，麻烦就来了。

实验中，研究团队观察到两个令人沮丧的现象：一是训练过程极不稳定，奖励曲线像过山车一样忽高忽低；二是在某些模型上，AI的表现会从“勉强能用”瞬间跌到“完全失效”。以Qwen2.5-1.5B为例，直接上强化学习训练，最终平均得分居然是0分——而它不训练时的原始得分是3.5分。越练越差，这显然不是我们想要的。

三、幕后真凶：是哪里出了问题

团队没有止步于记录崩溃现象，而是深入追查了背后的机制。他们发现，这个崩溃，并不是AI“忘记”了怎么去完成任务。换句话说，AI的核心推理能力，其实并没有丢掉。

他们做了一个关键实验：在已经崩溃的模型上，把提问的格式稍微调整一下，结果发现，模型在某些不同格式下，仍然能表现出一定的工具调用能力。这说明什么？——AI的知识和能力还在，只是被某种格式问题给“遮住”了。

类比一下，就像一个厨师学了一身厨艺，但因为某些奇怪的训练，他的大脑把“开始烹饪”和“结束服务”这两个信号搞混了。于是，他每次进厨房，拿起锅铲，下一秒就脱口而出“结束服务”，什么都做不出来。但是，如果你换一个场景，用不同的方式问他，他却能回忆起菜谱。问题不在厨艺消失，而是信号错乱。

这个发现至关重要：它告诉我们，多轮工具调用的强化学习，对结构性标记的敏感度远高于普通的推理任务（比如做数学题）。如果没有恰当的约束，强化学习会不成比例地强化某些控制标记，最终导致整个生成结构土崩瓦解。

四、监督信号：给失控的学徒重新上一课

既然找到了病因，团队开始系统性地探索修复方案。他们将各种干预方式统称为“监督信号”，并设计了一个统一的实验框架来公平比较。所有方案被分为两大类：同步训练（监督信号和强化学习同时上进行）和交错训练（两者交替进行，而不是同时混在一起）。

回到烹饪学校的比喻：同步训练就像一边看菜谱练习，一边直接参赛；交错训练则是先专门学菜谱，再去比赛，比赛完再回来练，循环往复。

团队一共系统研究了五种监督信号，每一种都有自己独特的逻辑和效果。

五、五种监督信号大比拼

方案一：SFT监督（先监督微调，再强化学习）。这是最直接的做法：先用大量高质量示范数据，手把手教模型掌握正确的工具调用格式和基本能力，再上强化学习优化。对于Qwen2.5-1.5B，效果显著：先用BFCL数据集微调，再上强化学习后，平均得分达到17.25，远超仅做强化学习时的0分，训练过程也稳定很多。但隐患是，模型会深度“记住”训练数据的格式，一旦在实际使用中遇到不同格式，表现就会急剧下滑。

方案二：离线策略监督（OPS）。灵感来自已有研究：既然模型自己探索出来的轨迹质量参差不齐，那不如把一部分“标准答案轨迹”混入训练数据。团队尝试把7条模型自己的轨迹和1条标准答案轨迹混在一起处理。结果令人失望：Qwen2.5-1.5B平均得分为1.5分，Qwen3-1.7B更是0分。原因在于，模型自己生成的轨迹与标准答案轨迹的分布差异太大，同时训练造成了严重的分布冲突，KL散度飙升，训练极度不稳定。

方案三：基于提示的引导（HBG）。更像一种临时“小抄”策略：在模型生成轨迹时，给一个包含正确做法提示的纸条作为参考，让它生成更好的轨迹。关键在于，提示只在生成阶段使用，计算梯度更新时则去掉提示，让模型在无提示状态下承担学习责任。但实验结果同样不理想：Qwen2.5-1.5B得0分，Qwen3-1.7B得0.75分。同步训练依然无法解决分布冲突的根本问题。

方案四：错误轨迹监督（ETS），这是团队正式开始应用交错训练范式的方案。做法是：先进行一轮强化学习，收集那些模型反复失败的问题，然后暂停强化学习，针对这些难题用标准答案做一轮监督微调，之后再继续强化学习。如此循环往复，并且随着训练推进，强化学习的比例逐渐增大。成绩明显提升：Qwen2.5-1.5B平均得分20分，Qwen3-1.7B平均得分23.25分，远超前几种方案。训练过程也稳定很多，KL散度曲线不再剧烈震荡。

方案五：过程反思监督（PRS），这是研究团队自己提出的创新方法，也是整个研究中最有创意的一个部分。

六、过程反思监督：让AI学会从失败中写总结

PRS的核心思路是：强化学习过程中，模型会产生大量中间轨迹，其中包含了丰富的过程信息——哪一步做对了，哪一步做错了，为什么出错，应该怎么改。以往的强化学习，只用最终的成败奖励来指导学习（0分或1分），完全忽视了这些中间信息，就像只给了学生期末成绩单，却没有过程反馈。

PRS做的事情，是把这些轨迹信息喂给另一个大型语言模型（研究中用了GPT-4o-mini），让它来分析轨迹并生成详细的文字反思报告。报告会指出：用户意图是什么，模型做了什么，哪一步出了什么类型的错误，根本原因是什么，正确的做法是什么，以及类似场景下该如何举一反三。

然后，这些反思报告作为额外的训练数据，和错误轨迹的标准答案一起，对模型做监督微调，再继续强化学习，如此交错进行。

这套方案让模型不仅学到了“这道题的正确答案是什么”，还学到了“这种类型的问题应该怎么思考”。这是一种更深层次的过程级监督，不只是结果级监督。

实验结果印证了这种思路的价值：Qwen2.5-1.5B在PRS方案下平均得分达到25.75分，是所有方案中最高的；在Base场景下更达到31分，相比完全不训练的3.5分，提升了27分。Qwen3-1.7B在PRS方案下也达到了19.5分的平均成绩。

七、泛化能力：AI学了一套，能不能用在别处

学会一件事，能不能在类似的场景中灵活运用，是衡量真正能力的标准。团队特意设计了泛化测试，使用另一个叫ACEBench的评测平台，专门检测模型在“分布外”（OOD）场景下的表现。

泛化测试分成两个维度：一是“内容分布外”，即题目内容和工具类型与训练时不同，但提问格式相同；二是“格式与内容都分布外”，即内容不同，连提问格式也不同。这两个维度的区分很关键，因为它们考察的是不同层面的泛化能力。

实验结果很有意思。先做监督微调再做强化学习的方案（如SFTBFCL+RL），在分布内测试中表现不错，但在“格式与内容都分布外”测试中得分直接是0——这说明SFT让模型死记硬背了训练格式，一换格式就不认识了。研究团队称之为“格式过拟合”，就像那位厨师，只会在自家厨房的炉子上做饭，换到别人家就不会开火了。

与此相对，那些看起来在训练中不稳定甚至“崩溃”的方案（如纯强化学习GRPO、离线策略监督OPS、基于提示引导HBG），在“格式与内容都分布外”测试中反而表现稳定。这正是之前那个关键发现的印证：这些方案的“崩溃”本质上是格式层面的问题，底层的推理和工具调用能力并没有真正丧失，只是被特定的格式问题遮蔽了。

PRS方案在这个泛化测试中展现了最佳的综合素质：它在“内容分布外”测试中得了25.8分，在“格式与内容都分布外”测试中也达到12分，是所有方案中最平衡的。研究团队认为，这是因为PRS让模型学到的不仅是格式，而是工具调用背后的逻辑推理结构，这种深层能力能更好地跨越格式障碍。

八、学习率：调得太保守，进步也受限

团队还专门研究了学习率（即每次更新模型参数的步长）对训练效果的影响。

实验发现，用很小的学习率（10的负6次方）效果有限，模型进步很慢，说明在多轮工具调用任务中，过于保守的步幅无法有效稳定复杂的多步行为。把学习率提高到10的负5次方后，效果明显改善，SFT阶段的收益更显著，ETS方案的所有指标也都全面改善。

一个有趣的发现是：用ToolACE数据集训练的模型，在高学习率下起初表现较差（因为ToolACE数据的分布和BFCL评测的分布有差异），但在随后的强化学习阶段，模型反而能迅速恢复，最终达到不错成绩。这说明强化学习有能力“纠正”SFT阶段留下的偏差，把被压制的能力重新激活。

总体而言，研究团队认为，多轮工具调用的强化学习训练，可能比通常使用的学习率需要更大一些。这或许也是为什么共享学习率的同步训练方案总是不稳定的原因之一。

九、Qwen3模型的特殊问题：思考模式的干扰

在Qwen3-1.7B这个更复杂的模型上，团队遇到了一个特殊挑战。Qwen3被设计为生成回答之前，先产生一段明确的“思考”内容，格式上使用特殊标签包裹。当思考模式被关闭时，模型在提示词中需要显式写入一个占位符，告诉模型“跳过思考，直接回答”。

问题出在SFT和强化学习的衔接上：SFT阶段使用的训练数据中没有这个思考标签，但到了强化学习阶段，提示词格式里又加入了它。这种格式上的“偷换”，导致SFT学到的格式和强化学习采样时的格式出现错位，最终引发灾难性崩溃——Qwen3在SFT+RL方案下的得分直接变成0。团队通过对比实验证实了这一点：去掉这个思考占位符的版本，训练曲线稳定了很多。

这个案例说明了一个更普遍的道理：在多阶段训练中，任何细微的格式不一致，都可能被放大成严重的稳定性问题。格式的严格对齐，是成功的前提条件之一。

结语

归根结底，这项研究做了一件很有价值的事：它不满足于只记录“AI训练有时会崩溃”这个现象，而是追问了为什么崩溃、崩溃的本质是什么、各种补救方案各自的优势和局限是什么。

核心发现可以用一句话概括：多轮工具调用中的强化学习崩溃，本质上是一个格式结构崩溃问题，而不是能力丧失问题。AI的知识和推理能力往往还在，只是被混乱的控制标记给“堵塞”了。而交错进行监督学习和强化学习，尤其引入过程级反思信号，是目前最有效的修复路径。

对普通用户来说，这项研究的意义在于：你以后使用的AI助手，能更稳定、更可靠地帮你订机票、查信息、执行复杂任务，而不是在关键时刻突然“发疯”，输出一堆无意义的乱码。这背后，是研究人员在训练方法上的精细打磨。

对于研究社区，这项工作明确指出了一条方向：在设计更复杂的智能体系统时，格式结构的稳定性和过程级监督信号的引入，应该被列为与最终奖励设计同等重要的核心问题，而不是被忽视的细节。

想深入了解技术细节的读者，可以通过arXiv编号2606.26027查阅完整论文，代码也已在GitHub上以Tool-RL-Box为名开源发布。

Q&A

Q1：强化学习为什么会导致大型语言模型在工具调用任务中崩溃？
A1：根本原因不是AI能力丢失，而是格式结构的崩溃。强化学习在训练过程中，不成比例地强化了某些控制标记，导致模型内部的格式生成结构瓦解。AI的核心推理能力和工具调用知识还在，但被错乱的格式标记“堵住”了，无法正常输出。

Q2：过程反思监督（PRS）和普通的监督微调有什么区别？
A2：普通监督微调只告诉模型“这道题的正确答案是什么”，相当于只给期末成绩单。PRS则是用另一个AI分析训练中产生的失败轨迹，生成详细的文字反思报告，指出每一步的对错及背后原因，并用这些过程级报告训练模型。这让模型不只学会正确答案，还学会了解决这类问题的思维逻辑，因此泛化能力更强，对格式变化的抵抗力也更高。

Q3：交错训练和同步训练有什么区别，哪种更好？
A3：同步训练是把监督信号和强化学习混在一起同时进行，比如一边做强化学习一边混入标准答案轨迹。交错训练是两者轮流进行：先专门做一段监督学习，再做一段强化学习，如此循环。实验结果显示，交错训练明显更稳定、效果更好。同步训练容易因为轨迹分布不一致，导致KL散度飙升、训练震荡，而交错训练让两种学习方式在各自的节奏下进行，互不干扰。

来源：https://www.163.com/dy/article/L0N2GRQC0511DTVV.html

中国科学院