KAIST团队教会AI突破瓶颈的创新思考方法

时间：2026-05-24 17:12

韩国研究团队提出“策略助推”方法，通过为AI提供不同解题方向的提示，强制其探索多样思路，避免陷入思维定式。该方法结合组间-组内评分与知识蒸馏机制，使AI在数学竞赛题上仅用八分之一计算资源，即超越传统“暴力”训练方案的表现，有效提升了探索效率与模型能力。

最近，一篇由韩国科学技术院（KAIST）与DeepAuto.ai合作完成的研究，在AI训练领域提出了一个相当巧妙的思路。这篇题为《Nudging Beyond the Comfort Zone: Efficient Strategy-Guided Exploration for RLVR》的论文，探讨的核心问题其实很普遍：如何让AI跳出思维定式，变得更聪明？

如果把训练AI解决数学难题比作培养一位侦探，那么这项研究瞄准的，正是每个新手侦探都会掉入的陷阱——面对案件，总是不自觉地重复使用同一套侦查思路，哪怕此路不通，也很难主动换个角度。研究团队给出的解决方案出人意料地简单：与其让侦探在一条线索上反复打转，不如直接塞给他几张写着不同侦查方向的小纸条，强制他尝试不同的破案路径。这个看似微小的干预，却让AI在数学竞赛题上的表现大幅跃升，甚至超过了那些耗费八倍计算资源的“暴力”训练方案。

一、侦探的舒适区陷阱：为什么AI总用同一招

要理解这项研究的价值，得先看看当前训练AI解题的主流方法卡在了哪里。目前业界广泛采用一种名为“可验证奖励强化学习”的方法。名字听着复杂，但原理就像训练侦探：给他一个案子，让他自己推理，破案成功就给奖励，失败则没有。经过成千上万次练习，侦探自然就学会了。

其中，一个叫GRPO的方法颇具代表性。它的运作方式是：每接到一个案子，就让侦探同时写出八份不同的破案报告，然后对比这八份报告的好坏，从对比中学习进步。

听起来很合理，对吧？但问题恰恰出在这里。这位侦探有自己最顺手、最依赖的破案套路。让他写八份报告，他很可能只是用同一种方法写了八遍，只是细节上略有差异。这就好比一个习惯靠指纹破案的侦探，你让他尝试新方法，他交上来的八份报告全在分析指纹，只不过换了几根手指头而已。如果案子本身不适合指纹分析，那这八份报告就全军覆没了。

研究团队引用了一项先前的理论分析，点明了这个问题的数学本质。简单说，AI能力的进步，真正依赖的是它“采样到的正确答案”。而那些它明明知道、却压根想不到去尝试的正确路径，反而会成为拖累。这意味着，瓶颈不在于AI能否识别正确答案，而在于它根本不会往那个方向去想。

那么，最直接粗暴的解决办法是不是增加报告数量？既然八份不够多样，那就写六十四份。理论上可行，但研究团队用一个简单的计算揭示了这条路的死胡同：如果某种正确思路在AI脑中间出现的初始概率只有1%，那么平均需要写一百份报告才能碰上一次；如果是0.1%，则需要一千份。这种“撞大运”的方式不仅成本高昂得令人咋舌，对于那些真正巧妙却罕见的解法，几乎永远也碰不上。实验数据也证实了这一点：当报告数量从三十二份增加到六十四份时，AI的表现不升反降，说明单纯堆砌数量已经失去了意义。

二、给侦探递小纸条：策略助推法的妙处

研究团队的核心创意，就是这个被称为“策略助推”的方法。延续侦探的比喻，他们的做法相当于：在侦探动笔写报告前，先给每份报告附上一张小纸条，上面指定一个具体的侦查方向。比如，第一份纸条写“重点分析指纹”，第二份写“彻查监控录像”，第三份写“梳理证人证词”。这样一来，侦探就被强制要求尝试不同的路径，再也无法八份报告都用同一招了。

具体到数学题场景，这些小纸条上写的是诸如“考虑西函数方程”、“尝试数学归纳法”、“利用线性函数性质”之类的方向性关键词。注意，纸条上给的既不是答案，也不是解题步骤，仅仅是一个思考方向的提示，相当于对AI说：“这次，试着往这个方向想想看。”

这里的设计尤为精妙。研究团队意识到，如果只是把所有可能的方向堆在一起让AI自己选，它大概率还是会偷懒，回到最熟悉的老路。因此，他们采取了“强制分配”策略：每一份报告都被预先绑定一个方向，AI别无选择。

当然，完全强制也有弊端——如果AI永远只能按纸条指示思考，就丧失了自由发挥的能力。为了平衡，团队加入了一个“上下文丢弃”机制：每次训练，以50%的概率撤掉小纸条，让AI回归原始状态自由探索。实验表明，这个对半开的比例效果最佳，既保证了引导，又保留了自主性。

那么，这些写着方向的小纸条从何而来？研究团队用了一个很经济的办法：让一个相对廉价的语言模型（如GPT-4o-mini）为每道题目自动生成两个候选方向。这个过程是一次性的，生成后便可反复使用，不会增加训练过程的额外开销。更妙的是，这些纸条不需要经过验证——它们不一定指向正确答案，只要能引导AI尝试不同思路就足够了。

效果如何？一个直观的对比实验显示，在同样生成八份报告的情况下，传统方法产生的报告大多只涵盖一两种解题思路；而加入策略助推后，报告所涉及的不同思路数量显著增加，很多题目能覆盖四五种甚至更多的路径。这就像让那个只会指纹分析的侦探，突然学会了综合运用监控、证词、物证、动机分析等多种破案手法。

三、给奖励算账的新方式：组内组间双重比较

策略助推解决了思路多样性，却带来了新问题：如何公平地评价这些用不同思路写出来的报告？

继续用侦探比喻：假设一位侦探写了八份报告，四份用指纹分析法，四份用监控录像法。结果，指纹组有三份成功破案，监控组只有一份成功。那么，监控组里那唯一成功的一份，该如何评价？是因为它采用了更困难的方法而值得嘉奖，还是因为它所在的小组整体表现差而应被压低分数？

原来的GRPO方法简单粗暴，把所有报告放在一起比较。这会导致明显的不公：采用高难度方法成功的报告，可能因为同组伙伴大多失败，而被整体平均水平拉低，得到不应有的低分。这无异于把不同难度级别的选手混在一起排名。

为此，研究团队设计了“组间-组内双重优势”评分机制。它的工作原理是：先按小纸条的方向将报告分组，然后从两个层面评价每份报告。一是“组内比较”，看这份报告在自家小组里的相对表现；二是“组间比较”，看这份报告所在的小组在所有小组中的相对水平。最终得分由这两部分加权合成。

这里有一个关键的调节参数λ，用于控制两层评价的权重。实验发现，当λ设为1.1时效果最好，这意味着评分会稍微倾向于鼓励那些来自整体表现更优小组的成功报告。这个细微设定背后有深意：既然策略助推已在源头保证了多样性，那么在评价阶段，就可以稍微偏向于强化那些被证明“更靠谱的方向”，让AI学得更扎实。研究团队还从数学上证明了，只要λ的值在0到2之间，这套机制就能保证表现好的报告永远获得更高的评分，不会出现颠倒。

四、训练时开小灶，考试时靠自己：知识蒸馏的桥梁

策略助推还面临一个根本性挑战：训练时AI有小纸条提示，但实际应用（考试）时是没有的。如果AI只学会了“看纸条答题”，那训练得再好也是纸上谈兵——总不能真让AI带着小纸条去参加数学竞赛吧？

为此，团队设计了一个“自蒸馏”机制，本质上是在“有提示”和“无提示”两种状态间搭建一座知识桥梁。具体做法是：当AI在有小纸条的情况下产出了一份高质量解题报告时，系统会同步让处于“无纸条状态”的AI去学习这份报告。换句话说，AI不仅要学会“看着提示解题”，更要学会“在没有提示时，也能自然想到这种思路”。

这个机制与普通的模仿学习关键区别在于：它不是盲目模仿所有报告，而是根据每份报告的优势分数进行加权学习。表现越出色的报告，对“无提示AI”的影响越大；表现差的则几乎被忽略。这就确保了AI吸收的都是真正有价值的思路。

最终的训练目标，是将强化学习部分（让有提示的AI学得更好）和蒸馏部分（把好思路传递给无提示的AI）按比例结合。研究发现，将蒸馏的权重设为0.1时效果最佳——既能有效搭建桥梁，又不会过度约束AI的学习。

一个特别有趣的发现是，随着训练推进，“无小纸条”状态下的AI表现，有时甚至会超过“有小纸条”的状态。这说明小纸条的作用并非直接简化问题，而是引导AI探索那些它原本不会触及的思路。一旦这些思路被内化吸收，AI在毫无提示的情况下反而能发挥得更好。这与那些依赖“标准答案片段”的方法有本质区别——后者主要是让难题变简单，而这项研究是让AI本身变得更聪明。

五、实战检验：用八份报告打败六十四份

理论再漂亮，也得靠实战说话。研究团队在两个不同规模的AI模型上测试了他们的方法：一个是40亿参数的Qwen3-4B-Instruct，另一个是70亿参数的Olmo-3-7B-Instruct-SFT。测试题目来自五个不同的数学竞赛数据集，难度覆盖从高中竞赛到奥林匹克级别，包括AIME24、AIME25、AMC23、MATH500的最难子集，以及极具挑战性的Apex Shortlist数据集。

结果令人印象深刻。在40亿参数模型上，采用策略助推方法（每题仅生成八份报告）取得的平均成绩为0.489。而传统方法即使生成三十二份报告，最好成绩也只有0.487；当报告数量增加到六十四份时，成绩反而降至0.451。也就是说，新方法仅用八分之一的计算资源，就达到甚至超越了暴力堆砌资源的效果。

在70亿参数模型上，情况类似：新方法以八份报告取得了0.285的平均成绩，而传统方法即使用三十二份报告，也只能达到0.281。这种“四两拨千斤”的效果，对于实际应用意义重大——意味着开发者可以用更少的计算成本，训练出能力更强的模型。

团队还与另一种名为POPE的方法进行了对比。POPE的思路是给AI看部分标准答案作为提示，相当于让侦探瞥一眼破案报告的开头几行。这种方法的问题在于：生成标准答案片段需要依赖DeepSeek Reasoner这类强大模型，成本高昂；更重要的是，它倾向于让AI模仿一条特定解题路径，限制了思路的多样性。实验结果显示，新方法在两个模型上都超越了POPE，证明了“引导多样化探索”比“提供答案片段”更为有效。

六、深入案例：一道AIME题目的故事

为了具体说明新方法的优势，研究团队以一道2025年美国数学邀请赛（AIME）的题目为例。这道题涉及一个直角三角形和内部几个点的距离关系，要求计算某个四边形的面积。

传统方法训练的AI，在三十二次尝试中全部失败。它的失败模式很典型：大多采用坐标几何法，但在求解过程中陷入复杂的代数运算，推导越来越冗长，最终因篇幅限制被截断，无法得出答案。有些尝试则误入歧途，比如错误地假设三角形是等腰的，或陷入繁琐的面积分割法，结果同样是越算越乱。

而采用新方法训练的AI，在三十二次尝试中有六次获得了成功。成功的关键在于，它发现并采用了“鞋带公式”这条捷径。鞋带公式能通过多边形顶点坐标直接计算面积，比将四边形拆分为多个三角形分别计算要简洁得多。传统方法训练的AI虽然也偶尔尝试过鞋带公式（三十二次中仅一次），但运用生疏；而新方法训练的AI在十次相关尝试中，有六次成功运用该公式得出正确答案104。

这个案例生动展示了策略助推的双重价值：一方面，它让AI接触到了原本极少尝试的解题工具（鞋带公式）；另一方面，组间-组内的评分机制让AI学会识别并强化这种可靠的方法，最终将其内化为自身能力。

七、对比其他主流方法：为什么“引导式探索”更胜一筹

除了与传统方法对比，研究团队还和另一种流行的探索方法——“解耦剪辑”进行了较量。这种方法简而言之，是通过调整算法参数，让AI更大胆地朝好的方向更新。

实验显示，当该方法的关键参数从0.2逐渐增加到0.4时，AI的表现先是略有提升（在0.24到0.36区间），但在0.4的极端值时急剧下滑。整个过程中，该方法的最佳表现仅为0.566，而新方法在最保守的设置下就达到了0.598，全程保持领先。

这个对比揭示了一个深刻的道理：通过调整数学参数来“鼓励探索”，是一种相对盲目的方式。它只是让AI更激进地偏离当前路径，却没有指明应该偏离到哪里。这就像告诉侦探“你要大胆尝试新东西”，却不告诉他可以尝试什么，结果他可能尝试一些完全无意义的方向。相比之下，策略助推直接给出了“试试这个方向”的具体指引，是一种“有结构的探索”，效果自然更优。

八、深挖机制：为什么随机比精选更好

研究团队还做了一个反直觉的实验。他们对比了两种生成小纸条的方式：一种是随机生成两个方向；另一种是精心筛选——先生成五个候选方向，然后通过实际测试，选出能让AI表现最好的两个。

按常理，精心筛选应该效果更好。但实验结果恰恰相反：随机方式的平均成绩是0.598，而精心筛选的方式只有0.552。这是为什么？

研究团队的解释是：精心筛选出的方向，往往会集中在几个“最容易成功”的解题路径上。这反而限制了思路的多样性。AI虽然每次都能用这些“稳妥”方向得出答案，但它失去了接触各种不同思路的机会，整体能力的提升反而有限。随机方式虽然会包含一些不那么“完美”的方向，但正是这种多样性，让AI接触到更广阔的解题思路宇宙，从而获得更全面的能力提升。

这个发现强化了整项研究的核心理念：策略助推的关键作用，并非提供“最优答案的暗示”，而是迫使AI走出舒适区，去尝试各种可能性。多样性本身，就是最大的价值。

九、训练动态：策略助推让AI学得更快

研究团队还观察了AI在整个训练过程中的进步轨迹。结果显示，使用策略助推的AI不仅最终成绩更好，进步速度也更快。在训练进行到约200步时，新方法在AIME24/25数据集上的成绩就已超过0.42，而传统方法即使用更多报告，也只能在0.41附近徘徊或增长更慢。

更有趣的是，团队同时追踪了“有小纸条”和“无小纸条”两种状态下AI的表现，发现两者在整个训练过程中同步提升，甚至在后期出现了“无小纸条时表现更好”的情况。这说明蒸馏桥梁确实起到了作用——AI通过有提示的训练发现的好思路，被成功转移到了无提示的状态。

团队还测试了pass@k指标（即允许AI尝试k次，看其中至少成功一次的概率）。结果显示，新方法在k=1, 4, 16, 64, 256, 1024等各种设置下全面领先。这表明新方法不仅提升了AI单次回答的准确性，也拔高了其整体能力的上限。

十、研究的边界与未来：还能更聪明吗

尽管取得了显著成果，研究团队也坦率地指出了当前方法的局限。生成小纸条本身需要一些前期成本——尽管用的是相对便宜的语言模型，且是一次性投入，但毕竟存在。不过，考虑到其带来的效率提升，这笔开销仍然非常划算。

一个更值得深思的深层问题是：目前的小纸条是预先生成好的，与AI自身的学习状态无关。但随着训练推进，AI会越来越聪明，那些原本能引导它探索新方向的纸条，可能会逐渐失去挑战性。研究团队设想了一个未来方向：让小纸条的生成能够根据AI当前的知识状态动态调整，专门针对AI“还想不到的盲区”来生成提示。这种自适应的提示系统，或许能让训练效果长期保持高效。

说到底，这项研究最引人深思的地方，并不在于它在数学题上提升了几个百分点，而在于它揭示了一个朴素却重要的道理：让AI变得更聪明，未必需要海量的计算资源或复杂的数学技巧，有时候，只需要一个简单的引导——告诉它“换个思路试试”。

这种思路，在某种程度上呼应了人类学习的本质：一位好老师，不是直接给出标准答案，也不是让学生反复刷同一类题，而是引导学生从不同角度审视问题。研究团队用巧妙的工程方法，将这种“启发式教学”的智慧，成功地应用到了AI训练之中。

对于行业而言，这项研究代表了一个重要的发展方向——从“暴力堆资源”转向“巧妙引导”，从“提供答案”转向“鼓励探索”。这种转变意味着，未来的AI训练可能会更加经济、灵活，使得普通的研究团队或小型公司也能训练出强大的模型，而不必烧掉天价的算力。从更广的视角看，如果连AI学习都需要“换个思路”才能突破瓶颈，那么我们人类在面临学习和工作的困境时，是否也应该多给自己准备几张“思路小纸条”，强制尝试那些原本不会考虑的方向呢？

Q&A

Q1：策略助推方法到底是怎么让AI变聪明的？

策略助推的核心，是在每次解题前为AI预先分配一个具体的思考方向作为提示，例如“试试用归纳法”或“考虑函数方程”。这强制AI走出其熟悉的思维舒适区，去尝试不同的解题路径。这些方向性提示由一个廉价模型一次性生成，不包含答案也无需验证，仅起到引导多样性的作用。配合一半概率撤掉提示的机制，AI既能学到新思路，也能保留自主思考的能力。

Q2：为什么用八份报告的新方法能打败用六十四份报告的旧方法？

关键在于报告的多样性，而非单纯的数量。旧方法虽然生成了六十四份报告，但由于AI倾向于重复使用熟悉的思路，这些报告本质上是同一种方法的微小变体，浪费了大量计算资源。新方法虽然只生成八份报告，但每份都被强制引导至不同的解题路径，覆盖的思路范围反而更广。实验也证实，旧方法在三十二份时达到顶峰，增至六十四份时表现反而下降，说明单纯堆数量已无意义。

Q3：策略助推方法和那些用标准答案做提示的方法相比有什么优势？

使用标准答案片段作为提示的方法（如POPE），依赖昂贵的强大模型来生成答案片段，成本高且难以规模化。更关键的是，标准答案会将AI引导向一条特定的解题路径，限制了思路的多样性。策略助推使用的是廉价生成的关键词级提示，不包含任何答案信息，只指引方向。实验表明，这种“弱监督”方式效果更好，因为它鼓励的是探索多种可能性，而非模仿一条固定路径。

来源：https://www.163.com/dy/article/KTIJE2TV0511DTVV.html

AIST

上一篇吉利银河星耀7 MAX上市零百加速5.4秒售价9.88万起 下一篇涂鸦智能推出Tuya Cobuilder加速AI硬件开发周期

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。