香港科技大学AI实现自主调节破解探索与利用平衡难题

首页

热心网友

转载

2026-05-13

这项由香港科技大学、北京人工智能研究院与腾讯公司联合开展的研究，发表于2025年的国际学习表征会议（ICLR 2025）。研究团队提出了一种名为B-STAR的创新方法，旨在攻克人工智能在自我训练过程中长期存在的核心瓶颈。完整的研究细节可通过论文编号arXiv:2412.17256v2查阅。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

香港科技大学团队让AI学会

要理解这项工作的突破性，可以将AI的自学过程类比为学生的自主学习。当学生自学数学时，总会面临一个经典的两难抉择：是应该广泛尝试不同类型的题目以开拓思路（探索），还是应该反复练习已掌握的题型来巩固基础（利用）？过度探索可能导致时间浪费在超纲难题上；过度利用则容易陷入思维定式，难以实现能力突破。

当前，大型人工智能模型在自我进化时，正遭遇着几乎相同的困境。为处理复杂的推理任务，模型常需依赖自身生成的数据进行迭代优化，因为获取海量高质量人工标注数据的成本极高。然而，现有自我改进方法往往在仅3到5轮训练后性能便陷入平台期，无法继续提升。这好比学生自学几天后，便感觉再也学不到新知识了。

那么，瓶颈究竟何在？研究团队通过深入分析发现，核心症结在于系统难以有效平衡“探索”与“利用”这两个关键维度。具体而言：

探索能力，指模型产生多样化正确答案的潜力，如同学生尝试用多种解法攻克同一道题。
利用能力，则关乎外部奖励机制能否精准识别并筛选出高质量答案，好比老师需要具备精准评判答案优劣的慧眼。

为精确量化这两个要素，团队设计了一套创新的评估体系。针对探索能力，他们采用了“Pass@K”指标，用于衡量模型生成的K个候选答案中至少包含一个正确答案的概率。为更稳定地评估探索的广度，他们还提出了“Pass@K-S”指标，要求K个答案中至少有S个独特的正确解法。这就像考察学生的创造性——不仅要求能做对，还要评估能想出多少种不同的正确方法。

对于利用能力，团队引入了“Best-of-K”准确率和“Reward@K-S”指标。前者检验奖励函数排名第一的答案是否正确；后者则评估排名前S的答案是否都正确。这相当于测试老师的评分水平——能否将真正优秀的答案准确挑选出来并排在前列。

通过对数学推理任务的案例研究，一个明显的趋势浮现出来：随着训练轮次增加，模型的探索能力会急剧衰退。具体表现为生成答案的多样性显著降低，模型开始不断输出雷同的回应。与此同时，利用效果也会随着模型能力波动而变得不稳定。这种现象，类似于“学习疲劳”——学生在长时间自学后，思维逐渐僵化，只会套用熟悉的模式，失去了尝试新方法的意愿和能力。

更为关键的是，探索与利用之间存在着复杂的动态关系。在训练的不同阶段，最优的平衡点其实持续变化。早期模型能力较弱，需要更保守的探索策略和更严格的筛选标准；到了后期，随着模型水平提升，则需要更大胆的探索和相对宽松的筛选。这如同学生的学习策略必须与时俱进：初学者宜稳扎稳打，高手则需勇于挑战难题。

基于这些深刻洞察，研究团队开发了B-STAR（平衡式自学推理器）系统。其核心创新在于，能够自动监控并动态调节探索与利用之间的平衡。B-STAR引入了一个“平衡分数”的概念，该分数巧妙地综合了两方面因素：一是被选中的高质量答案的绝对数量，二是高质量答案在所有被选答案中所占的比例。

这个平衡分数的设计极为精妙。假设我们希望每个问题至少能筛选出n*个正确答案，那么对于第i个问题，如果实际选出了n‘i个独特正确答案，总共选出了ni个答案，其平衡分数即为：min(n’i/n*, 1) × n‘i/ni。公式前半部分确保有足够数量的正确答案用于训练，后半部分则保证了选中答案的整体质量水平。这相当于制定了一套兼顾“数量”与“质量”的智能选拔标准。

B-STAR系统通过动态调整两个关键参数来优化这个平衡分数：采样温度和奖励阈值。采样温度控制着模型生成答案的随机性——温度越高，答案越多样，但也可能更不可靠；奖励阈值则决定了筛选答案的严格程度——阈值越高，筛选越严苛。

在实际运行中，B-STAR的调节策略展现出清晰的阶段性智能。训练初期，系统倾向于采用较低的采样温度和较高的奖励阈值，这好比让初学者先牢固掌握基础知识，避免好高骛远。随着训练的深入，系统会逐步提高采样温度，并适当降低奖励阈值，从而鼓励模型进行更多样化的探索，同时在筛选上给予更多包容。

效果验证：持续改进的显著优势

研究团队在多个高难度任务上验证了B-STAR的效果，包括GSM8K和MATH数学推理、APPS编程挑战以及ARC-Challenge常识推理任务。结果相当突出：

在GSM8K任务上，B-STAR取得了53.8%的准确率，显著超越了在线拒绝采样微调方法的46.8%。
在更困难的MATH任务上，B-STAR达到27.8%的准确率，相比基线方法的23.2%提升了4.6个百分点。

特别值得注意的是，B-STAR不仅在最终性能上领先，其整个训练过程都呈现出持续的改进曲线。传统方法往往几轮后增长就陷入停滞，而B-STAR能保持稳定的上升势头。这种持续进化能力，正源于其动态平衡机制——系统能根据实时状态自动调整策略，从而避免陷入局部最优的陷阱。

为证明动态调整的必要性，团队进行了对比实验。结果发现，即使使用最优的固定参数配置，其效果也远不及B-STAR的动态调节策略。这有力地说明了自适应策略的独特价值。就像一个优秀的教练，必须根据运动员的不同成长阶段调整训练方案，而非一套方法用到底。

此外，团队在更强大的Llama-3.1-8B模型上进行了测试，结果表明B-STAR的优势具有良好的通用性，并不局限于特定模型架构，这为其广泛应用铺平了道路。

从工程实现角度看，B-STAR还有一个突出优点：计算成本可控。系统只需在小规模数据子集上计算平衡分数以确定最优配置，然后将这些配置应用于全量训练数据。这种设计使得额外的计算开销很小，不会显著增加训练负担。

更广阔的启示与未来方向

这项研究的意义，显然超越了单纯的技术改进。它为我们理解人工智能自主学习的内在机制，提供了一个崭新的视角。通过明确定义并量化“探索”与“利用”，研究为这个长期存在但缺乏系统理论框架的问题，建立了可分析、可优化的基础。这就像为模糊的概念找到了精确的测量标尺。

从更宏大的视角看，B-STAR代表了人工智能向更智能、更自主方向演进的重要一步。传统机器学习方法严重依赖预设的超参数，而B-STAR展示了系统自适应调整策略的可能性。这种能力，对于未来开发能在复杂、动态环境中持续学习和进化的AI系统，具有关键价值。

当然，任何研究都有其边界。目前的方法主要通过调整采样温度和奖励阈值来控制平衡，未来可能需要探索更精细、更多元的调控机制。此外，当前验证主要集中在数学、编程和常识推理任务，在其他类型任务上的泛化能力仍需进一步检验。

展望未来，这项研究为AI自主学习开辟了多条有潜力的路径。例如，可以探索更高级的解码方法直接调控生成数据的探索性，或者通过更新奖励模型本身来提升利用效果。这些方向的突破，有望将自主学习的性能和应用范围推向新的高度。

归根结底，B-STAR的成功在于它巧妙地解决了一个看似简单实则复杂的问题：如何让机器在自学过程中，自主找到探索与利用的最佳平衡点。这个问题不仅困扰着AI，在人类学习、企业创新、科学研究等诸多领域同样存在。B-STAR提供的思路与方法，或许能带来更广泛的启发。

对于普通观察者而言，这项研究预示着一个趋势：未来的人工智能系统将变得更加智能和自主。我们或许很快就能见到能够持续自我完善、无需频繁人工干预就能适应新挑战的AI助手。这必将为教育、工作乃至日常生活带来变革。当然，这也促使我们思考：如何确保这些日益自主的系统，始终沿着增进人类福祉的轨道前行。

Q&A

Q1：B-STAR是什么，它解决了什么问题？
A：B-STAR是香港科技大学团队开发的平衡式自学推理器，专门解决人工智能在自我训练过程中探索与利用失衡的问题。传统AI自学方法往往在3-5轮训练后就停滞不前，而B-STAR通过动态调节让AI能够持续改进性能。

Q2：探索和利用在人工智能训练中具体指什么？
A：探索是指AI模型生成多样化正确答案的能力，就像学生尝试用不同方法解题；利用是指外部奖励机制准确识别高质量答案的能力，就像老师准确评判答案好坏。两者需要动态平衡才能实现最佳学习效果。

Q3：B-STAR在实际应用中表现如何？
A：B-STAR在多个任务上都显著超越了传统方法。在GSM8K数学任务上达到53.8%准确率，比基线方法提升7个百分点；在MATH任务上达到27.8%准确率，提升4.6个百分点。更重要的是，它能保持持续改进而不会陷入停滞。

来源:https://www.techwalker.com/2026/0310/3180655.shtml

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：卡耐基梅隆大学研究揭示：最强AI并非最佳数据教师，合成数据生成能力深度解析下一篇：香港中文大学Lyra框架：AI多模态交互实现视听说一体化智能对话