香港科技大学AI实现自主调节 破解探索与利用平衡难题
这项由香港科技大学、北京人工智能研究院与腾讯公司联合开展的研究,发表于2025年的国际学习表征会议(ICLR 2025)。研究团队提出了一种名为B-STAR的创新方法,旨在攻克人工智能在自我训练过程中长期存在的核心瓶颈。完整的研究细节可通过论文编号arXiv:2412.17256v2查阅。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

要理解这项工作的突破性,可以将AI的自学过程类比为学生的自主学习。当学生自学数学时,总会面临一个经典的两难抉择:是应该广泛尝试不同类型的题目以开拓思路(探索),还是应该反复练习已掌握的题型来巩固基础(利用)?过度探索可能导致时间浪费在超纲难题上;过度利用则容易陷入思维定式,难以实现能力突破。
当前,大型人工智能模型在自我进化时,正遭遇着几乎相同的困境。为处理复杂的推理任务,模型常需依赖自身生成的数据进行迭代优化,因为获取海量高质量人工标注数据的成本极高。然而,现有自我改进方法往往在仅3到5轮训练后性能便陷入平台期,无法继续提升。这好比学生自学几天后,便感觉再也学不到新知识了。
那么,瓶颈究竟何在?研究团队通过深入分析发现,核心症结在于系统难以有效平衡“探索”与“利用”这两个关键维度。具体而言:
- 探索能力,指模型产生多样化正确答案的潜力,如同学生尝试用多种解法攻克同一道题。
- 利用能力,则关乎外部奖励机制能否精准识别并筛选出高质量答案,好比老师需要具备精准评判答案优劣的慧眼。
为精确量化这两个要素,团队设计了一套创新的评估体系。针对探索能力,他们采用了“Pass@K”指标,用于衡量模型生成的K个候选答案中至少包含一个正确答案的概率。为更稳定地评估探索的广度,他们还提出了“Pass@K-S”指标,要求K个答案中至少有S个独特的正确解法。这就像考察学生的创造性——不仅要求能做对,还要评估能想出多少种不同的正确方法。
对于利用能力,团队引入了“Best-of-K”准确率和“Reward@K-S”指标。前者检验奖励函数排名第一的答案是否正确;后者则评估排名前S的答案是否都正确。这相当于测试老师的评分水平——能否将真正优秀的答案准确挑选出来并排在前列。
通过对数学推理任务的案例研究,一个明显的趋势浮现出来:随着训练轮次增加,模型的探索能力会急剧衰退。具体表现为生成答案的多样性显著降低,模型开始不断输出雷同的回应。与此同时,利用效果也会随着模型能力波动而变得不稳定。这种现象,类似于“学习疲劳”——学生在长时间自学后,思维逐渐僵化,只会套用熟悉的模式,失去了尝试新方法的意愿和能力。
更为关键的是,探索与利用之间存在着复杂的动态关系。在训练的不同阶段,最优的平衡点其实持续变化。早期模型能力较弱,需要更保守的探索策略和更严格的筛选标准;到了后期,随着模型水平提升,则需要更大胆的探索和相对宽松的筛选。这如同学生的学习策略必须与时俱进:初学者宜稳扎稳打,高手则需勇于挑战难题。
基于这些深刻洞察,研究团队开发了B-STAR(平衡式自学推理器)系统。其核心创新在于,能够自动监控并动态调节探索与利用之间的平衡。B-STAR引入了一个“平衡分数”的概念,该分数巧妙地综合了两方面因素:一是被选中的高质量答案的绝对数量,二是高质量答案在所有被选答案中所占的比例。
这个平衡分数的设计极为精妙。假设我们希望每个问题至少能筛选出n*个正确答案,那么对于第i个问题,如果实际选出了n‘i个独特正确答案,总共选出了ni个答案,其平衡分数即为:min(n’i/n*, 1) × n‘i/ni。公式前半部分确保有足够数量的正确答案用于训练,后半部分则保证了选中答案的整体质量水平。这相当于制定了一套兼顾“数量”与“质量”的智能选拔标准。
B-STAR系统通过动态调整两个关键参数来优化这个平衡分数:采样温度和奖励阈值。采样温度控制着模型生成答案的随机性——温度越高,答案越多样,但也可能更不可靠;奖励阈值则决定了筛选答案的严格程度——阈值越高,筛选越严苛。
在实际运行中,B-STAR的调节策略展现出清晰的阶段性智能。训练初期,系统倾向于采用较低的采样温度和较高的奖励阈值,这好比让初学者先牢固掌握基础知识,避免好高骛远。随着训练的深入,系统会逐步提高采样温度,并适当降低奖励阈值,从而鼓励模型进行更多样化的探索,同时在筛选上给予更多包容。
效果验证:持续改进的显著优势
研究团队在多个高难度任务上验证了B-STAR的效果,包括GSM8K和MATH数学推理、APPS编程挑战以及ARC-Challenge常识推理任务。结果相当突出:
- 在GSM8K任务上,B-STAR取得了53.8%的准确率,显著超越了在线拒绝采样微调方法的46.8%。
- 在更困难的MATH任务上,B-STAR达到27.8%的准确率,相比基线方法的23.2%提升了4.6个百分点。
特别值得注意的是,B-STAR不仅在最终性能上领先,其整个训练过程都呈现出持续的改进曲线。传统方法往往几轮后增长就陷入停滞,而B-STAR能保持稳定的上升势头。这种持续进化能力,正源于其动态平衡机制——系统能根据实时状态自动调整策略,从而避免陷入局部最优的陷阱。
为证明动态调整的必要性,团队进行了对比实验。结果发现,即使使用最优的固定参数配置,其效果也远不及B-STAR的动态调节策略。这有力地说明了自适应策略的独特价值。就像一个优秀的教练,必须根据运动员的不同成长阶段调整训练方案,而非一套方法用到底。
此外,团队在更强大的Llama-3.1-8B模型上进行了测试,结果表明B-STAR的优势具有良好的通用性,并不局限于特定模型架构,这为其广泛应用铺平了道路。
从工程实现角度看,B-STAR还有一个突出优点:计算成本可控。系统只需在小规模数据子集上计算平衡分数以确定最优配置,然后将这些配置应用于全量训练数据。这种设计使得额外的计算开销很小,不会显著增加训练负担。
更广阔的启示与未来方向
这项研究的意义,显然超越了单纯的技术改进。它为我们理解人工智能自主学习的内在机制,提供了一个崭新的视角。通过明确定义并量化“探索”与“利用”,研究为这个长期存在但缺乏系统理论框架的问题,建立了可分析、可优化的基础。这就像为模糊的概念找到了精确的测量标尺。
从更宏大的视角看,B-STAR代表了人工智能向更智能、更自主方向演进的重要一步。传统机器学习方法严重依赖预设的超参数,而B-STAR展示了系统自适应调整策略的可能性。这种能力,对于未来开发能在复杂、动态环境中持续学习和进化的AI系统,具有关键价值。
当然,任何研究都有其边界。目前的方法主要通过调整采样温度和奖励阈值来控制平衡,未来可能需要探索更精细、更多元的调控机制。此外,当前验证主要集中在数学、编程和常识推理任务,在其他类型任务上的泛化能力仍需进一步检验。
展望未来,这项研究为AI自主学习开辟了多条有潜力的路径。例如,可以探索更高级的解码方法直接调控生成数据的探索性,或者通过更新奖励模型本身来提升利用效果。这些方向的突破,有望将自主学习的性能和应用范围推向新的高度。
归根结底,B-STAR的成功在于它巧妙地解决了一个看似简单实则复杂的问题:如何让机器在自学过程中,自主找到探索与利用的最佳平衡点。这个问题不仅困扰着AI,在人类学习、企业创新、科学研究等诸多领域同样存在。B-STAR提供的思路与方法,或许能带来更广泛的启发。
对于普通观察者而言,这项研究预示着一个趋势:未来的人工智能系统将变得更加智能和自主。我们或许很快就能见到能够持续自我完善、无需频繁人工干预就能适应新挑战的AI助手。这必将为教育、工作乃至日常生活带来变革。当然,这也促使我们思考:如何确保这些日益自主的系统,始终沿着增进人类福祉的轨道前行。
Q&A
Q1:B-STAR是什么,它解决了什么问题?
A:B-STAR是香港科技大学团队开发的平衡式自学推理器,专门解决人工智能在自我训练过程中探索与利用失衡的问题。传统AI自学方法往往在3-5轮训练后就停滞不前,而B-STAR通过动态调节让AI能够持续改进性能。
Q2:探索和利用在人工智能训练中具体指什么?
A:探索是指AI模型生成多样化正确答案的能力,就像学生尝试用不同方法解题;利用是指外部奖励机制准确识别高质量答案的能力,就像老师准确评判答案好坏。两者需要动态平衡才能实现最佳学习效果。
Q3:B-STAR在实际应用中表现如何?
A:B-STAR在多个任务上都显著超越了传统方法。在GSM8K数学任务上达到53.8%准确率,比基线方法提升7个百分点;在MATH任务上达到27.8%准确率,提升4.6个百分点。更重要的是,它能保持持续改进而不会陷入停滞。
相关攻略
随着人工智能模型参数规模不断突破千亿级别,其庞大的存储需求和计算开销已成为实际部署的主要瓶颈。针对这一挑战,MWS AI基础研究中心与ITMO大学联合提出了一种名为COMPOT的创新模型压缩技术。这项发表于2026年2月预印本平台(arXiv:2602 15200v1)的研究,为大语言模型高效“瘦身
人工智能在代码生成与逻辑推理领域的迅猛发展,正在深刻改变网络安全攻防的格局。近日,一项由AI领军企业Anthropic主导的重要倡议——“玻璃翼计划”(Project Glasswing)正式对外公布。该计划旨在联合全球顶尖科技力量,运用最先进的AI模型,抵御日益复杂化、智能化的AI驱动型网络攻击。
近日,工业和信息化部等十部门联合印发《人工智能科技伦理审查与服务办法(试行)》。这份重要文件为我国人工智能领域的伦理治理工作提供了系统性指引,旨在构建发展与规范并重的治理框架。其核心目标清晰:在大力鼓励技术创新的同时,通过建立规范的伦理审查与服务机制,为各类人工智能科技活动划定明确的安全与合规边界。
2026年4月8日,一项关键政策正式出台。工业和信息化部等十部门联合发布了《人工智能科技伦理审查与服务办法(试行)》。这份文件的出台恰逢其时,它不仅是一份纲领性指导,更是首次系统性地界定了AI伦理审查的适用场景、责任主体与一套完整的操作指南。尤为重要的是,文件从标准建设等五个方面提出了具体的扶持举措
2026年4月,谷歌母公司Alphabet的一项新动作,将AI与公共健康服务的结合推到了聚光灯下。他们宣布,为旗下AI助手Gemini新增心理健康支持功能,使其能够智能识别用户对话中的自残、自杀倾向,并主动弹出救助入口。与此同时,Alphabet承诺在未来三年投入3000万美元,专门用于支持全球危机
热门专题
热门推荐
当RPA机器人面临复杂决策场景时,企业通常可以采取以下几种经过验证的有效策略来应对,确保自动化流程的顺畅与准确。 借助人工智能技术 一种广泛应用的解决方案是将RPA与人工智能技术深度融合,特别是机器学习与自然语言处理。通过集成AI的预测分析与模式识别能力,RPA能够处理非结构化数据并应对模糊的业务情
当智能制造与人工智能技术深度融合,这不仅是两种前沿科技的简单叠加,更是一场旨在重塑全球制造业竞争格局的系统性变革。其核心目标在于,通过深度嵌入人工智能等前沿技术,全面提升制造业的智能化水平、生产效率与国际竞争力。那么,如何有效推进这场深度融合?以下六大关键策略构成了清晰的行动路线图。 1 加强关键
对于已经部署了RPA的企业而言,项目上线远不是终点。要让自动化投资持续产生价值,对机器人性能进行持续优化是关键。这就像保养一台精密的机器,定期维护和调校,才能确保其长期高效、稳定地运行。 那么,具体可以从哪些方面着手呢?以下是一些经过验证的优化方向。 一、并行处理与任务分解 首先,看看任务执行本身。
面对海量数据源的高效抓取需求,分布式数据采集架构已成为业界公认的核心解决方案。该架构通过精巧的设计,协调多个采集节点并行工作,并将数据汇聚至中央处理单元,最终实现数据的集中分析与深度洞察。这套系统看似复杂,但其核心原理可拆解为几个关键组件的协同运作。 一、系统核心组成 一套典型的分布式数据采集系统,
Gate io平台活动页面多样,新手易混淆注册奖励、邀请与正常开户页。本文梳理三者核心区别:注册奖励页通常含专属链接与限时福利;邀请页强调社交分享与返利机制;正常开户页则提供基础功能与安全验证。清晰辨识有助于用户高效参与活动,避免错过权益或操作失误,提升在Web3领域的入门体验。





