首页 游戏 软件 资讯 排行榜 专题
首页
AI
香港大学AI训练新方法 让智能体持续学习不忘旧技能

香港大学AI训练新方法 让智能体持续学习不忘旧技能

热心网友
89
转载
2026-05-14

由香港大学主导的一项研究,在2026年3月以预印本形式发布,为解决人工智能训练中长期存在的一个经典难题,提出了一个颇具巧思的方案。这篇论文(编号:arXiv:2603.01683v1)为感兴趣的读者提供了深入探究的入口。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

香港大学新突破:让AI学得更聪明却不忘老本事的

教AI学习新东西,常常会遇到一个令人沮丧的局面:新技能是学会了,可旧本事却丢得一干二净。这就像学生刚学完新课程,转头就把旧知识忘光了。在AI领域,这被称为“灾难性遗忘”。香港大学的研究团队这次拿出了一种名为“外科手术式训练”(SPOT)的新思路,其精髓在于“精准干预”——只修正推理链条中的错误环节,而最大程度地保全模型原有的知识体系。

一、为什么AI会“忘记”以前学过的东西

传统上,让AI模型适应新任务,主要有两种主流路径。一种是“监督微调”,相当于给模型一份标准答案,让它反复练习直到记住。这种方法的问题在于,模型可能会过度拟合新数据,从而损害其原有的通用能力。另一种是“强化学习”,通过奖励和惩罚信号来引导模型,这种方式虽然对原有知识破坏较小,但训练过程往往效率低下,需要海量的试错。

研究团队通过对比实验发现了一个关键点:即便是使用完全相同的数据集,不同的训练策略也会导致天差地别的结果。问题的核心似乎不在于“学什么”,而在于“怎么学”。这引出了一个更深层的疑问:究竟是训练数据本身导致了遗忘,还是训练方法才是罪魁祸首?实验结果表明,后者才是关键。即便提供与模型原始知识分布高度接近的数据,如果训练方式不当,遗忘依然会发生。

二、发现AI训练中的“弹性拴绳”机制

为了揭开谜底,团队深入分析了训练过程中的数学动力学。他们发现,有效的训练机制可以类比为一根“弹性拴绳”。

传统的监督训练方式,就像用一根没有弹性的绳子生拉硬拽。无论模型离目标答案有多近,它都会施加一个固定的、巨大的拉力,结果往往是“矫正过正”,破坏了模型参数中与任务无关但至关重要的其他知识。

而理想的机制则不同。当模型距离正确答案很远时,这根“弹性拴绳”会施加较大的拉力,帮助其快速靠近目标;但当模型已经非常接近正确答案时,拉力会急剧减弱,甚至趋近于零,从而避免了不必要的扰动。具体来说,当模型对某个答案已有99%的把握时,传统方法仍会强迫其优化到99.9%,这种过度优化就是破坏的根源。数学分析显示,在模型表现已足够好时,传统方法的更新力度可能仍是1.0,而“弹性拴绳”机制能将其降低数万倍,这种量级上的差异完美解释了为何效果迥异。

三、精密的“外科手术”数据处理流程

仅有好的训练机制还不够,还需要与之匹配的“手术材料”。研究团队设计了一套精妙的数据处理流程,其核心哲学是“最小化干预”。

整个过程分为三步。首先是“错误收集”,让模型尝试解题,专门收集其出错的案例,这相当于术前诊断。接下来是最关键的“精准修复”阶段:引入一个“指导老师”(可以是人类或更强的AI模型),对模型的错误答案进行最小化修正。例如,如果模型在计算“250÷20”时错误地得出“125”,指导老师只会将这一步修正为“12.5”,而保留答案中所有其他正确的推理步骤和表述。最后是“质量控制”,使用“最长公共子序列”等技术确保修正后的答案与原错误答案保持高度相似(如相似度超过40%),这好比确保手术后器官的功能完整性。

通过这套流程,能够批量生成大量“近距离正确答案”。这些答案在风格、逻辑上与模型的原始错误输出极其相似,仅在关键错误点上被修正,从而确保了训练过程不会对模型的知识结构造成剧烈冲击。

四、突破传统排序方法的二元分类训练

传统基于偏好的训练(如RLHF)习惯于让模型在多个选项中进行“哪个更好”的相对排序。但对于数学推理这类有明确对错的任务,这种方式并不直接。研究团队创新性地将其转化为更直接的二元分类问题:分别判断一个答案“是否正确”或“是否错误”。

这种转变带来了更清晰的学习信号:对于正确的推理步骤,模型应增强其信心;对于错误的步骤,则应降低。团队还发现了传统方法的一个隐藏缺陷——“拉升效应”:当仅用正确答案训练时,模型不仅会提升对正确答案的信心,也可能不恰当地提升对某些相似错误答案的信心。

为此,他们设计了两种改进的训练目标。一是“二元交叉熵”目标,同时明确奖励正确和惩罚错误。二是在此基础上增加了动态调节机制的“二元分类优化”目标,它能根据模型当前的学习状态自动调整训练强度,就像一个智能教练,在学员入门时加大训练量,在接近精通时则减少干预,防止过度训练。

五、令人瞩目的实验成果

团队在Qwen3-8B和Llama-3.1-8B-Instruct两个模型上验证了SPOT方法的有效性。结果令人印象深刻。

在数学推理能力上,Qwen3-8B模型在多个高难度竞赛数据集上取得显著提升:在AIME24上准确率从22.0%升至28.0%,在AIME25上从19.3%升至27.3%,在AMC23上从66.5%升至71.5%。更重要的是,这种提升并未牺牲通用能力。在衡量指令跟随能力的IFEval测试中,其性能反而从83.0%微升至84.8%。

在纯逻辑推理任务Connect4游戏中,模型表现更是从10.9%大幅跃升至36.0%,证明了该方法在不同任务上的泛化能力。实验还逐项验证了每个改进组件的必要性,并凸显了训练效率的优势:整个训练仅需8块H800 GPU运行28分钟,使用约4000个高质量样本,远优于传统强化学习方法。

六、方法论的深层创新与技术突破

这项工作的价值,远不止于提升了几项测试指标。它提供了一种全新的AI训练范式。传统方法如同粗放式的“批量加工”,而SPOT则像是“定制化精密制造”。

其创新体现在多个层面:一是实现了“精确制导”的训练,将影响精准控制在需要改动的参数子集上,避免了“牵一发而动全身”。二是在数学上,其引入的“奖励偏移”机制起到了动态平衡器的作用,能自适应地调节优化力度。三是该方法部分突破了“教师能力天花板”的限制,由于指导老师的任务从“从头解题”简化为“修正错误”,对其能力要求降低,使得模型自我改进成为可能。四是“梯度聚焦”效应,因训练数据中正负样本高度相似,梯度自然聚焦于关键差异点,学习效率极大提升。

七、实用价值与未来展望

这项研究的现实意义重大。对于AI开发者而言,它提供了一条高效、安全的模型迭代路径,可以针对性地增强AI的特定能力,而无需担心破坏其整体性能。在教育、企业应用等场景中,这种能够持续、稳定学习新知识而不遗忘旧技能的AI,其实用价值不言而喻。

当然,当前方法仍有改进空间,例如对“指导老师”的依赖限制了其完全自动化。未来的方向可能包括探索模型的自我纠错能力,以及将“外科手术式”训练的理念拓展到代码生成、战略规划等其他复杂推理任务中。

从更宏观的视角看,这项研究标志着AI训练思维的一次重要转变:从依赖“数据暴力”和“算力堆砌”,转向追求“训练智能”与“过程精巧”。在模型规模不断扩大的今天,如何更高效、更精准地进行调整,SPOT方法无疑提供了一个极具启发性的范本。

Q&A

Q1:什么是外科手术式训练(SPOT)?
A:SPOT是香港大学提出的一种AI训练新方法,其核心思想是像外科手术一样,仅对AI模型推理过程中间出错的特定部分进行精准修正,同时最大限度地保护其原有的知识结构,从而有效避免学习新任务时的“灾难性遗忘”问题。

Q2:为什么传统AI训练会出现“学新忘旧”的问题?
A:关键在于传统训练方法缺乏“分寸感”。即使模型对某个答案已有很高置信度,传统方法仍会进行过度优化,这种强制性的、全局性的参数调整,往往会破坏模型在其他任务上已习得的能力。

Q3:SPOT方法的训练效率如何?
A:效率非常突出。以Qwen3-8B模型为例,仅使用4000个精加工样本,在8块H800 GPU上训练28分钟,就能将其数学推理准确率提升超过6个百分点,速度比传统强化学习方法快数十倍。

来源:https://www.techwalker.com/2026/0310/3180676.shtml
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

CTO如何平衡AI效率提升与团队建设管理
AI
CTO如何平衡AI效率提升与团队建设管理

最近,一个反复出现的新闻标题越来越常见:某大型企业一边高调宣扬AI带来的效率提升,一边大规模裁员。 主角轮番更替,背后的逻辑却如出一辙。企业既面临内部削减成本的压力,又需要向外界展示竞争优势。对许多企业而言,这意味着加大AI的使用力度,同时裁减被认为“多余”的员工——尽管目前对AI能力与可靠性的评估

热心网友
05.13
企业ESG治理新路径 合规与伦理实践指南
科技数码
企业ESG治理新路径 合规与伦理实践指南

人工智能深度融入企业ESG治理,成为推动绿色转型的关键引擎。它显著提升了数据管理、风险识别与决策效率,助力企业将可持续发展转化为竞争优势。然而,AI应用也面临数据质量、合规成本及伦理挑战,企业需在利用技术红利的同时,构建以人为本的负责任治理框架。

热心网友
05.13
豆包AI代码审查使用教程与操作步骤详解
AI
豆包AI代码审查使用教程与操作步骤详解

想要高效利用豆包AI进行代码审查,精准发现潜在缺陷、提升代码可维护性与安全性?这需要掌握正确的方法。直接提交一段代码并简单指令“帮我审查”,往往难以获得深度、有价值的反馈。关键在于采用结构化指令与多维度验证策略,以下将详细拆解具体操作步骤。 一、提供清晰上下文与明确审查指令 豆包AI的代码审查质量,

热心网友
05.13
苹果推出AI虚拟培训师革新销售教练模式
科技数码
苹果推出AI虚拟培训师革新销售教练模式

苹果将在其销售培训平台AppleSalesCoach中引入AI虚拟讲师,用于制作个性化培训视频。该功能可根据员工负责的产品线、需提升的技能及母语生成定制内容。所有内容均由内部专家团队策划与审核,确保准确性,且AI生成视频会添加明确标识以区分。

热心网友
05.13
Figma AI图层命名混乱解决方案 利用上下文关联优化命名逻辑
AI
Figma AI图层命名混乱解决方案 利用上下文关联优化命名逻辑

FigmaAI重命名图层时因缺乏上下文导致命名混乱。优化关键在于提供清晰上下文线索:绑定父级Frame语义并启用上下文继承,使子图层命名统一携带前缀;利用变体属性联动,强制AI读取属性定义并将属性名与值注入图层名;对视觉信息贫乏的图层,可在描述字段插入强语义注释作为上下文锚点,从而引。

热心网友
05.13

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

马中新能源论坛探讨产业合作与人才培养新路径
科技数码
马中新能源论坛探讨产业合作与人才培养新路径

5月12日,马来西亚吉隆坡成功举办了一场具有前瞻性的行业盛会——中国-马来西亚电动汽车、电池技术与新能源人才创新发展论坛。来自两国政府部门、领军企业、顶尖高校及国际组织的代表共聚一堂,深入交流了在未来产业协同、清洁能源技术创新及高端人才培养等核心领域的合作路径与机遇。 马来西亚第一副总理兼乡村及区域

热心网友
05.14
智元APC香港观察:具身智能如何成为先进生产力单元
科技数码
智元APC香港观察:具身智能如何成为先进生产力单元

具身智能要迈过的第一道硬门槛,从来都是量产。 过去几年,全球人形机器人行业反复印证了这一点:舞台演示可以很快,工程验证可以很快,视频传播也可以很快。但当一台机器人要从实验室走向产线,再走向客户现场,问题的复杂度会呈指数级上升。 特斯拉的Optimus就是一个典型的参照系。马斯克多次表达过对Optim

热心网友
05.14
AI回答第一个字就暴露真假?识别AI胡说八道的关键信号
科技数码
AI回答第一个字就暴露真假?识别AI胡说八道的关键信号

向朋友问路时,如果对方清楚路线,通常会立刻回答“直走然后左转”。但如果对方并不确定,往往会先停顿一下,犹豫地说“呃……好像是……往那边?”。这个开口前的短暂迟疑,往往比最终给出的答案更能说明问题——对方是否真的知道答案。 近期,美国天普大学计算机与信息科学系的一项研究,正是捕捉到了AI回答问题时类似

热心网友
05.14
浙江大学万能分割学习器技术原理与应用场景详解
科技数码
浙江大学万能分割学习器技术原理与应用场景详解

这项由浙江大学、华南理工大学、南京大学和北京大学联合开展的前沿研究,于2026年4月正式发布,其论文预印本编号为arXiv:2604 24575。 图像分割技术听起来或许有些专业,但它早已深度融入我们的日常生活。无论是智能手机拍摄的背景虚化人像、AI系统在CT影像中精准勾勒病灶轮廓,还是自动驾驶汽车

热心网友
05.14
比亚迪大汉纯电续航1000公里对标56E车型参数曝光
科技数码
比亚迪大汉纯电续航1000公里对标56E车型参数曝光

“大唐”预售热潮尚未平息,“大汉”已蓄势待发,比亚迪王朝系列正以前所未有的攻势,叩响高端市场的大门。 在北京车展引发轰动的比亚迪大唐,预售订单已迅速突破10万台大关,彰显了市场对比亚迪高端产品的强烈期待。而最新信息显示,汉家族即将迎来一位重磅新成员——“大汉”,这款定位D级旗舰的轿车,目标直指20-

热心网友
05.14