香港大学AI训练新方法让智能体持续学习不忘旧技能

首页

热心网友

转载

2026-05-14

由香港大学主导的一项研究，在2026年3月以预印本形式发布，为解决人工智能训练中长期存在的一个经典难题，提出了一个颇具巧思的方案。这篇论文（编号：arXiv:2603.01683v1）为感兴趣的读者提供了深入探究的入口。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

香港大学新突破：让AI学得更聪明却不忘老本事的

教AI学习新东西，常常会遇到一个令人沮丧的局面：新技能是学会了，可旧本事却丢得一干二净。这就像学生刚学完新课程，转头就把旧知识忘光了。在AI领域，这被称为“灾难性遗忘”。香港大学的研究团队这次拿出了一种名为“外科手术式训练”（SPOT）的新思路，其精髓在于“精准干预”——只修正推理链条中的错误环节，而最大程度地保全模型原有的知识体系。

一、为什么AI会“忘记”以前学过的东西

传统上，让AI模型适应新任务，主要有两种主流路径。一种是“监督微调”，相当于给模型一份标准答案，让它反复练习直到记住。这种方法的问题在于，模型可能会过度拟合新数据，从而损害其原有的通用能力。另一种是“强化学习”，通过奖励和惩罚信号来引导模型，这种方式虽然对原有知识破坏较小，但训练过程往往效率低下，需要海量的试错。

研究团队通过对比实验发现了一个关键点：即便是使用完全相同的数据集，不同的训练策略也会导致天差地别的结果。问题的核心似乎不在于“学什么”，而在于“怎么学”。这引出了一个更深层的疑问：究竟是训练数据本身导致了遗忘，还是训练方法才是罪魁祸首？实验结果表明，后者才是关键。即便提供与模型原始知识分布高度接近的数据，如果训练方式不当，遗忘依然会发生。

二、发现AI训练中的“弹性拴绳”机制

为了揭开谜底，团队深入分析了训练过程中的数学动力学。他们发现，有效的训练机制可以类比为一根“弹性拴绳”。

传统的监督训练方式，就像用一根没有弹性的绳子生拉硬拽。无论模型离目标答案有多近，它都会施加一个固定的、巨大的拉力，结果往往是“矫正过正”，破坏了模型参数中与任务无关但至关重要的其他知识。

而理想的机制则不同。当模型距离正确答案很远时，这根“弹性拴绳”会施加较大的拉力，帮助其快速靠近目标；但当模型已经非常接近正确答案时，拉力会急剧减弱，甚至趋近于零，从而避免了不必要的扰动。具体来说，当模型对某个答案已有99%的把握时，传统方法仍会强迫其优化到99.9%，这种过度优化就是破坏的根源。数学分析显示，在模型表现已足够好时，传统方法的更新力度可能仍是1.0，而“弹性拴绳”机制能将其降低数万倍，这种量级上的差异完美解释了为何效果迥异。

三、精密的“外科手术”数据处理流程

仅有好的训练机制还不够，还需要与之匹配的“手术材料”。研究团队设计了一套精妙的数据处理流程，其核心哲学是“最小化干预”。

整个过程分为三步。首先是“错误收集”，让模型尝试解题，专门收集其出错的案例，这相当于术前诊断。接下来是最关键的“精准修复”阶段：引入一个“指导老师”（可以是人类或更强的AI模型），对模型的错误答案进行最小化修正。例如，如果模型在计算“250÷20”时错误地得出“125”，指导老师只会将这一步修正为“12.5”，而保留答案中所有其他正确的推理步骤和表述。最后是“质量控制”，使用“最长公共子序列”等技术确保修正后的答案与原错误答案保持高度相似（如相似度超过40%），这好比确保手术后器官的功能完整性。

通过这套流程，能够批量生成大量“近距离正确答案”。这些答案在风格、逻辑上与模型的原始错误输出极其相似，仅在关键错误点上被修正，从而确保了训练过程不会对模型的知识结构造成剧烈冲击。

四、突破传统排序方法的二元分类训练

传统基于偏好的训练（如RLHF）习惯于让模型在多个选项中进行“哪个更好”的相对排序。但对于数学推理这类有明确对错的任务，这种方式并不直接。研究团队创新性地将其转化为更直接的二元分类问题：分别判断一个答案“是否正确”或“是否错误”。

这种转变带来了更清晰的学习信号：对于正确的推理步骤，模型应增强其信心；对于错误的步骤，则应降低。团队还发现了传统方法的一个隐藏缺陷——“拉升效应”：当仅用正确答案训练时，模型不仅会提升对正确答案的信心，也可能不恰当地提升对某些相似错误答案的信心。

为此，他们设计了两种改进的训练目标。一是“二元交叉熵”目标，同时明确奖励正确和惩罚错误。二是在此基础上增加了动态调节机制的“二元分类优化”目标，它能根据模型当前的学习状态自动调整训练强度，就像一个智能教练，在学员入门时加大训练量，在接近精通时则减少干预，防止过度训练。

五、令人瞩目的实验成果

团队在Qwen3-8B和Llama-3.1-8B-Instruct两个模型上验证了SPOT方法的有效性。结果令人印象深刻。

在数学推理能力上，Qwen3-8B模型在多个高难度竞赛数据集上取得显著提升：在AIME24上准确率从22.0%升至28.0%，在AIME25上从19.3%升至27.3%，在AMC23上从66.5%升至71.5%。更重要的是，这种提升并未牺牲通用能力。在衡量指令跟随能力的IFEval测试中，其性能反而从83.0%微升至84.8%。

在纯逻辑推理任务Connect4游戏中，模型表现更是从10.9%大幅跃升至36.0%，证明了该方法在不同任务上的泛化能力。实验还逐项验证了每个改进组件的必要性，并凸显了训练效率的优势：整个训练仅需8块H800 GPU运行28分钟，使用约4000个高质量样本，远优于传统强化学习方法。

六、方法论的深层创新与技术突破

这项工作的价值，远不止于提升了几项测试指标。它提供了一种全新的AI训练范式。传统方法如同粗放式的“批量加工”，而SPOT则像是“定制化精密制造”。

其创新体现在多个层面：一是实现了“精确制导”的训练，将影响精准控制在需要改动的参数子集上，避免了“牵一发而动全身”。二是在数学上，其引入的“奖励偏移”机制起到了动态平衡器的作用，能自适应地调节优化力度。三是该方法部分突破了“教师能力天花板”的限制，由于指导老师的任务从“从头解题”简化为“修正错误”，对其能力要求降低，使得模型自我改进成为可能。四是“梯度聚焦”效应，因训练数据中正负样本高度相似，梯度自然聚焦于关键差异点，学习效率极大提升。