基于多教师蒸馏的持续学习方法_AI热点日报

基于多教师蒸馏的持续学习方法

类型：热点整理2026-07-01

人工智能发展到现在，一个核心难题始终摆在眼前：怎么让模型像人一样，不断学习新东西，还能牢牢记住旧知识，一直进步？这确实是个不小的挑战。今天要聊的这篇文章，就从实际工程的角度出发，深入拆解了一种基于多教师蒸馏的持续学习技术，为解决AI模型的“灾难性遗忘”问题提供了一条新路子。在技术快速迭代的背景下，

人工智能发展到现在，一个核心难题始终摆在眼前：怎么让模型像人一样，不断学习新东西，还能牢牢记住旧知识，一直进步？这确实是个不小的挑战。今天要聊的这篇文章，就从实际工程的角度出发，深入拆解了一种基于多教师蒸馏的持续学习技术，为解决AI模型的“灾难性遗忘”问题提供了一条新路子。

在技术快速迭代的背景下，模型开发面临一个两难：既要高效学习新任务，又不能把之前学会的给忘了。这篇文章聚焦于多教师蒸馏方法，探讨如何通过多个模型协作，提升学习效率和新旧知识的传递效果。该成果已经在信号处理顶级会议ICASSP 2023上发表，值得关注持续学习技术的同行仔细看看。

一、引言

作为人类，我们能轻松学会多种任务，还能把不同领域的知识交叉用到现实场景里。放到机器世界，情况也差不多：机器人得不断学新技能，适应新环境；自动驾驶程序要能应对乡村公路、高速公路、城市马路等不同路况。这种智能化需求，迫使模型必须具备持续学习和进化的能力，才能适应真实世界中多变的环境。

在深度神经网络上做持续学习，是让模型自我增强的有效方式，但这条路不好走，主要面临两大技术挑战：灾难性遗忘和稳定性与可塑性平衡。

灾难性遗忘：神经网络学到的知识存储在网络参数里（比如Attention参数）。当用新数据集学新任务时，参数会被更新，旧任务的知识就被覆盖了。结果就是，模型在旧任务上出现明显的性能下降——也就是“忘了”。
稳定性和可塑性：稳定性是保留旧知识的能力，可塑性是学习新知识的效率。这两者此消彼长，但又相辅相成——目标就是让训练出的模型更通用。

图1展示了人类不同阶段的持续学习过程。

现有的持续学习技术主要从样本、参数、损失等角度入手，大致分三个方向：基于样本重放的方法、基于参数正则的方法、基于参数孤立的方法。

基于样本重放的方法：缓存部分历史数据，和新数据一起训练。抗遗忘能力不错，但缺点是需要额外存储空间来缓存训练数据。
基于参数正则的方法：限制重要参数的更新，或者用知识蒸馏。抗遗忘能力适中，优点是不需要额外的可学习参数和存储空间。
基于参数孤立的方法：给每批数据分配专属参数，最终形成一个大参数量模型。抗遗忘能力最好，但缺点是需要越来越多的可学习参数，训练和推理效率都会下降。

图2是三种持续学习方法的示意图。

基于落地实际应用案例的需求，综合考虑抗遗忘能力、推理效率和存储空间这三个指标，亚信科技通信人工智能实验室提出了一种基于多教师蒸馏的持续学习方法（Multi-Teacher Distillation for Incremental Object Detection, 简称MTD）。实验表明，这种方法能有效应对灾难性遗忘，而引入的专家模型也能较好地协调新旧知识在稳定性和可塑性上的平衡。

二、方法介绍

MTD方法本质上是基于样本重放和参数正则技术的结合，包含两个核心部分：主动数据筛选和多教师蒸馏。整个流程可以分为四个步骤：

Step1：有效样本选择。通过主动学习技术，挑选最具代表性的基础数据作为重演数据，和新数据组合成最终的训练样本集。
Step2：多教师蒸馏计算。基础模型和专家模型一起指导学生模型训练，基于解耦特征蒸馏方式，得到蒸馏损失。
Step3：学生模型的预测结果和真实标注计算常规损失。
Step4：综合损失计算——将蒸馏损失和常规损失相加后，反向传播，更新学生模型的参数。

图3展示了多教师蒸馏技术的训练示意图。

（一）主动数据筛选

为了解决大规模、低质量数据带来的计算和存储开销问题，提出了主动数据筛选技术。它基于主动学习方法，利用最小特征图结构相似性原理，从基础数据中挑出最具代表性的数据，能大幅提升训练性能，更高效地抓住数据的主要特征，进而提升模型精度。

这里涉及到三类数据：

历史数据：存量任务/场景数据集，提取少量样本用于巩固模型对旧知识的记忆。
新增数据：新增任务/场景数据集，提取有效样本用于提升模型对新知识的学习。
重演数据：来自历史数据和新增数据中的代表性数据，最终形成模型训练数据集。

其中，挑选数据的公式为：（公式内容原文保留），表示基于结构相似性函数比较特征图，从基础数据集中选出重演数据集。

图4是主动数据筛选的流程图。

（二）多教师蒸馏

多教师蒸馏部分的目标是：在保证模型推理效率的同时，极力克服稳定性和可塑性的困境。采用模型网络一致性蒸馏架构和特征解耦蒸馏方法，最大化保证逐层特征学习。具体实现步骤如下：

Step1：通过历史数据训练基础模型，用于指导学生模型保留旧知识。
Step2：通过新增数据训练专家模型，用于指导学生模型学习新知识。
Step3：利用数据标签，对基础、学生和专家模型进行特征解耦，分为基础目标区域、新目标区域和背景区域。
Step4：结合各部分蒸馏损失，计算整体蒸馏损失。

蒸馏损失的计算公式为：（公式内容原文保留），其中各变量分别代表不同模型的特征、掩码、像素数和损失系数。

图5展示了多教师蒸馏的计算结构。

三、实验结果

（一）主要实验结果

实验在PASCAL VOC 2007数据集上进行，该数据集包含20个常见目标类别，如“人”、“巴士”、“猫”、“狗”等。为了验证持续学习的有效性，将20个类别划分为10+10、15+5和19+1三种设置进行实验。结果显示，在三种设置下，该方法在全类别和新类别上的均值平均精度都明显优于现有持续学习方法。

在10+10设置下，全类别均值平均精度达到69.0%，新类别均值平均精度69.9%。
在15+5设置下，全类别均值平均精度71.2%，新类别均值平均精度59.6%。
在19+1设置下，全类别均值平均精度74.3%，新类别均值平均精度73.2%。

表1给出了PASCAL VOC 2007上的详细实验结果。

为了进一步验证方法的鲁棒性，团队在包含80个类别的Microsoft COCO 2017数据集上继续测试。采用40+40设置（先学40个类别，再持续学40个新类别），同样取得了最优的全类别均值平均精度32.2%，超越了其他算法。

表2列出了Microsoft COCO 2017上的对比结果。

（二）消融实验

最后，在PASCAL VOC 2007上验证了多教师蒸馏的必要性。表3中，MTD:B表示仅使用基础模型蒸馏，MTD:E表示仅使用专家模型蒸馏，MTD:B+E表示使用多教师蒸馏。结果很明显：使用多教师蒸馏的均值平均精度mAP达到71.2%，明显优于单独使用任何一个教师模型。

表3给出了不同教师蒸馏的对比数据。

四、总结与展望

本文提出了一种基于多教师蒸馏的持续学习框架，通过主动学习、特征解耦蒸馏等方法，有效提升了神经网络模型的持续学习能力。而且，该方法可以通用地适配现有的卷积神经网络模型，能广泛应用于各类边缘设备。

未来，团队会继续优化蒸馏算法，进一步在大模型、多模态领域开展持续学习研究。同时，也会逐步在智慧园区、智能物流、智慧电厂等多个场景中进行落地尝试。

来源：https://www.53ai.com/news/finetuning/2025022491038.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。