厦门大学团队实现AI零成本选择性失忆方案

时间：2026-06-03 09:36

厦门大学团队提出ZeroUnlearn方法，通过将敏感知识重新映射到与原始知识正交的零空间，实现精准遗忘。该方法在Llama等模型上达到彻底遗忘效果，困惑度仅从12 88升至13，下游任务表现无显著下降，效率高、副作用极小。

这项由厦门大学信息学院与人工智能研究院联合领导，厦门大学胶片学院及国防科技大学共同参与的研究，已在2026年第43届国际机器学习大会（ICML 2026）上正式发表，论文编号为arXiv:2605.18879。

大型语言模型——那些ChatGPT、LLaMA们——的训练过程，本质上就是让一个学生把整座图书馆的藏书通读一遍。书读得多了，知识自然就庞杂了起来，这本身是好事。但麻烦在于，书架上不只有百科全书和诗歌集，也混杂着隐私信息、有害内容和早已过时的错误。等到模型学成之后，你想让它“忘掉”某些不该记住的东西，才会真正意识到，这件事远比想象中棘手得多。

研究团队面对的正是这个核心矛盾。目前，让AI“忘事”的现有方案，要么代价极大——直接推倒重来、彻底重新训练，就好比因为孩子记错了几条知识点，就让他把整个十二年义务教育再读一遍；要么副作用严重——用一种粗暴的方式强行抹除某些记忆，结果连带着周围正常的认知能力也一并受损，好比为了消除一段糟糕的记忆，不得不把整片脑区都烧毁。

厦门大学团队另辟蹊径，提出了一套名为ZeroUnlearn的方法。核心理念很简单：与其让AI“忘掉”敏感知识，不如将这些知识“重新覆写”。具体来说，当模型再次面对危险提问时，它输出的不再是危险答案，而是一个中性、无意义的终止信号。更精妙的是，这个覆写过程能做到极度精准——只动“那块需要动的地方”，完全不影响模型其他部分的知识储备。这才是关键所在。

一、为什么“让AI忘事”这么难

先搞清楚模型是如何存储知识的。现代大型语言模型内部有数十亿个参数，每个参数都是一个数字，而所有的知识就分散编码在这些数字的分布关系之中。你没办法直接打开模型的大脑，找到“法国首都是巴黎”这条记忆住在哪个特定的“格子”里，然后把它单独删掉。知识本身是弥散的、交织的，像一张错综复杂的蜘蛛网，每一根丝都可能与多条知识彼此关联。

目前常见的方案主要有两类。第一类是“梯度上升”（论文里简称GA），原理很简单：训练时，我们反复让模型做对题目、调整参数，它便学会了知识；那忘掉知识，就把这个方向反过来，让模型在特定题目上越做越错。道理说得通，但实际操作起来，就像你用橡皮用力去擦试卷上的一个字，结果纸被擦破了，周围好几个字也跟着遭殃。实验数据毫不留情地揭示了问题：GA让模型的“困惑度”——衡量语言模型正常程度的核心指标，数值越低越好——直接飙升到超过1000，而原始模型只有七八左右。这意味着模型的语言能力已经彻底紊乱，几乎无法正常说话。

第二类是“微调”（FT）。原理更温和一些：既然要忘掉旧答案，那就强行训练模型给出一个新答案。听起来不那么暴力，但副作用同样无法忽视。在实验中，经过微调处理的模型，它对于“邻近知识”——那些与删除内容相关、但本身不该被删除的知识——的保留率直接跌到了接近零。也就是说，为了删掉一条信息，模型把整片相关知识都一并抛弃了。

研究团队由此看到了机会。现有方法的核心问题，归根结底是太粗糙了，影响范围太大。能不能找到一把精确到毫米级的手术刀，而不是抡起一把大锤？

二、从“知识编辑”里得到的灵感

这支团队的灵感其实来自另一个AI研究领域——“知识编辑”。知识编辑要做的事情是：当模型记错了或者记了过时的信息，怎样快速修正？比如模型以为某座城市的市长还是五年前那个人，那能不能只修改这一条记录，而不用把整个模型从头训练一遍？

研究者们敏锐地意识到，知识编辑和知识遗忘其实是同一枚硬币的两面。编辑是“把A改成B”，遗忘则可以是“把A改成什么都不是”。顺着这个思路，ZeroUnlearn的核心想法逐渐成形：与其费尽心思删掉危险知识，不如把它重新映射到一个安全、无害的“终点”上。

这个终点被设定为一个特殊的标记，在语言模型里叫做“”——也就是“句子结束”的信号。当模型收到危险的提问时，ZeroUnlearn希望它输出的不是有害答案，而是一个“该结束了”的信号，相当于模型礼貌地闭了嘴，不再继续往下说。

但仅仅做到“输出EOS”还远远不够。如果模型内部对危险信息的表征——也就是它处理这条信息时形成的中间状态——还是原来那副模样，只不过最后被强行截断了，那危险知识其实还在那里，只是被暂时压制住了。ZeroUnlearn的目标更宏大：不仅要改变输出，还要从根源上改变模型对危险信息的内部理解方式，让它在内心深处就已经“不认识”这条危险信息了。

三、数学上的零空间：一个永不重叠的维度

接下来进入ZeroUnlearn最核心的技术部分。研究团队借用了线性代数里一个经典的概念，叫做“零空间”。用一个非常直观的比喻来理解：想象你站在一个三维空间里，“危险知识”占据了某一个特定的方向，比如说正北方。那么零空间就是除了正北方之外，所有其他方向构成的世界。只要你的行动发生在零空间里，就永远不会与正北方那条直线相交，自然也就永远不会“唤醒”那条危险知识。

ZeroUnlearn的操作，是为模型的权重矩阵——你可以把它想象成模型大脑里存储知识的“配方本”——设计一个特殊的变换。这个变换把处理危险知识的方式压进了零空间，数学上保证了变换后的输出与原来危险知识的方向完全垂直，二者的相似度为零。

具体的技术实现是这样的：研究团队先对危险知识矩阵做了一种叫做“奇异值分解”（SVD）的操作。这本质上是在把一个复杂的矩阵拆解成几个有规律的部分，好比把一首交响乐拆解成小提琴声部、大提琴声部、长笛声部分别来看。通过这个分解，他们找到了危险知识所占据的“方向”，然后构造出一个投影矩阵P。这个矩阵的效果是，任何数据乘上它，都会被“投影”到与危险知识完全垂直的空间中去。

整个框架同时优化三个目标。第一个是“零目标”：确保修改后的模型对危险知识的内部表征，与原来的危险知识在数学上夹角为九十度，二者毫无相似性。第二个是“遗忘目标”：确保当模型遇到危险输入时，它确实输出那个中性的“句子结束”标记，而不是有害内容。第三个是“实用目标”：在进行这一切操作的同时，模型对普通知识的处理能力必须保持不变——这就好比修理了钢琴的某一根琴弦，但整首曲子的其他音符仍然能够正常弹奏出来。

最令人惊叹的是，这三个目标被整合成一个数学优化问题之后，研究团队竟然找到了一个“闭合形式解”——也就是说，这个问题不需要反复尝试、不断迭代求解，而是有类似一元二次方程求根公式那样的直接答案。代入数据，一步算出，就得到了最优的权重修改方案。这使得ZeroUnlearn在处理少量样本时，效率极高。

四、当需要忘掉的东西很多时怎么办

ZeroUnlearn的闭合形式解固然非常优雅，但它天然更适合“少量遗忘”的场景。当需要同时删除成百上千条知识时，情况就变得复杂了。

研究团队因此提出了ZeroUnlearn的升级版，叫做ZeroUnlearn-GD。这个版本改用了一种叫做“梯度下降”的迭代优化方式。如果说原版ZeroUnlearn是直接用公式算出答案，那么ZeroUnlearn-GD则更像是用GPS导航：每走一步，都判断一下当前方向是否正确，然后修正，再走，再调整，最终一步一步逼近目标。

这个升级版在数学上同样有严格的理论保障。研究团队证明了，这个优化目标是一个凸函数——这在数学上意味着它只有一个最低点，不存在“掉进局部陷阱”的风险，梯度下降一定能够找到全局最优解。

两个版本各有适用的场景：当只需要删除少量敏感信息时，使用ZeroUnlearn的闭合解，速度极快；当需要批量处理大量样本时，采用ZeroUnlearn-GD的梯度方案，虽然需要更多的计算资源，但结果同样可靠。

五、模型的“知识体检”：找到最需要动手术的地方

在进行真正的遗忘操作之前，研究团队还解决了一个重要的前置问题：到底应该修改模型的哪几层？

现代大型语言模型就像一栋多层大楼，每一层都在处理信息，而知识并不是均匀地分布在所有楼层里的。研究团队采用了一种叫做“因果追踪”的诊断方法。原理是这样的：先给模型一个正常的提问，记录它回答的准确度；然后故意把输入中的关键词破坏掉——相当于把提问写错了——观察模型准确度下降了多少；最后，逐层“修复”模型内部的激活状态，看修复哪一层能让准确度恢复得最多。恢复最多的那一层，就是这条知识最主要的“栖息地”。

通过对三个不同规模的模型——Llama-3.2-3B、Llama-3.1-8B和Qwen-3-4B——进行这样的“体检”，研究团队发现了一个有趣的规律：知识主要集中在模型中间偏前的某些连续层里，而不是分布在整个网络的所有层中。就好比一栋大楼里，档案室不是随机分布在每一层，而是集中在某几个特定楼层。找到这些楼层，手术就只在这里进行，其他楼层完全不受干扰。

值得一提的是，研究团队还发现，对于Llama系列模型而言，虽然知识的峰值效应出现在更靠下的层，但直接修改那些低层会严重损害模型的整体能力。因此他们选择了“最后一个词”对应的峰值层——大致位于模型的中段——这充分体现了工程实践和理论最优之间需要灵活权衡的一面。

六、实验说话：数字背后的故事

研究团队在三个模型上做了全面的测试，使用三个知识数据集：MCF（专门测试事实知识的大型数据集）、ZsRE（关系抽取问答数据集）和MQUAKE（多跳推理数据集，被改造成单跳形式使用）。

考核指标分为四项。“遗忘效果”看的是被删除的知识是否还能被模型答出来，数值越低越好；“泛化效果”看的是换一种提问方式后，模型是否还会输出被删除的答案，同样越低越好；“特异性”看的是模型对周边正常知识的保留程度，越高越好；“困惑度”则衡量模型的整体语言生成质量，越低越好。

在“少量遗忘”的场景下，研究团队用10个随机种子、每次随机抽取50个样本进行测试。在Llama-3.1模型上，ZeroUnlearn在MCF数据集上的遗忘效果达到了0%——也就是说，被删除的知识完全无法被回答出来。相比之下，ROME这类方法的遗忘效果几乎和未修改的原始模型一样糟糕（24.40%对比原始的24.60%）；MEMIT稍好一些，但也只降到了9.60%；AlphaEdit降到了0.20%。

但仅仅“忘得好”还远远不够，更重要的是“不误伤”。GA虽然也能把遗忘效果压得很低，但代价是困惑度爆炸到超过1000，特异性跌到接近零——相当于把模型的大脑烧成了一块白板。FT同样如此，在MCF数据集上特异性直接归零。而ZeroUnlearn的困惑度维持在13左右（原始模型是12.88），特异性维持在14到17之间，可以说是在实现彻底遗忘的同时，对模型正常能力损伤最小的方案。

在“大量遗忘”的场景下，用1000个样本测试ZeroUnlearn-GD，结果同样出色。在Llama-3.2模型的MCF数据集上，遗忘效果也达到了0%，而AlphaEdit这个目前最好的竞争对手只能做到1.40%，MEMIT则是13.80%。ZeroUnlearn-GD的困惑度维持在13.05，特异性为12.41，在所有能够实现完全遗忘的方法中，对模型能力的保护效果是最好的。

研究团队还测试了六个下游任务，包括情感分析（SST）、多任务语言理解（MMLU）、语义匹配（MRPC）、语法判断（COLA）、文本蕴含（RTE）和自然语言推理（NLI）。结果显示，经过ZeroUnlearn处理后的模型，在所有六项任务上的表现与未改动的原始模型在统计上没有显著差异。而GA和FT在多项目任务上，则出现了接近于随机猜测的崩溃式表现。

七、用眼睛看见“遗忘”的发生

研究团队还提供了一种非常直观的验证方式：PCA可视化。PCA（主成分分析）可以把模型内部高维的信息处理状态，压缩到人眼能够看懂的二维图像上。

图上有两种颜色的点：蓝色的点代表原始模型处理这些知识时的内部状态，红色的点代表修改后的模型处理同样知识时的内部状态。如果两种颜色的点混在一起，说明修改几乎没有效果，模型内部依然以同样的方式理解这些知识。如果两种颜色的点彼此分开，形成两个不同的聚类，则意味着模型对这些知识的内部表征已经发生了根本性的改变。

在可视化结果中，ZeroUnlearn的效果非常明显：红色点和蓝色点形成了两个清晰分开的聚类，彼此相隔很远。而AlphaEdit和MEMIT的结果则是两种颜色的点大量重叠，说明这些方法虽然在某种程度上改变了模型的输出，但并没有从本质上改变模型对这些知识的内部编码方式。这个可视化结果从直觉层面印证了ZeroUnlearn“从内而外”彻底覆写知识的效果。

八、效率账单：花了多少时间和内存

一项技术能否真正落地，效率同样是不可回避的问题。研究团队测量了ZeroUnlearn在不同规模下的运行时间和内存占用，以Llama-3.2模型为基准。

SVD分解——也就是构建零空间投影矩阵的关键步骤——本身非常轻量：即使遗忘的样本从10个增加到1000个，SVD的耗时也始终低于0.3秒，内存占用仅从约13.8GB增加到14.1GB。端到端的完整流程时间随着样本数量接近线性增长：10个样本大约需要0.04小时，1000个样本则需要3.35到3.82小时。总内存稳定维持在约15到17.4GB之间。

对于一个不需要重新训练整个模型、只需要修改少数几层参数的方案来说，这个效率是完全可以接受的。研究团队也指出，真正的时间瓶颈并不在于那个闭合解的计算，而在于从模型中提取每条知识的“键值对”（也就是那些k和m向量）以及逐层更新权重的过程。

归根结底，这项研究解决的核心问题，可以用一句话来概括：他们找到了一种方法，让模型能够精准地“从心里忘掉”某些知识，而不只是假装忘了，同时还能确保模型的其他能力安然无恙。背后的关键洞见在于：遗忘不一定是破坏，它可以是重新映射；而重新映射可以发生在一个与原有知识“数学上完全正交”的空间里，从而在物理层面保证两者互不干扰。

对普通用户而言，这项研究的意义在于：未来，当你希望某个AI产品删除你的隐私数据、修正它已知的错误信息，或者禁止它产生某类有害内容时，背后实现这一切的技术路径有望变得更快速、更精准、更安全，而不再需要以牺牲AI的整体能力为代价。有兴趣深入了解技术细节的读者，可以通过论文编号arXiv:2605.18879查阅完整原文。

Q&A

Q1：ZeroUnlearn和普通的“让AI忘掉某些信息”的方法有什么本质区别？

普通方法（比如梯度上升GA）是强行让模型在特定知识上变得越来越“错”，但这会连带破坏周围正常的知识，就像用橡皮用力擦字结果把纸都擦破了。ZeroUnlearn则是把危险知识“重新映射”到一个数学上与原始危险知识完全垂直（正交）的空间里，从根本上改变模型对这些信息的内部理解方式，同时对其他知识的影响极小，甚至接近于零。

Q2：ZeroUnlearn能不能用来删除AI里某个真实人物的个人隐私信息？

理论上可以。ZeroUnlearn处理的是结构化的“知识三元组”——即主语-关系-宾语这样的形式。只要能把隐私信息表达成这种格式，比如某个人的住址、生日、联系方式，就可以用ZeroUnlearn将其从模型中精准清除。不过，现实中个人隐私可能以更复杂、更分散的形式存在，需要更多的工程适配工作才能实际部署。

Q3：ZeroUnlearn处理完的AI，真的完全不会再输出被删除的信息了吗？

在实验中，ZeroUnlearn在Llama-3.1模型上对MCF数据集实现了0%的遗忘效果，即完全无法输出被删除的信息。但需要注意，“泛化效果”指标显示，当换一种提问方式时，仍有约4.6%的残留，这意味着极端情况下仍然存在极小的泄露概率。研究团队通过引入中性目标状态，已经显著改善了这一问题，但实现彻底的、100%全场景的遗忘，在技术上仍然是一个开放的挑战。

来源：https://www.163.com/dy/article/KUEE8UTT0511DTVV.html

厦门大学