AI遗忘后压缩记忆竟能恢复？Lexsi Labs实现永久记忆存储

首页

AI资讯

热心网友

转载

2026-05-25

这项由Lexsi Labs研究团队完成的研究，以预印本形式发布于2026年5月14日，论文编号为arXiv:2605.15138v1。对于技术细节感兴趣的读者，可以通过该编号查阅完整论文。

当AI

一段关于“健忘”的悬案

想象一下，你有一位博学多才的朋友，脑子里装了不少危险知识——比如某种有害物质的合成方法，或者关键系统的入侵技巧。出于安全考虑，你请来专家对他进行了彻底的“记忆清除”，专家也信誓旦旦地保证手术成功。你安心离开。

结果第二天，你只是顺手帮他整理了一下背包，压缩了行李，这位朋友突然又把所有危险知识原原本本地复述了出来。

这听起来像科幻电影的桥段，但却是当前AI安全领域正在发生的真实困境。Lexsi Labs的研究团队揭示了一个系统性漏洞：当AI模型经过标准的“知识清除”处理后，只要再进行一次名为“量化”的常规压缩操作，那些本该被彻底删除的危险知识，就会像幽灵一样悉数复活。更关键的是，这并非某个特定方法的偶然失误，而是几乎所有现有清除技术都无法逃脱的普遍命运。

这个问题的严重性远超学术范畴。如今，从欧盟的《人工智能法案》到全球数据保护条例（GDPR），都在要求AI系统必须能够彻底删除特定信息，无论是涉及生物武器、网络攻击的危险知识，还是用户要求行使的“被遗忘权”。如果现有的清除技术如此脆弱，那么基于这些技术所做的安全合规认证，其可靠性就值得打上一个巨大的问号。

值得关注的是，研究团队不仅精准地诊断了病症，还开出了一剂名为MANSU（机制对齐零空间遗忘）的药方。通过跨越多个主流模型和多种危险知识基准的实证，他们证明了这是目前唯一能实现“永久遗忘”的解决方案。

一、背包里压缩的秘密：量化是什么，为什么它会让遗忘失效

要理解这个悖论，得先弄清楚两个核心概念：“机器遗忘”和“量化”。

所谓“机器遗忘”，就是让AI模型“忘掉”某些特定知识的技术。好比从一本百科全书中精准地撕掉几页，让它再也无法回答相关问题。这项技术对安全至关重要，因为大模型在训练过程中可能“阅读”过大量危险资料。

而“量化”则是另一回事。现代大模型动辄拥有数百亿参数，每个参数都是一个高精度的浮点数，非常占用存储和计算资源。量化技术通过降低这些数字的精度来压缩模型——比如将16位精度的参数，近似为4位精度。以本文研究的NF4（4位标准浮点数）格式为例，它能让模型体积缩小约4倍，运行速度提升2到3倍。在现实中，几乎所有准备上线部署的大模型都会经过这一步，这是标准流程，而非可选操作。

问题就出在这个标准流程上。研究发现，经过遗忘处理后，模型参数确实发生了变化，但这些变化极其微小——轻微到就像用铅笔在尺子上划了一道几乎看不见的痕迹。当量化这把“粗粒度橡皮擦”扫过时，这道轻微的痕迹就被完全抹平了，参数值回归原状，被遗忘的知识也随之复活。

这痕迹到底有多轻？以拥有约80亿参数的Llama-3.1-8B模型为例，即使用上力度很大的梯度上升法进行清除，每个参数平均的变化幅度也仅在10的负6次方量级，也就是0.000001左右。而NF4量化能识别的最小变化幅度（分辨率）大约是0.00084。前者比后者小了近380倍。这意味着，清除操作所做的修改，在量化的“眼中”根本不存在，全被当成了背景噪声。

研究测算，这个比值范围在47到828倍之间，取决于具体的清除方法。但无一例外，所有现有方法造成的参数扰动，都远远低于量化的识别门槛。

打个更直观的比方：量化就像一台只能计整数的投票机，而知识清除带来的变化可能只有0.000几票——无论这变化多真实，投票机看不见，结果就等于没发生。

二、双重失败：不是一个方法出了问题，而是所有方法都有问题

研究团队没有浅尝辄止，而是系统性地评估了六种主流的知识清除技术。他们在Llama-3.1-8B-Instruct模型上，使用生物安全危险知识基准（WMDP-bio）进行测试，然后对每种方法处理后的模型施加NF4量化，观察遗忘效果是否依然坚挺。

这六种方法代表了不同的技术路线：从最直接的梯度上升法，到改进版的手术式梯度上升法，再到借鉴对齐训练的负偏好优化法及其变体，以及不修改权重、只训练“输出拦截器”的神经激活重定向法。

测试结果揭示了一个清晰的“双重失败”模式。

第一种失败：真忘了，但压缩后又想起来了。 那些确实显著压低了危险知识答题准确率的方法（如梯度上升法），在量化后全部出现反弹。例如，全局梯度上升法将生物知识准确率从0.763压到了0.260，但量化后反弹至0.310，回升了0.050。这种“反弹”现象在不同模型上都得到了验证。

第二种失败：根本没忘，只是假装不会。 另一些方法（如SimNPO）在量化后看似保住了遗忘效果，但代价惨重。它们之所以“扛住”了量化，是因为参数几乎没怎么动。SimNPO将生物知识准确率压到0.250，量化前后无差异，看似完美。然而，模型在通用能力测试（MMLU）上的分数从0.603暴跌至0.295，相当于为了“忘记”一点危险知识，把大量正常知识也一并损坏了。更关键的是，在大范围统计中，这类方法对能力强的大模型，平均只降低了1.6个百分点的遗忘准确率——效果微乎其微，知识电路实则完好无损。

形象地说，第一种是“痕迹太浅，被橡皮擦抹掉了”；第二种是“根本没留痕迹，只是给出口装了个幌子”。

三、问题的根源：80亿分之一的困境

两种看似不同的失败，根源却指向同一个数学困境，研究团队称之为“稀疏-永久性权衡”。

当一个拥有80亿参数的模型接受全局性的遗忘训练时，修改的力量会被平均分摊到每一个参数上。即便总修改量很大，落到单个参数上的变化也微乎其微。数学推导证明，在“不破坏模型原有能力”的约束下，全局梯度上升能给每个参数带来的最大变化，比量化的分辨率门槛小了约380倍。

那集中火力只改少数参数行不行？理论上，如果能把所有修改力量集中在不到万分之一的关键参数上，确实可能突破量化门槛。但这里有个两难：随意选择这万分之一，极易误伤模型的其他能力。手术式梯度上升法尝试只修改6.6%的参数，结果每个参数的变化量仍不足量化门槛的1/47，遗忘效果在量化后依然会衰减。

对于偏好优化类方法，问题出在另一面。这类方法为了防止模型“学坏”或能力崩溃，会用原始模型作为“锚点”来约束新模型。这个约束本意是保护，却无意中将每个参数的修改幅度死死限制在了量化门槛之下，导致知识实质上未被触动。

这个权衡是数学上的必然，并非某个算法设计不佳。研究团队特别指出，即便尝试通过提高学习率来强行突破（如PTQ-LR/SURE方案），也会被“保留能力”的约束条件给压回去，无法从根本上解决问题。

四、MANSU：从“在哪里遗忘”出发的全新思路

既然症结在于“修改太分散”，那么解决方案的路径就清晰了：找到知识真正存储的“保险箱”，只修改那里，并且确保修改的力度足够深，能扛过量化的“审查”。

这个思路借鉴了AI研究中一个深刻的方向——机制可解释性。该领域的研究表明，大模型并非将知识均匀洒在所有参数中，而是像大脑一样，将特定事实和能力存储在少数特定的“神经电路”里。此前已有研究证实，GPT类模型的事实性知识，主要储存在中间层的MLP（多层感知机）子层中。

MANSU方法正是一套针对“知识电路”的精密外科手术，包含三个阶段：

第一阶段：定位。 使用一种名为EAP-IG（带积分梯度的边归因修补）的技术，对模型进行“电路图谱”扫描。通过分析模型在回答特定问题时的内部活动，精准定位出对“危险知识”输出最关键的前10个MLP子层，构成“遗忘电路”。在Llama-3.1-8B模型上，这个电路仅占全部参数的约3.2%。

第二阶段：投影。 仅在定位出的电路参数上施加修改。同时，引入“零空间投影”技术，确保修改方向只会影响目标知识，而不会“侵入”那些对保留其他知识至关重要的参数维度。这相当于在动手术时，精确避开了所有重要的神经和血管。

第三阶段：地板约束。 对电路中的每一个参数进行检查：如果其累积修改量已经超过了量化的识别门槛，就保留；如果没超过，就将其修改量缩放至刚好等于门槛值。这一步确保了每一个被修改的参数，在量化后都会落入与原始值不同的“格子”，从而使修改永久有效。

三个阶段环环相扣，实现了“精准定位、深度切割、痕迹永存”的目标。

五、数字会说话：MANSU真的解决了双重失败问题

在主实验中，MANSU与六种基线方法在多个模型和危险知识基准上同台竞技。

以Llama-3.1-8B-Instruct在生物知识上的表现为例，MANSU将遗忘准确率从0.763降至0.430。更重要的是，量化后准确率进一步降至0.390，PTQ差距为负0.040——这意味着量化不仅没有削弱遗忘，反而让效果更强了。与此同时，模型的通用能力（MMLU得分0.573）得到了很好的保持。

相比之下，其他方法则难以兼顾：梯度上升法量化后效果反弹；偏好优化法要么遗忘效果微弱，要么严重损害模型通用能力。

在更广泛的测试中，MANSU在全部24个（模型×数据集）组合上，都实现了严格的负PTQ差距（即量化后遗忘效果不变或更强），而没有任何一个基线方法能做到这一点。

这里有一个有趣的现象：为什么量化有时会让MANSU的遗忘效果“更强”？这源于NF4量化“格子”分布的不均匀性。当参数变化使其跳入相邻格子时，如果新格子位置更远，就会产生“弹射效应”，导致最终的位移比实际修改量还大，这就是“量化放大效应”。

六、CAD：一把新的尺子，专门测量“真正的遗忘”

研究团队还指出了一个评估体系的根本盲区：现有评测只看行为——问模型问题，看它答不答得出来。但这无法区分两种本质不同的情况：一是知识电路真的被拆除了；二是电路完好，只是在出口装了个“拦截器”，让模型“闭嘴”。后者就像给知识库大门加了把锁，但锁可能被撬开。

为此，他们设计了一个新指标：“电路归因散度”（CAD）。它的思路是，在清除前后，分别测量“遗忘知识电路”的活跃度变化。如果电路没被动（只是加了拦截器），CAD就接近0；如果电路被真正拆除或改变，CAD会接近甚至超过1。

实验结果一目了然。像LUNAR这类“拦截器”方法，CAD值极低（0.029-0.045），证实其未触动知识存储结构。而MANSU的CAD值很高（在WMDP-bio上为1.143），表明它真正改变了知识电路。

当然，高CAD也不总是好事。如果模型被整体破坏，CAD也会很高，但这属于误伤。因此，研究团队引入了配套指标（AS-C和AS-NC）来区分“精准拆除”和“无差别破坏”。MANSU在实现高CAD的同时，保持了较低的AS-NC，证明其改动是精准而克制的。

七、每个组件都不可或缺：拆开来看的消融实验

为了验证MANSU每个阶段的价值，研究团队进行了一系列“拆解”实验。

移除“地板约束”（第三阶段）后，量化永久性几乎丧失，PTQ差距从显著的负值弱化到近乎为零。这证明确保修改深度超过量化门槛是关键。

移除“零空间投影”（第二阶段）后，模型的通用能力受到严重损害，MMLU分数大幅下降。这印证了该技术对于保护“非目标知识”免受误伤至关重要。

如果用随机选择的层替换EAP-IG定位的“遗忘电路”（第一阶段），遗忘效果和CAD指标都会显著下降，同时改动会扩散到无关区域。这直接回应了“机制定位是否有用”的质疑——在本研究场景下，精准定位比随机选择有效得多。

更有说服力的是，如果使用与遗忘知识最不相关的“反向电路”，遗忘效果几乎失效，量化后准确率反而上升。这证明不仅需要定位，还必须定位到正确的“电路”。

最后，如果将后两个阶段的技术全局施加而非限制在定位电路内，效果甚至不如随机电路。这强有力地证明了，电路定位是实现有效且永久遗忘的必要前提。

八、归根结底：遗忘，要忘得明明白白

这项研究揭示的远不止一个技术漏洞，它更指向了当前AI安全评估体系的一个系统性盲点：我们过于依赖行为测试，却忽视了内部机制；我们通常在原始精度下评估，却忽略了部署前的压缩步骤；我们只测试“当下”，却未考虑流程中的“后续”。

一个令人深思的数字是：在94个非MANSU的实验中，偏好优化类方法对能力强的大模型，平均遗忘效果仅有1.6个百分点。这在四选一的选择题中，几乎与随机波动无法区分。这意味着，许多看似“安全”的模型，其危险知识可能只是被暂时“屏蔽”，而非真正“删除”。

MANSU方案是目前已知唯一能同时满足四个严苛条件的方法：在原始精度下实现有效遗忘、保持模型通用能力、确保量化后遗忘效果不消失、并通过CAD验证发生了真实的结构性改变。

当然，研究团队也指出了当前工作的局限。MANSU的测试主要集中在事实性问答场景，在开放式生成任务上的泛化性有待更多验证。EAP-IG定位方法对事实知识有效，但对编程、推理等技能型知识的电路定位是否同样精准，仍需探索。此外，不同模型架构的知识存储方式可能不同，例如Qwen系列模型的部分知识可能存储在注意力层，未来需要将电路定位扩展到更多层类型。

这项研究给所有依赖“AI知识清除”进行安全认证的机构传递了一个明确信息：真正的安全验证，必须在模型经过压缩步骤之后重新进行。量化，不仅仅是优化部署的一个环节，更是检验遗忘是否真实的“终极考场”。