Lexsi Labs实现永久性数据擦除技术突破

时间：2026-05-24 20:57

LexsiLabs研究发现，现有AI知识清除技术存在系统性漏洞：模型清除后一旦进行量化压缩，被删危险知识便会恢复。为此，团队提出MANSU方案，通过精准定位知识存储电路、施加定向修改并确保修改量超过量化识别阈值，实现了能抵御量化、真正永久遗忘的方法。该发现对依赖AI遗忘的安全合规体系提出了重要挑。

Lexsi Labs研究团队于2026年5月14日在arXiv预印本平台发布了一项重磅研究（论文编号：arXiv:2605.15138v1），揭示了当前AI安全领域一个被忽视的重大系统性漏洞，为从业者提供了深入探讨的完整依据。

想象这样一个场景：你有一位学识渊博的朋友，他掌握了一些危险的知识，比如某种有害物质的合成方法。出于安全考虑，你请专家对他进行了专业的“记忆清除”，专家确认手术成功。然而第二天，你只是帮他整理了一下背包，他突然又将所有危险知识和盘托出。

这听起来像科幻情节，但却是当前AI安全领域面临的真实困境。Lexsi Labs的研究揭示，现有主流的AI“知识遗忘”技术存在一个根本性缺陷：当模型经过标准的知识清除处理后，只要再进行一步名为“量化”的常规模型压缩操作，那些本应被删除的危险知识便会“死灰复燃”。更关键的是，这并非某个特定方法的偶然失误，而是几乎所有现有技术路线都无法避免的普遍问题。

这一发现的现实意义重大。当前，从欧盟的AI法案到各国的数据保护条例（如GDPR中的“被遗忘权”），都要求AI系统能够彻底删除特定信息，尤其是涉及武器制造、网络攻击等危险内容。如果底层清除技术如此脆弱，那么基于此建立的安全认证和合规承诺，其可靠性将大打折扣。

研究团队不仅精准定位了问题的根源，还提出了一套名为MANSU（机制对齐零空间遗忘）的全新解决方案。通过跨越多个主流模型和多种危险知识基准的实验，他们证明了该方案是目前唯一能实现“永久遗忘”的方法。

一、压缩的魔法：量化如何让遗忘失效

要理解这个漏洞，需要先厘清两个核心概念：“机器遗忘”与“量化”。

机器遗忘，是让AI模型“忘记”某些特定知识的关键技术。其重要性不言而喻——大型语言模型在训练中可能接触到大量危险信息，部署前必须确保这些信息已被彻底清除，以满足AI安全与合规要求。

量化则是另一个层面的技术。为了降低存储和计算成本，在实际部署模型前，工程师会通过降低参数数值精度来压缩模型。例如，本研究关注的NF4量化格式，能将参数精度从16位压缩至4位，使模型体积缩小约4倍，运行速度提升2到3倍。这几乎是生产环境中的标准操作，而非可选步骤。

问题就出在两者的交汇处。研究发现，经过遗忘处理后，模型参数确实发生了变化，但这种变化极其微小。当量化这个“粗粒度橡皮擦”扫过时，这些细微的修改痕迹便被完全抹平，参数值回归原状，知识也随之复活。

具体有多微小？以拥有约80亿参数的Llama-3.1-8B模型为例，即使用上强力的梯度上升法进行清除，每个参数的平均变化幅度也仅在10⁻⁶（0.000001）量级。而NF4量化的最小识别精度（分辨率）约为8.4×10⁻⁴（0.00084）。前者比后者小了约380倍。这意味着，清除操作带来的改变，在量化的“视野”里根本不存在，直接被当作噪声忽略了。

研究测算，不同清除方法造成的参数变化，普遍低于量化分辨率的47到828倍。可以说，在量化面前，现有的遗忘努力几乎都是“隐形”的。

二、普遍困境：两种失败模式

研究团队系统评估了六种主流知识清除技术，包括梯度上升法、手术式梯度上升法、负偏好优化法及其变体等。测试在Llama-3.1-8B-Instruct模型上进行，使用生物安全危险知识基准，并在清除后施加NF4量化。

结果揭示了一个清晰的“双重失败”模式：

第一种失败：遗忘被量化抹除。 一些方法（如梯度上升法）在原始精度下看似有效，能将危险知识问答准确率从0.763显著压低至0.260。然而，一经量化，准确率便反弹至0.310。这表明，表面的遗忘痕迹过于轻微，无法在压缩中幸存。

第二种失败：根本未曾遗忘。 另一些方法（如SimNPO）在量化前后表现稳定，看似抵御了压缩。但深入分析发现，其代价是模型的通用能力（MMLU分数）从0.603暴跌至0.295。更关键的是，在大范围统计中，这类方法对能力强模型的知识遗忘率平均仅降低1.6个百分点——几乎与随机波动无异。它们并未真正触动内部的知识存储电路，只是在输出端安装了一个“反射挡板”，知识本身依然完好无损。

简言之，要么是清除的痕迹太浅被擦除，要么是根本没有进行实质性的清除。

三、根源探析：80亿分之一的数学困局

两种失败模式背后，是同一个根本性矛盾，研究团队称之为“稀疏-永久性权衡”。

对于一个拥有80亿参数的模型，任何基于梯度的全局清除方法，其修改力量都会被海量参数极度稀释。数学推导证明，在“不破坏模型原有能力”的约束下，全局梯度上升法能给单个参数带来的最大变化远低于量化分辨率门槛。

那么，集中力量修改少数参数呢？理论上可行，但随意选择目标参数必然会误伤模型的其他能力。实验也证实，即使像手术式梯度上升法那样只修改6.6%的参数，每个参数的变化量仍不足量化分辨率的1/47。

至于偏好优化类方法，其设计初衷（通过锚定原始模型来保护通用能力）无意中构成了一个“紧箍咒”，将参数的变化幅度牢牢限制在量化门槛之下，导致知识得以保留。

这是一个数学上的必然困境，并非通过调整学习率等技术细节就能解决。

四、MANSU方案：精准的“神经外科手术”

既然问题的核心是“修改太分散”，那么解决方案的路径就变得清晰：找到知识真正存储的“位置”，进行精准、足量的修改，并确保修改能扛过量化。

这一思路借鉴了“机制可解释性”领域的研究。该领域发现，大模型的知识并非均匀分布，而是存储在特定的神经“电路”中，类似于大脑的功能分区。此前研究已表明，事实性知识主要储存在模型中间层的MLP子层中。

MANSU方法正是基于此，设计了一套三阶段的“定点清除手术”：

第一阶段：定位。 使用EAP-IG技术，对模型进行“电路图谱”扫描。通过分析模型回答特定问题时各层神经网络的重要性，精准定位出与目标遗忘知识最相关的关键MLP层（即“遗忘电路”）。在测试中，这套电路仅涉及总参数量的约3.2%。

第二阶段：投影。 仅对定位出的电路参数施加修改，并引入“零空间投影”技术。该技术能确保修改方向避开那些对保留其他知识至关重要的参数维度，从而最大程度保护模型的通用能力。

第三阶段：地板约束。 对电路中的每个参数进行检查。如果其累积修改量未超过量化识别门槛，则将其缩放至恰好等于门槛值。这保证了每一个被修改的参数在量化后都会落入不同的“数值格子”，使得修改永久有效。

五、数据验证：MANSU的表现

在多个模型和知识基准上的测试表明，MANSU成功解决了前述的双重失败。

以Llama-3.1-8B-Instruct模型在生物安全知识上的测试为例：MANSU将遗忘准确率从0.763降至0.430，量化后进一步降至0.390（PTQ差距为-0.040）。这意味着量化不仅没有削弱遗忘效果，反而使其略有增强。同时，模型通用能力（MMLU得分0.573）得到了极好的保留。

相比之下，基线方法要么在量化后遗忘效果反弹，要么以严重损害通用能力为代价。在更广泛的架构泛化测试中，MANSU在全部24个（模型×数据集）组合上均实现了负的PTQ差距，而没有任何一个基线方法能同时兼顾有效遗忘、能力保持和量化永久性。

量化后遗忘效果反而增强的现象，源于NF4量化格子的非均匀分布。当参数被修改并跨越门槛后，可能被“弹射”到更远的量化格子中，产生“放大效应”。

六、CAD：衡量“真遗忘”的新标尺

研究团队指出，仅靠行为测试（问答准确率）存在盲区：模型答不上来，可能是因为知识被真正删除，也可能只是输出被拦截，而知识仍存于内部。

为此，他们提出了“电路归因散度”这一新指标。CAD通过比较知识清除前后，目标电路内部连接的重要性得分变化，来量化电路的结构性改变。真正的结构性遗忘会导致CAD值接近甚至大于1（得分符号翻转），而仅安装“拦截器”的方法（如LUNAR），其CAD值接近0。

实验数据证实了CAD的有效性。同时，研究还引入了AS-C（电路内激活变化）和AS-NC（电路外激活变化）作为辅助指标，以区分精准删除与无差别破坏。

七、组件拆解：缺一不可的三阶段

通过系统的消融实验，研究团队验证了MANSU三个阶段各自的关键作用：

移除“地板约束”，量化永久性几乎丧失；移除“零空间投影”，模型通用能力严重受损；若将EAP-IG定位的真实“遗忘电路”替换为随机选取的同等数量层，则遗忘效果和精准性均大幅下降。这些实验共同证明，三个阶段协同工作，是实现精准、永久且无害遗忘的必要条件。

八、结论与启示：遗忘必须经得起压缩的考验

这项研究揭示的不仅是一个技术漏洞，更是当前AI安全评估体系的系统性盲点：评估往往只关注行为表象和原始精度，却忽略了后续部署中必然经历的压缩步骤，也缺乏对模型内部结构是否真正改变的检验。

MANSU是目前唯一被证明能同时满足四个严苛条件的方法：在原始精度下实现有效遗忘、保持模型通用能力、在量化后遗忘效果持续甚至增强、并通过CAD验证发生了结构性改变。

当然，研究也存在局限，例如目前测试主要集中在事实性选择题场景，对开放式生成或复杂技能型知识的泛化效果有待进一步验证。

这项研究向所有依赖“AI知识清除”进行安全认证的机构发出了明确信号：真正的安全验证，必须在模型经过完整的部署流程（包括量化压缩）之后再进行。量化，不再是无关紧要的技术细节，而是检验遗忘是否真实、永久的终极考场。

Q&A

Q1：机器遗忘技术的核心问题是什么？

A：核心问题在于“稀疏-永久性权衡”。现有方法对参数的修改幅度极其微小（约10⁻⁶量级），远低于标准量化操作的最小识别精度（约10⁻⁴量级）。导致清除痕迹在模型压缩时被当作噪声抹去，从而使知识“复活”。这是数学上的固有困境，难以通过常规调参解决。

Q2：CAD指标与普通行为评估有何本质区别？

A：普通行为评估只测试模型“会不会答”，无法区分是“知识被删除”还是“答案被拦截”。CAD指标则直接测量模型内部存储目标知识的特定“电路”是否发生了结构性改变。CAD值接近0意味着电路未变（仅行为拦截），接近或大于1则意味着电路被真正修改或拆除。

Q3：MANSU方法的三个阶段为何缺一不可？

A：三个阶段各司其职，共同保障了遗忘的精准性、永久性和安全性。定位阶段确保找到真正的知识存储位置；投影阶段确保修改不误伤其他能力；地板约束阶段确保修改能抵御量化压缩。消融实验表明，缺失任何一环，都会在遗忘效果、能力保持或量化鲁棒性上出现显著短板。

来源：https://www.163.com/dy/article/KTIJ1NLD0511DTVV.html

实验

上一篇中科宇航广州研究院揭牌聚力太空制造与可重复使用运载系统 下一篇中科院新方法让AI学会从错误中学习大模型像人类一样自主纠错

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。