首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
AI遗忘后压缩记忆竟能恢复?Lexsi Labs实现永久记忆存储

AI遗忘后压缩记忆竟能恢复?Lexsi Labs实现永久记忆存储

热心网友
63
转载
2026-05-25

这项由Lexsi Labs研究团队完成的研究,以预印本形式发布于2026年5月14日,论文编号为arXiv:2605.15138v1。对于技术细节感兴趣的读者,可以通过该编号查阅完整论文。

当AI

一段关于“健忘”的悬案

想象一下,你有一位博学多才的朋友,脑子里装了不少危险知识——比如某种有害物质的合成方法,或者关键系统的入侵技巧。出于安全考虑,你请来专家对他进行了彻底的“记忆清除”,专家也信誓旦旦地保证手术成功。你安心离开。

结果第二天,你只是顺手帮他整理了一下背包,压缩了行李,这位朋友突然又把所有危险知识原原本本地复述了出来。

这听起来像科幻电影的桥段,但却是当前AI安全领域正在发生的真实困境。Lexsi Labs的研究团队揭示了一个系统性漏洞:当AI模型经过标准的“知识清除”处理后,只要再进行一次名为“量化”的常规压缩操作,那些本该被彻底删除的危险知识,就会像幽灵一样悉数复活。更关键的是,这并非某个特定方法的偶然失误,而是几乎所有现有清除技术都无法逃脱的普遍命运。

这个问题的严重性远超学术范畴。如今,从欧盟的《人工智能法案》到全球数据保护条例(GDPR),都在要求AI系统必须能够彻底删除特定信息,无论是涉及生物武器、网络攻击的危险知识,还是用户要求行使的“被遗忘权”。如果现有的清除技术如此脆弱,那么基于这些技术所做的安全合规认证,其可靠性就值得打上一个巨大的问号。

值得关注的是,研究团队不仅精准地诊断了病症,还开出了一剂名为MANSU(机制对齐零空间遗忘)的药方。通过跨越多个主流模型和多种危险知识基准的实证,他们证明了这是目前唯一能实现“永久遗忘”的解决方案。

一、背包里压缩的秘密:量化是什么,为什么它会让遗忘失效

要理解这个悖论,得先弄清楚两个核心概念:“机器遗忘”和“量化”。

所谓“机器遗忘”,就是让AI模型“忘掉”某些特定知识的技术。好比从一本百科全书中精准地撕掉几页,让它再也无法回答相关问题。这项技术对安全至关重要,因为大模型在训练过程中可能“阅读”过大量危险资料。

而“量化”则是另一回事。现代大模型动辄拥有数百亿参数,每个参数都是一个高精度的浮点数,非常占用存储和计算资源。量化技术通过降低这些数字的精度来压缩模型——比如将16位精度的参数,近似为4位精度。以本文研究的NF4(4位标准浮点数)格式为例,它能让模型体积缩小约4倍,运行速度提升2到3倍。在现实中,几乎所有准备上线部署的大模型都会经过这一步,这是标准流程,而非可选操作。

问题就出在这个标准流程上。研究发现,经过遗忘处理后,模型参数确实发生了变化,但这些变化极其微小——轻微到就像用铅笔在尺子上划了一道几乎看不见的痕迹。当量化这把“粗粒度橡皮擦”扫过时,这道轻微的痕迹就被完全抹平了,参数值回归原状,被遗忘的知识也随之复活。

这痕迹到底有多轻?以拥有约80亿参数的Llama-3.1-8B模型为例,即使用上力度很大的梯度上升法进行清除,每个参数平均的变化幅度也仅在10的负6次方量级,也就是0.000001左右。而NF4量化能识别的最小变化幅度(分辨率)大约是0.00084。前者比后者小了近380倍。这意味着,清除操作所做的修改,在量化的“眼中”根本不存在,全被当成了背景噪声。

研究测算,这个比值范围在47到828倍之间,取决于具体的清除方法。但无一例外,所有现有方法造成的参数扰动,都远远低于量化的识别门槛。

打个更直观的比方:量化就像一台只能计整数的投票机,而知识清除带来的变化可能只有0.000几票——无论这变化多真实,投票机看不见,结果就等于没发生。

二、双重失败:不是一个方法出了问题,而是所有方法都有问题

研究团队没有浅尝辄止,而是系统性地评估了六种主流的知识清除技术。他们在Llama-3.1-8B-Instruct模型上,使用生物安全危险知识基准(WMDP-bio)进行测试,然后对每种方法处理后的模型施加NF4量化,观察遗忘效果是否依然坚挺。

这六种方法代表了不同的技术路线:从最直接的梯度上升法,到改进版的手术式梯度上升法,再到借鉴对齐训练的负偏好优化法及其变体,以及不修改权重、只训练“输出拦截器”的神经激活重定向法。

测试结果揭示了一个清晰的“双重失败”模式。

第一种失败:真忘了,但压缩后又想起来了。 那些确实显著压低了危险知识答题准确率的方法(如梯度上升法),在量化后全部出现反弹。例如,全局梯度上升法将生物知识准确率从0.763压到了0.260,但量化后反弹至0.310,回升了0.050。这种“反弹”现象在不同模型上都得到了验证。

第二种失败:根本没忘,只是假装不会。 另一些方法(如SimNPO)在量化后看似保住了遗忘效果,但代价惨重。它们之所以“扛住”了量化,是因为参数几乎没怎么动。SimNPO将生物知识准确率压到0.250,量化前后无差异,看似完美。然而,模型在通用能力测试(MMLU)上的分数从0.603暴跌至0.295,相当于为了“忘记”一点危险知识,把大量正常知识也一并损坏了。更关键的是,在大范围统计中,这类方法对能力强的大模型,平均只降低了1.6个百分点的遗忘准确率——效果微乎其微,知识电路实则完好无损。

形象地说,第一种是“痕迹太浅,被橡皮擦抹掉了”;第二种是“根本没留痕迹,只是给出口装了个幌子”。

三、问题的根源:80亿分之一的困境

两种看似不同的失败,根源却指向同一个数学困境,研究团队称之为“稀疏-永久性权衡”。

当一个拥有80亿参数的模型接受全局性的遗忘训练时,修改的力量会被平均分摊到每一个参数上。即便总修改量很大,落到单个参数上的变化也微乎其微。数学推导证明,在“不破坏模型原有能力”的约束下,全局梯度上升能给每个参数带来的最大变化,比量化的分辨率门槛小了约380倍。

那集中火力只改少数参数行不行?理论上,如果能把所有修改力量集中在不到万分之一的关键参数上,确实可能突破量化门槛。但这里有个两难:随意选择这万分之一,极易误伤模型的其他能力。手术式梯度上升法尝试只修改6.6%的参数,结果每个参数的变化量仍不足量化门槛的1/47,遗忘效果在量化后依然会衰减。

对于偏好优化类方法,问题出在另一面。这类方法为了防止模型“学坏”或能力崩溃,会用原始模型作为“锚点”来约束新模型。这个约束本意是保护,却无意中将每个参数的修改幅度死死限制在了量化门槛之下,导致知识实质上未被触动。

这个权衡是数学上的必然,并非某个算法设计不佳。研究团队特别指出,即便尝试通过提高学习率来强行突破(如PTQ-LR/SURE方案),也会被“保留能力”的约束条件给压回去,无法从根本上解决问题。

四、MANSU:从“在哪里遗忘”出发的全新思路

既然症结在于“修改太分散”,那么解决方案的路径就清晰了:找到知识真正存储的“保险箱”,只修改那里,并且确保修改的力度足够深,能扛过量化的“审查”。

这个思路借鉴了AI研究中一个深刻的方向——机制可解释性。该领域的研究表明,大模型并非将知识均匀洒在所有参数中,而是像大脑一样,将特定事实和能力存储在少数特定的“神经电路”里。此前已有研究证实,GPT类模型的事实性知识,主要储存在中间层的MLP(多层感知机)子层中。

MANSU方法正是一套针对“知识电路”的精密外科手术,包含三个阶段:

第一阶段:定位。 使用一种名为EAP-IG(带积分梯度的边归因修补)的技术,对模型进行“电路图谱”扫描。通过分析模型在回答特定问题时的内部活动,精准定位出对“危险知识”输出最关键的前10个MLP子层,构成“遗忘电路”。在Llama-3.1-8B模型上,这个电路仅占全部参数的约3.2%。

第二阶段:投影。 仅在定位出的电路参数上施加修改。同时,引入“零空间投影”技术,确保修改方向只会影响目标知识,而不会“侵入”那些对保留其他知识至关重要的参数维度。这相当于在动手术时,精确避开了所有重要的神经和血管。

第三阶段:地板约束。 对电路中的每一个参数进行检查:如果其累积修改量已经超过了量化的识别门槛,就保留;如果没超过,就将其修改量缩放至刚好等于门槛值。这一步确保了每一个被修改的参数,在量化后都会落入与原始值不同的“格子”,从而使修改永久有效。

三个阶段环环相扣,实现了“精准定位、深度切割、痕迹永存”的目标。

五、数字会说话:MANSU真的解决了双重失败问题

在主实验中,MANSU与六种基线方法在多个模型和危险知识基准上同台竞技。

以Llama-3.1-8B-Instruct在生物知识上的表现为例,MANSU将遗忘准确率从0.763降至0.430。更重要的是,量化后准确率进一步降至0.390,PTQ差距为负0.040——这意味着量化不仅没有削弱遗忘,反而让效果更强了。与此同时,模型的通用能力(MMLU得分0.573)得到了很好的保持。

相比之下,其他方法则难以兼顾:梯度上升法量化后效果反弹;偏好优化法要么遗忘效果微弱,要么严重损害模型通用能力。

在更广泛的测试中,MANSU在全部24个(模型×数据集)组合上,都实现了严格的负PTQ差距(即量化后遗忘效果不变或更强),而没有任何一个基线方法能做到这一点。

这里有一个有趣的现象:为什么量化有时会让MANSU的遗忘效果“更强”?这源于NF4量化“格子”分布的不均匀性。当参数变化使其跳入相邻格子时,如果新格子位置更远,就会产生“弹射效应”,导致最终的位移比实际修改量还大,这就是“量化放大效应”。

六、CAD:一把新的尺子,专门测量“真正的遗忘”

研究团队还指出了一个评估体系的根本盲区:现有评测只看行为——问模型问题,看它答不答得出来。但这无法区分两种本质不同的情况:一是知识电路真的被拆除了;二是电路完好,只是在出口装了个“拦截器”,让模型“闭嘴”。后者就像给知识库大门加了把锁,但锁可能被撬开。

为此,他们设计了一个新指标:“电路归因散度”(CAD)。它的思路是,在清除前后,分别测量“遗忘知识电路”的活跃度变化。如果电路没被动(只是加了拦截器),CAD就接近0;如果电路被真正拆除或改变,CAD会接近甚至超过1。

实验结果一目了然。像LUNAR这类“拦截器”方法,CAD值极低(0.029-0.045),证实其未触动知识存储结构。而MANSU的CAD值很高(在WMDP-bio上为1.143),表明它真正改变了知识电路。

当然,高CAD也不总是好事。如果模型被整体破坏,CAD也会很高,但这属于误伤。因此,研究团队引入了配套指标(AS-C和AS-NC)来区分“精准拆除”和“无差别破坏”。MANSU在实现高CAD的同时,保持了较低的AS-NC,证明其改动是精准而克制的。

七、每个组件都不可或缺:拆开来看的消融实验

为了验证MANSU每个阶段的价值,研究团队进行了一系列“拆解”实验。

移除“地板约束”(第三阶段)后,量化永久性几乎丧失,PTQ差距从显著的负值弱化到近乎为零。这证明确保修改深度超过量化门槛是关键。

移除“零空间投影”(第二阶段)后,模型的通用能力受到严重损害,MMLU分数大幅下降。这印证了该技术对于保护“非目标知识”免受误伤至关重要。

如果用随机选择的层替换EAP-IG定位的“遗忘电路”(第一阶段),遗忘效果和CAD指标都会显著下降,同时改动会扩散到无关区域。这直接回应了“机制定位是否有用”的质疑——在本研究场景下,精准定位比随机选择有效得多。

更有说服力的是,如果使用与遗忘知识最不相关的“反向电路”,遗忘效果几乎失效,量化后准确率反而上升。这证明不仅需要定位,还必须定位到正确的“电路”。

最后,如果将后两个阶段的技术全局施加而非限制在定位电路内,效果甚至不如随机电路。这强有力地证明了,电路定位是实现有效且永久遗忘的必要前提。

八、归根结底:遗忘,要忘得明明白白

这项研究揭示的远不止一个技术漏洞,它更指向了当前AI安全评估体系的一个系统性盲点:我们过于依赖行为测试,却忽视了内部机制;我们通常在原始精度下评估,却忽略了部署前的压缩步骤;我们只测试“当下”,却未考虑流程中的“后续”。

一个令人深思的数字是:在94个非MANSU的实验中,偏好优化类方法对能力强的大模型,平均遗忘效果仅有1.6个百分点。这在四选一的选择题中,几乎与随机波动无法区分。这意味着,许多看似“安全”的模型,其危险知识可能只是被暂时“屏蔽”,而非真正“删除”。

MANSU方案是目前已知唯一能同时满足四个严苛条件的方法:在原始精度下实现有效遗忘、保持模型通用能力、确保量化后遗忘效果不消失、并通过CAD验证发生了真实的结构性改变。

当然,研究团队也指出了当前工作的局限。MANSU的测试主要集中在事实性问答场景,在开放式生成任务上的泛化性有待更多验证。EAP-IG定位方法对事实知识有效,但对编程、推理等技能型知识的电路定位是否同样精准,仍需探索。此外,不同模型架构的知识存储方式可能不同,例如Qwen系列模型的部分知识可能存储在注意力层,未来需要将电路定位扩展到更多层类型。

这项研究给所有依赖“AI知识清除”进行安全认证的机构传递了一个明确信息:真正的安全验证,必须在模型经过压缩步骤之后重新进行。量化,不仅仅是优化部署的一个环节,更是检验遗忘是否真实的“终极考场”。

Q&A

Q1:机器遗忘技术的核心问题是什么?

A: 核心问题在于“稀疏-永久性权衡”。现有方法对模型参数的修改幅度极其微小(约10⁻⁶量级),而标准的NF4量化操作的最小识别精度约为8.4×10⁻⁴。清除造成的细微变化在量化时会被当作噪声抹去,导致知识“复活”。这是一个数学上的必然困境,无法通过简单调整学习率来解决。

Q2:CAD指标和普通的遗忘评估有什么本质区别?

A: 普通评估只测试模型的行为输出(回答正确率),无法区分知识是“被删除”了还是仅仅“被屏蔽”。CAD指标则直接测量模型内部负责存储特定知识的“神经电路”是否发生了真实改变。如果只是加了输出拦截器(行为上不会答),CAD值会接近0;如果知识电路被真正拆除或改变,CAD值会接近甚至超过1。

Q3:MANSU方法为什么要分三个阶段,缺少任意一个阶段会怎样?

A: 三个阶段各司其职,缺一不可。缺少第三阶段的“地板约束”,量化后的永久性会大幅减弱;缺少第二阶段的“零空间投影”,会严重损害模型的通用能力;如果将第一阶段的精准电路定位替换为随机选择,遗忘的精准度和效率都会显著下降,且会误伤模型其他部分。三者协同,才能实现精准、永久且不伤及无辜的遗忘。

来源:https://www.techwalker.com/2026/0522/3187925.shtml
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

AI视频制作工具哪个好?十大平台功能对比与选择指南
业界动态
AI视频制作工具哪个好?十大平台功能对比与选择指南

人工智能的浪潮正席卷视频制作领域,带来一场创作效率与表达方式的深刻变革。如今,能够轻松转换多种风格的AI视频工具,已成为内容创作者、电商从业者乃至普通用户手中的“创意翻跟斗”。这些工具通过先进的算法,将静态的图片或文字描述转化为生动的动态画面,并能在写实、动漫、电影感、国风等多元风格间自由切换。这不

热心网友
05.25
AI文件高效导入PPT的实用技巧与步骤详解
AI教程
AI文件高效导入PPT的实用技巧与步骤详解

AI文件如何高效导入PPT?掌握这些技巧,工作效率翻倍 在当今快节奏的职场环境中,高效制作PPT,尤其是处理专业的AI设计文件,已成为许多职场人士的核心需求。幸运的是,借助WPS AI等智能工具优化导入流程,能够显著节省时间与精力,是一条切实可行的效率提升路径。 AI文件导入PPT的完整指南 要顺利

热心网友
05.25
AI智能PPT工具快速生成专业演示文稿
AI教程
AI智能PPT工具快速生成专业演示文稿

如何利用WPS AI高效创作文档,快速制作专业级PPT演示文稿? 在当今快节奏的职场环境中,高效产出高质量的文档与演示文稿已成为一项核心技能。面对繁杂的资料与紧迫的截止时间,如何从繁琐的格式调整与内容编排中抽身,将精力聚焦于创意构思与策略思考?WPS AI智能办公助手为此提供了完美的解决方案。它正深

热心网友
05.25
AI制作PPT网站推荐 轻松提升办公效率
AI教程
AI制作PPT网站推荐 轻松提升办公效率

如何利用WPS AI高效制作专业PPT,提升办公效率 在快节奏的现代办公环境中,制作一份专业的PPT常常是项既费时又费力的工作。从构思框架、搜集素材到排版设计,每一步都可能消耗大量精力。然而,随着AI技术的成熟,这个过程正变得前所未有的简单。今天,我们就来探讨一下,如何借助WPS AI这样的智能工具

热心网友
05.25
AI配图高效提升PPT演示效果的实用技巧
AI教程
AI配图高效提升PPT演示效果的实用技巧

运用AI配图提升PPT质量,增强演示效果的有效策略 制作PPT时,你是否遇到过这样的困境:内容扎实、逻辑清晰,但一旦配上图片,整体质感瞬间下降?要么是使用千篇一律的素材库模板,要么是拼凑风格各异的图片导致视觉混乱。视觉呈现的不足,常常会让一场精心准备的演示效果大打折扣。 幸运的是,随着AI技术的普及

热心网友
05.25

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

ThinkPad X1 Carbon AI 2026 高端商务本性能与适配深度解析
业界动态
ThinkPad X1 Carbon AI 2026 高端商务本性能与适配深度解析

对于穿梭于写字楼与机场贵宾室之间的商务精英而言,一台卓越的笔记本电脑不仅是生产力工具,更是个人专业形象与高效能力的延伸。频繁的跨城差旅、密集的会议安排、随时需要调取的机密文件……这些严苛场景对设备的便携性、性能、续航与安全性提出了极高要求。全新亮相的联想 ThinkPad X1 Carbon Aur

热心网友
05.25
以太坊价格突破2100美元 牛市行情分析与未来走势预测
web3.0
以太坊价格突破2100美元 牛市行情分析与未来走势预测

以太坊价格突破2100美元,现报2101 04美元,24小时涨幅1 9%。近期加密货币市场波动显著,投资者需关注动态并管理仓位风险。

热心网友
05.25
ThinkPad X1 Carbon AI 2026 超长续航商务笔记本电脑推荐
业界动态
ThinkPad X1 Carbon AI 2026 超长续航商务笔记本电脑推荐

对于频繁出差的商务人士而言,笔记本电脑的续航能力是决定工作效率与移动自由度的关键。无论是长途航班上的紧急方案调整,还是全天候不间断的会议与演示,一次意外的电量耗尽都可能打乱重要的工作进程。因此,一台真正卓越的商务笔记本,其超长续航绝非仅依赖于大容量电池,更是电池技术、硬件架构、屏幕功耗与智能性能调度

热心网友
05.25
蒲公英X1 Pro首发OrayClaw轻松管理访客WiFi与家长控制
业界动态
蒲公英X1 Pro首发OrayClaw轻松管理访客WiFi与家长控制

在贝锐成立二十周年的节点上,一系列面向AI时代的新品正式亮相。最引人注目的,莫过于首款内置自研AI Agent“OrayClaw”的蒲公英异地组网路由器X1 Pro。 这款产品将人工智能语音交互能力深度植入了网络设备。以往需要进入复杂后台才能完成的网络管理任务,现在用户只需“动动嘴”就能搞定。这无疑

热心网友
05.25
百视通星图智能体亮相CCBN2026 让电视屏幕更懂人心
业界动态
百视通星图智能体亮相CCBN2026 让电视屏幕更懂人心

“帮我找找关于江南文化地标的节目。” 话音刚落,在2026年CCBN的展台上,百视通的AI影视智能体已经精准推送了人文纪录片《大江南》中的《天一生水》一集。画面展开,宁波天一阁藏书楼静静呈现——范钦亲题的签条上,墨迹仿佛浸润了四百三十年的光阴,“天一生水”四个字的边角,已悄然爬上了时光的青苔。此时,

热心网友
05.25