你是否想过,当你和AI闲聊时,无意中把自己的生日、住址或照片告诉了它,这些信息会不会被它记住?我们能否像删除微信聊天记录一样,让AI“忘记”这些隐私?
近日,合肥工业大学教授时增林团队开发出一种“机器遗忘”技术,能让AI安全地忘记你的隐私,同时确保它的其他核心能力完全不受影响。这就像给AI做了一场脑部手术,只精准切除有害的“记忆肿瘤”,而完好的大脑功能被完整保留下来。
这项技术被称为“良性遗忘”,它依赖于一个名为“雕刻性记忆遗忘适配器”的模块,英文简称SMFA。时增林告诉DeepTech:“我们首次在多模态大模型的遗忘问题上,提出了‘有益遗忘’这一概念,并首次定义了对于多模态大模型而言,什么是有益的遗忘能力。同时,我们也首次提供了能够实现这种有益遗忘的方法,即我们的SMFA。”
研究中,团队首先让AI在需要被遗忘的隐私数据上进行训练。不过,这次训练的目标不是学习知识,而是“学习拒绝回答”。他和团队把原本正确的答案(比如一个人的名字叫张三)替换成“我不知道”“我无法提供该信息”等拒绝性答复。通过训练,AI就能学会针对这些特定问题守口如瓶。这个过程中产生的参数更新,被单独打包成为一个叫做“记忆遗忘适配器”的小模块。
然而,仅学会拒绝容易让AI变得对什么都“一问三不知”。为了防止这种过度泛化,时增林等人同时使用了“保留锚点”。他们使用一小部分必须保留的正常知识(比如一些无害的图片和描述)对AI进行微调,借此产生另一组参数更新。这个锚点就像灯塔,指明了哪些知识结构和能力是需要被牢牢保护和坚决不能动摇的。
那么现在,有两股力量在影响AI:一股是要它“忘记”,一股是要它“记住”。SMFA的工作就是仔细分析这两组参数更新,找出其中相互冲突的部分。比如,“遗忘更新”试图改变某个参数,而这个参数的改变方向恰恰会损害“锚点”想要保护的知识。
SMFA则会使用一个巧妙的掩码机制,精准地屏蔽掉那些有害且强势的遗忘更新,只保留那些能够有效实现隐私遗忘但又不过度的更新。最后,将这个“雕刻”好的更新模块,轻轻安装回原始的AI模型之中。
结果就是:AI成功忘记了指定的隐私,问起的时候它会礼貌拒绝或者回答其他无关内容,但是它的“看图说话”和理解能力丝毫没有受损,对于其他该记住的知识也依然可以对答如流。
为了公平、严格地测试各种遗忘方法的优劣,时增林团队还构建了世界上第一个针对多模态大模型选择性遗忘的综合测试基准,命名为S-MLLMUn Bench。
这个基准包含了1000个完全虚构的虚拟人物档案,每份档案都有AI生成的人物图片和详细的文本信息,比如姓名、职业、工资,甚至还有一份眼科医学图像和诊断描述。这样做既测试了隐私保护,又保证了研究能够完全符合伦理。
测试分为三个核心部分:
第一部分是图像记忆遗忘,测试AI是否忘记了指定人物的隐私信息;第二部分是文本记忆遗忘,测试AI是否忘记了与图片相关的文本隐私;第三部分是图像理解保留,测试AI在“动完手术”之后基本的看图说话能力是否依然在线。
在这个高标准考场中,相比其他方法,SMFA在成功擦除隐私记忆的同时,在图像理解保留项目上得分最高,而且生成的拒绝回答通顺、自然、有意义。而一些传统方法要么下手太狠导致AI智力严重下降以至于输出乱码,要么力度不够导致隐私没删干净。
总的来说,SMFA这项研究向我们说明了,人类和AI的共处完全可以建立在更安全、更尊重彼此权利的基础之上。“此外,它还可以用于更新过时信息。比如模型现在将特朗普与美国总统绑定,但几年后总统更迭,模型若仍回答特朗普就错了,这时就需要‘遗忘’过时的信息。”时增林补充称。
他继续说道:“我们觉得仅实现‘遗忘’对于现实问题可能还不够,未来我们希望在遗忘的同时,实现对模型的知识注入。例如,为新的概念提供多样化解释,融入文化多样性。比如‘666’这个词,模型可能只知道它是吉利数字,但网络用语中它还有‘做事顺滑’的意思。我们希望能将这类新知识高效注入模型,可能只需少量数据,而非重新训练整个模型。”
参考资料:
https://arxiv.org/abs/2511.20196
运营/排版:何晨龙
