印第安纳大学AI新突破：可视化与编辑隐藏记忆

时间：2026-05-20 07:27

近期，一项由印第安纳大学主导的研究在AI可解释性领域取得了重要进展。该研究以预印本形式于2026年5月12日发布于arXiv平台（论文编号：arXiv:2605 12770），深入探讨了一个核心问题：当AI模型在“阅读”文本时，其内部的“记忆”机制究竟如何运作？更重要的是，我们能否像进行精密手术一样

近期，一项由印第安纳大学主导的研究在AI可解释性领域取得了重要进展。该研究以预印本形式于2026年5月12日发布于arXiv平台（论文编号：arXiv:2605.12770），深入探讨了一个核心问题：当AI模型在“阅读”文本时，其内部的“记忆”机制究竟如何运作？更重要的是，我们能否像进行精密手术一样，精准定位并修改这些记忆？

研究的焦点是一类称为“循环状态语言模型”的架构，例如Mamba-2、RWKV-7、Gated DeltaNet以及采用类似机制的Qwen3.5（通义千问3.5）。这类模型与主流的Transformer架构（如GPT系列）存在根本差异：它们将处理文本过程中的历史信息，压缩并动态存储在一块“矩阵缓存”中。这好比一块持续更新的数字黑板，每读入一个新词，就在上面记录一组由数字构成的痕迹。

以往，用于分析AI内部工作的工具（如稀疏自编码器SAE）主要针对最终输出信号，难以窥探这块“记忆黑板”的具体内容。而本研究提出的新工具——WriteSAE——首次实现了对这块黑板的“读取”与“写入”访问。它不仅能解析缓存中的信息，还能预测并操控修改记忆后模型的输出行为。最直接的证据是，研究者通过向缓存写入特定信息，成功将AI生成某个目标词的概率从33.3%提升至100%。

一、黑板上的秘密：AI的矩阵记忆到底是什么

要理解这项突破，首先需要厘清这块“黑板”的工作原理。

传统Transformer在处理长文本时，需要保留全部历史信息以备随时调用，这导致了巨大的计算负担。循环状态模型则采用了一种更接近人类短期记忆的策略：每读入一个新词，就提炼关键信息，写入一块固定大小的记忆区域，旧信息则会被逐步覆盖或遗忘。

这块记忆区域就是“矩阵缓存”。它本质上是一个数字表格（例如128行×128列）。每处理一个新词，模型会生成“键向量”和“值向量”，将它们相乘后得到一个矩阵，叠加到缓存中。这个过程被称为“秩-1外积更新”。可以理解为，每次写入都是将两条一维信息组合成一张二维“便签”，贴到不断增厚的记录本上。

当模型需要“回忆”时，它会用当前的“查询向量”与这块缓存进行运算，提取相关信息。问题在于，传统的SAE工具是为分析一维向量设计的，面对二维的矩阵缓存时无能为力——若强行将矩阵拉平成一维向量进行分析，得到的“特征原子”在几何形态上无法与原始缓存槽位匹配，自然无法进行精准的替换操作。

二、WriteSAE是什么：一把专门为矩阵记忆设计的钥匙

研究者的思路非常直接：既然缓存中每条记录的形状是“两个向量的外积”，那么分析工具的特征原子也应该被设计成相同的形状。

具体而言，WriteSAE训练出的每个“原子”，都由两个向量构成，其形态与模型原生写入缓存的格式完全一致。这使得每个原子能像定制好的乐高积木，严丝合缝地嵌入缓存中的特定位置。

这种设计带来了极高的参数效率。一个传统SAE原子需要16384个参数来描述一个128×128的矩阵，而WriteSAE原子仅需256个参数，效率提升了64倍。

更有趣的是，分析这些原子时，研究者发现它们自然地分成了两类：一类原子的方向与模型实际写入缓存的方向高度一致，被称为“寄存器原子”；另一类则几乎没有相关性，被称为“捆绑原子”。在测试的Qwen3.5-0.8B模型的特定层中，存活的316个原子里，有222个属于寄存器类。这种分类现象本身，就揭示了模型记忆组织的一种潜在结构。

三、“换零件”实验：原子能不能替代真实记忆

形状匹配只是第一步，关键在于替换后的实际效果。研究者设计了一个精巧的验证实验。

在模型正常运行时，每当某个WriteSAE原子被激活，研究者就暂停进程，并用这个原子替换掉缓存中对应位置的真实写入。同时，设置两组对照：一是将该位置写入清零（“消融”），二是替换为一个随机矩阵。

结果令人信服。在测试的所有存活原子上，用原子替换的效果平均有89.8%的概率优于直接清零。更重要的是，无论是方向对齐的“寄存器原子”，还是方向不一致的“捆绑原子”，只要是存活的原子，其替换效果都显著优于清零操作。这表明，原子的有效性是整个存活原子集合的普遍属性，而非某一类原子的特权。

这一结论在模型的不同“注意力头”上也得到了验证，平均有效比例在89.3%左右，证明了结果的稳健性，并非偶然特例。

四、三因子公式：不用跑实验也能预测“改记忆后AI会说什么”

证明了“可以替换”之后，下一个核心问题是：“替换之后具体会发生什么？”研究者推导出了一个简洁的三因子预测公式。

该公式指出，在某个位置修改缓存，对后续模型输出某个词的概率的影响，大致等于三个因子的乘积：记忆衰减因子（代表记忆在传播过程中保留了多少“能量”）、读取匹配因子（代表当前查询有多容易“读到”这条记忆）、以及输出倾向因子（代表这条记忆有多倾向于促使模型输出目标词）。

这个公式的预测精度极高。在针对特定架构（Gated DeltaNet）的测试中，公式预测结果与实际测量值之间的拟合优度中位数达到了0.983，意味着它解释了98%以上的变化方差，几乎可以作为精确的预测工具使用。

当然，这个公式有其适用范围。当应用于Mamba-2等采用不同门控机制的架构时，预测公式就失效了。这恰恰说明，不同的模型架构，其内部记忆的传播和衰减机制可能存在本质差异。

五、直接动手：主动“写入”记忆，操控AI的输出

掌握了预测公式，研究者便开始尝试反向操作：主动向缓存中“写入”特定记忆，以操控模型的输出。

他们进行了三个层级的实验：

“擦除”实验：抹去某个原子对缓存的贡献，成功使其原本最倾向促进的某个词（如空格符）的出现概率显著下降，排名大幅跌落。
“单点安装”实验：在单个缓存位置写入计算好的“安装方向”，模型输出词概率的变化方向有84.6%的概率与预测一致。这表明公式能可靠预测变化方向，但对变化幅度的预测精度较低。
“持续写入”实验：在连续三个缓存位置写入强化后的记忆，效果最为惊人。对于原生排名在100-1000之间的目标词，其出现率从33.3%被成功提升至100%。不过，这种操控存在“剂量效应”，过度写入反而会破坏文本连贯性，导致效果下降。

这些实验证明，通过WriteSAE对记忆缓存进行精准干预，确实可以显著影响模型的生成结果。

六、跨架构测试：这把钥匙能开几把锁

WriteSAE的设计理念是“解码器原子的形状要与模型原生写入形状匹配”。因此，研究者系统测试了不同写入机制的模型。

对于采用秩-2外积写入的RWKV-7，WriteSAE的表现接近随机猜测，说明其更复杂的写入机制需要匹配更复杂的原子设计。

对于采用对角状态更新的Mamba-2，研究者设计了对应的对角形状原子。测试显示，架构匹配的WriteSAE在替换效果上显著优于强行使用传统方法，但其记忆传播机制不同，导致前述的三因子预测公式完全失效，主动安装实验也无效。

测试揭示了一个规律：模型写入机制的“纯净度”越高（越接近简单的秩-1外积），WriteSAE提取的原子与真实写入方向的对齐度就越高。这为理解不同架构的内部工作方式提供了新的视角。

七、跨规模测试：从0.8B到27B，规律还在吗

模型规模扩大后，规律是否依然存在？研究者在不同参数量的Qwen3.5模型上进行了测试。

结果显示，随着模型从0.8B增大到4B、27B，“寄存器原子”与真实写入方向的对齐度逐渐下降，但始终高于一个阈值，表明这类原子的类别依然存在。

然而，一个关键的挑战出现了：在4B模型上，尽管WriteSAE能很好地重建缓存状态，但其原子的“替换有效性”却大幅下降至接近随机水平（48%）。这意味着，对于更大规模的模型，仅仅优化状态重建误差是不够的，必须在训练目标中直接加入“写入方向对齐”的约束，才能保证原子的可替换性。这是未来研究需要攻克的方向。

八、段落级放大实验：把记忆工具用在更大的任务上

除了操控单个词汇，WriteSAE能否影响更宏观的文本风格？研究者进行了一个段落生成的实验。

他们识别出那些在句子或段落边界处特别活跃的WriteSAE原子，并在模型生成时人为放大这些原子的激活强度。结果发现，这能显著减少模型输出中的换行符数量，从而改变文本的段落结构。这种效果是方向特异性的，而非简单地注入噪声。

不过，并非所有尝试都能成功。当研究者试图放大与“专有名词”相关的特征时，并未观察到模型大写词率的变化。原因在于，该特征在原模型中的激活信号本身就非常微弱，WriteSAE未能提取出有效的、区分度高的相关原子。这个案例说明，缓存干预的有效性依赖于原模型中存在足够显著的特征信号。

总结与展望

归根结底，这项研究的意义在于打造了第一把能直接插入并操作AI“记忆矩阵”的钥匙。它不仅能解读记忆内容，还能进行精准的替换和写入，并附带了一个强大的预测工具。

对于普通用户而言，这项技术距离实际应用尚有距离，但它指明了一个充满潜力的方向：未来，我们或许能够在AI运行时，有针对性地微调其内部记忆，从而更精细地控制其输出内容和风格，而无需重新训练整个庞然大物。

对于AI安全和可解释性研究领域，这意味着循环状态模型的“黑箱”被打开了一个新的操作接口。以往只能在输出端观察现象，现在则可以在记忆形成的源头进行实验和干预，这对于理解、诊断乃至修正模型的行为至关重要。

当然，研究也存在明确的局限：三因子公式目前仅适用于特定架构；在4B以上大模型上的替换有效性需要新的训练方法；对于RWKV-7等复杂写入机制，原子设计仍需改进。这些正是论文作者指出的未来工作方向。

这项研究为深入理解AI的内部表征打开了一扇新的大门。随着工具的不断完善，我们对于这些复杂智能系统的掌控力，或许也将迈上一个新的台阶。

Q&A

Q1：WriteSAE和普通SAE有什么本质区别？

A：核心区别在于“特征原子”的形状。普通SAE的原子是一维向量，适用于分析激活信号，但无法匹配或替换二维的矩阵缓存。WriteSAE的原子被设计为两个向量的外积（一个秩-1矩阵），其形状与循环状态模型每一步写入缓存的原生格式完全一致，因此可以直接对缓存内容进行“外科手术式”的读写操作。

Q2：三因子预测公式为什么在Mamba-2上不管用？

A：公式中的第一个关键因子——“门控积”，是基于Gated DeltaNet（GDN）架构特有的乘法遗忘门机制推导的。Mamba-2采用了对角状态空间更新，其记忆传播和衰减机制与GDN不同，没有相同形式的乘法门控。因此，基于GDN机制推导的公式无法正确描述Mamba-2中扰动的传播过程，导致预测失效。

Q3：WriteSAE对AI安全研究有什么潜在价值？

A：WriteSAE首次提供了在循环状态模型记忆层面进行精确干预的能力。这对于AI安全研究意义重大：研究者可以主动擦除、修改或植入特定的记忆内容，从而测试哪些内部表示会触发有害或不安全的输出。这为识别、理解和修正模型中的潜在风险提供了前所未有的、可操作的研究接口。

来源：https://www.163.com/dy/article/KTAR15510511DTVV.html