如果你曾使用过语音助手,或者让AI帮忙润色过一段文字,那么你已经接触过“大型语言模型”了。这类模型在理解文字方面表现出色,但业界公认的一个难题是:当文本过长时,它的计算量会呈指数级增长,速度变慢、成本上升,令人困扰。更麻烦的是,为了提升速度而采用的各种“加速技巧”,往往以牺牲准确性为代价——省下了时间,却丢掉了精度。
最近,瑞士联邦理工学院(EPFL)CLAIRE实验室的一项研究,为这一困境提供了新的解决思路。他们发现,只要在AI模型的核心架构中加入一个精巧的“短期记忆”模块,那些为了提速而不得不简化计算的模型,其准确率能够得到惊人的恢复,甚至在某些情况下接近仔细读完所有信息的水平。这项研究于2026年5月以预印本形式发布在arXiv平台,论文编号为arXiv:2605.28640。
这一发现指明了新方向:想要让AI又快又准,未必只能专注于“如何更好地简化计算”,换个思路,增强它在简化计算时的“信息储备”或许更有效。
一、为什么AI处理长文章会如此“吃力”
你可以想象一位每天处理海量邮件的行政人员。绝大多数邮件只需快速浏览,但偶尔会有一封至关重要的合同混在其中,必须被精准地找到并处理。
当前的大型语言模型面对长文本时,处境与此类似。为了理解文本,它需要计算文中所有词语两两之间的关系,以此判断信息的轻重。文本长度如果翻倍,需要计算的关系数量就会变成原来的四倍。这种“平方复杂度”的特性,正是导致AI推理速度慢、成本高的核心瓶颈。
于是,研究者们开发了各种简化计算的策略,比如Quest、MoBA、SnapKV。它们的核心思路都一样:既然大多数词语间的关联很弱,那就只计算最重要的部分,跳过其余的。这些方法确实提升了速度,但代价是准确率,尤其是在需要精确检索特定信息的任务上,模型的表现会大打折扣。
二、一个“短期记忆手册”如何改变游戏规则
EPFL团队换了个思路。他们认为,与其不断修补简化计算的方法,不如改造一下AI的“基本功”,让它即便在偷懒时,手头的信息也更丰富。
他们借助了一项名为RAT+的架构设计。这个设计的核心理念很直观:在标准的注意力模块旁边,添加一个轻量级的“记忆更新”机制。让每个词语的特征向量在模型中流动时,不仅能代表自己,还会悄悄融入前面词语留下的“印记”。
这个印记是衰减的:越近的词语影响越浓,越远的则越淡。这就像一本随手翻阅的短期记忆手册——你记不住前天看过的每个字,但昨天留下的关键印象,会帮助你理解今天的新内容。
从技术实现看,这个更新过程通过一个简单的递推公式完成,有效记忆范围被控制在64个词语左右。因此,它带来的额外计算和存储开销几乎可以忽略不计,却能让每个词语的向量都承载更丰富的上下文信息。
这对简化计算的加速方法意味着什么?当模型进行稀疏计算,只查看少数关键片段时,这些被选中的片段,现在每一个都悄悄带着附近词语的记忆。即便标准答案所在的位置没被直接选中,其“残影”也可能通过附近被选中的片段传递过来,从而帮助模型做出正确判断。
三、三种简化计算方法都从中受益了吗
为了验证这个“记忆手册”是否真有普适性,研究团队选取了三种针对不同效率瓶颈的经典稀疏推理方法进行测试。
Quest主要在模型生成答案的每个步骤时简化计算,只调取最重要的几块信息。MoBA的思路类似,但作用于模型理解问题的阶段。SnapKV则更激进,它在理解完问题后,会直接丢弃大部分存储的中间信息,只保留精华部分。
测试非常严格。在同样的模型上,研究者分别使用原始架构和加了记忆模块的RAT+架构,以同样的简化比例运行上述三种方法。测试任务选自RULER基准,是一系列经典的“大海捞针”挑战——把关键信息深藏在冗长的无关文本中,考验模型精准检索的能力。任务难度从简单的单数字检索,到复杂的多组键值对匹配,跨度很大。
四、数字说话:记忆模块带来了多大的改善
实验结果一目了然。记忆模块在几乎所有任务和所有简化比例下,都带来了显著的准确率提升。
以SnapKV方法为例,在一个70亿参数的模型上,当只使用1/4的信息量时,RAT+架构比标准架构平均提升了超过34个百分点;当预算紧缩到1/8时,提升幅度扩大到40个百分点。在最极端的1/16预算下,简单检索任务的准确率从39.2%直接飙升至84.2%。
Quest方法在简单任务上表现原本就不错,差距主要体现在复杂任务上。例如,在多键匹配任务中,RAT+架构将准确率从70%多的水平,提升到了接近完美的99%。
MoBA在RAT+架构下的表现尤为亮眼。在1/16的极低信息预算下,八个测试任务的准确率几乎全部达到或逼近100%,而标准架构在同样条件下的准确率在一些任务上仅为50%左右。
更关键的是,这种改进不仅存在于从零训练的模型。研究团队在成熟的OLMo2-7B模型(由Allen AI研究所预训练)上也进行了验证。他们仅用100亿词语的额外训练(相对于原模型的数万亿训练量,微乎其微),就成功为模型加装了记忆模块。即便如此,效果依然显著:Quest在某个复杂任务上的准确率从68.0%跃升至98.6%。这证明,该思路具备向现有大型商业模型迁移的潜力。
五、为什么会有这样的效果?两个假设
面对如此一致的提升,研究团队深入探究了背后的原因,并提出了两个互补的假设。
假设一:记忆让选择更精准。 这好比图书馆管理员给书贴标签。标准架构下,标签只反映书本身的内容;而有了记忆模块,标签还隐含着“邻近书架有什么书”的线索。这样一来,为查询寻找目标时,定位自然更准。实验数据支持了这一假设:在RAT+架构下,模型内部负责检索的“注意力头”,其选中关键信息块的命中率确实更高。
假设二:记忆能弥补选择的失误。 即便选错了信息块,由于每个被选中的块都携带了更丰富的上下文记忆,答案的相关线索也可能被间接传递过来。为了验证这一点,研究者进行了一个巧妙的实验:他们将智能选择器换成随机选择器。如果提升完全源于“选得更准”,那么随机条件下两种架构的表现应该差不多。但结果显示,即便是随机选择,RAT+架构的准确率依然大幅领先。这强有力地证明了,记忆模块确实提升了每个信息块本身的“信息含金量”。
有意思的是,在这个随机选择实验中,SnapKV的表现反而超过了Quest。研究者的解释是:SnapKV只在开始时做一次随机选择,噪声是集中的;而Quest在生成每个词时都重新随机选择,噪声在整个过程中持续累积,干扰更大。
六、这项研究说明了什么更深层的道理
长期以来,高效AI推理的研究重心都放在设计更精巧的简化计算方法上。EPFL的这项研究开辟了另一个视角:通过改进模型的基础架构,使其内部表示天生蕴含更丰富的上下文信息,从而让任何一种简化计算方法都能站在更好的起跑线上。
这个视角的意义在于,它增加了一个新的优化维度。就像打好地基能让上层建筑更稳固一样,一个更好的基础架构可以让多种上层加速方法普遍受益。本研究测试的三种方法覆盖了不同的效率优化目标,它们全部从中获益,这暗示了该路径的普适性。
当然,这项研究也有其边界。所有实验均在4096个词语的上下文长度内进行,更长的文本场景效果如何尚未可知。评测任务也主要集中于“大海捞针”型检索,未广泛覆盖问答、摘要等更复杂的任务。此外,仅有三种加速方法被纳入测试。
尽管如此,这项研究清晰地指出了一个方向:让AI在简化计算时变得更聪明,除了教它更好的简化技巧,还可以赋予它更强的短期记忆能力。这对于未来处理长文本的AI系统设计而言,无疑是一个值得深入探索的新路径。
Q&A
Q1:RAT+里的“指数衰减记忆”到底是怎么工作的?
简单说,RAT+在模型处理每个词时,会将当前词的关键向量与前一时刻的向量按一个动态比例混合。这个比例由“门控信号”控制,决定了保留多少旧记忆、吸收多少新信息。远处词语的影响会指数级淡化,就像记忆自然消退。研究将有效记忆范围控制在64个词内,因此额外开销极小,却能显著增强每个向量的上下文信息。
Q2:Quest、MoBA和SnapKV这三种方法有什么区别?
三者针对的瓶颈不同:Quest在模型生成答案的每个步骤时简化计算,减少解码计算量,但保留完整存储。MoBA主要在理解问题时简化计算,同样保留完整存储。SnapKV最为激进,在理解问题后会丢弃大部分存储信息,只保留核心部分,因此同时节省了存储空间和后续计算量,但丢弃的信息无法找回。
Q3:OLMo2-7B加装记忆模块只需要训练100亿词语,这是否足够?
研究团队承认,100亿词语的训练量远少于OLMo2-7B原始的数万亿预训练数据,记忆模块的训练并不充分。为了公平比较,他们在评测前对两种架构都进行了针对性的有监督微调。即便如此,加装记忆模块的模型仍展现出显著优势,这说明该机制即便在训练有限的情况下也能带来实质改进。当然,如果给予更充分的训练,效果有望进一步提升。
