AI大模型如何“记住”知识？

时间：2026-06-04 13:27

关于大语言模型如何记忆事实，一个流传甚广的比喻是“电话本”：每一条知识都像一条独立的记录，存储在模型庞大的参数矩阵里。查询时，模型通过模式匹配找到对应的词条。这个思路很直观，但代价也显而易见——知识越多，模型就越臃肿。然而，一项由纽约大学与弗拉托恩研究所联合开展的最新研究，为我们揭示了一个截然不同

关于大语言模型如何记忆事实，一个流传甚广的比喻是“电话本”：每一条知识都像一条独立的记录，存储在模型庞大的参数矩阵里。查询时，模型通过模式匹配找到对应的词条。这个思路很直观，但代价也显而易见——知识越多，模型就越臃肿。

然而，一项由纽约大学与弗拉托恩研究所联合开展的最新研究，为我们揭示了一个截然不同、且更为精巧的真相。这项于2026年5月以预印本形式发布的研究（论文编号：arXiv:2605.12426）发现，大语言模型采用的是一种“几何化压缩”策略。它并非笨拙地开辟独立空间存储每条知识，而是将多条相关信息叠加编码进同一个向量空间，就像一个多层透明胶片叠放在一起。负责读取的模块则像一个智能滤镜，能根据问题精准抽取出对应的那一层信息。

这不仅仅是效率的提升，更是一种记忆存储与提取方式的哲学转变。

一、记忆的两种哲学：电话本还是叠影

不妨把大语言模型的记忆系统想象成一座图书馆。传统的“电话本”式认知认为，图书馆里每个人都有一个独立的档案柜，里面分门别类地存放着他的所有信息。查询“爱因斯坦的出生地”，就去找到“爱因斯坦”的柜子，翻开“出生地”那一页。这种方式清晰，但代价是图书馆的规模必须与档案数量同步增长。

而这项研究提出的“几何记忆”方式，则描绘了另一番景象。在这座图书馆里，没有独立的档案柜，取而代之的是一面巨大的“叠影投影墙”。每个人的信息——出生地、职业、语言等——都被编码成特定角度的光影，叠加在同一束光里。当你想知道某人的出生地时，一个名为MLP的“智能滤镜”就会启动，过滤掉其他所有信息，只让与“出生地”对应的那道光影显现出来。

这个思路的惊人之处在于，它彻底模糊了“存储”与“计算”的界限。知识并非静态地存放在某个固定地址，而是以一种动态的、几何叠加的结构存在于高维向量空间中，由一个通用的筛选机制实时提取。这意味着，存储一千个人的信息，可能并不需要比存储一百个人多出十倍的“书架空间”。

二、实验的舞台：一个干净的玩具世界

为了将这一猜想转化为可严格验证的结论，研究团队构建了一个极度简化但保留核心矛盾的“玩具实验”。他们没有在GPT或Llama这类复杂模型上直接动手，因为干扰因素太多。

实验场景设定如下：有N个“主体”（如人物），R种“关系”（如出生地、职业），每种关系将每个人映射到一个“属性”上（如“伦敦”）。关键约束在于，所有关系共享同一个属性池，且每种关系都是“双射”——即每个属性只对应一个主体。这比许多理论假设更困难，因为模型无法通过属性本身来判断它属于哪种关系。

在这个场景中训练一个单层Transformer，任务很简单：给定主体名称和关系类型，预测正确的属性。这就像一场填空题测试：“张三的出生地是？”模型需要从N个可能答案中选出正确的一个。

核心问题随之浮现：大语言模型到底需要多大的向量维度，才能完美记住所有N×R条知识？

三、数学的结论：对数维度就够了

这是整篇论文的理论核心。所谓“维度”，可以理解为每个词汇被表示成多长的一串数字。维度越大，模型表达能力越强，但参数也越庞大。

传统的关联记忆方法，其所需维度大约与主体数量N成正比。主体翻倍，所需维度和参数量也近乎翻倍。

而研究团队的核心定理（定理4.1）证明：如果允许模型自主学习嵌入向量，那么所需维度d大约仅为 4R × log₂(N) + 1。这里的log₂(N)是以2为底N的对数。

对数增长意味着什么？如果N是4096（约4千），log₂(N)等于12。即使N膨胀到一百万，log₂(N)也只有20。换句话说，需要记忆的主体数量翻几百倍，所需维度的增加却微乎其微。这是一个质的飞跃。

那么，压缩是如何实现的？答案在于“叠加编码”。每个主体的向量，实际上是其在所有R种关系下的属性向量的线性叠加。就像将旋律、节奏、歌词信息同时压缩进一段声波。随后，MLP模块扮演“筛选器”的角色。当被问及特定关系时，它通过ReLU等非线性操作，精准地从叠加的向量中抽取出对应信息，屏蔽其他干扰。至关重要的是，这个MLP的宽度仅与关系种类R成正比，与主体数量N无关——它是一个通用的提取器，而非庞大的记忆库。

四、梯度下降能找到这个解吗？实验给出的答案

理论很优美，但大语言模型在训练中真能自发找到这个高效解吗？这是理论与现实之间的关键桥梁。

研究团队进行了系统性实验。他们固定N=4096，让关系数R在2到16间变化，向量维度d在32到768间调整，进行了大量测试。

第一个发现是：当维度d达到128或以上时，模型几乎总能完美记忆所有知识，准确率100%。相比之下，如果冻结嵌入向量（模拟传统记忆方式），则需要d达到512甚至更高才能达到同等精度。

更进一步，他们测量了达到95%准确率所需的最小维度d。对于可学习嵌入，d随N的增长完美符合对数曲线。而对于随机固定嵌入，d则随N呈线性增长。两条曲线的对比，直观展示了几何记忆的效率优势。

五、叠影结构真的存在吗？三种验证方式

光有性能表现还不够，必须验证模型内部是否真的形成了理论预测的叠加结构。研究团队设计了三种互补的实验进行探查。

1. 线性读出测试：为每种关系单独训练一个线性变换矩阵，尝试直接从主体嵌入向量中解码出对应属性。结果清晰显示，在维度足够时，所有关系的线性解码准确率都接近100%。这意味着每个主体的向量里，确实线性叠加了所有关系的信息。而使用随机嵌入的模型，解码准确率与随机猜测无异。

2. 因果干预测试：思路是，如果MLP是精准的关系选择器，那么只扰动主体向量中与某种关系对应的部分，就应该只影响对该关系的预测，而不影响其他。实验通过构造精准扰动并计算“选择性”分数来验证。在维度足够时，该分数接近1，证实了MLP确实在进行关系特异性的筛选。

3. MLP冻结迁移测试：这是最令人印象深刻的验证。先用一组随机映射训练模型直至收敛，然后完全冻结MLP的参数。接着，换上一套全新的、模型从未见过的随机映射，并仅通过线性代数方法重新初始化主体嵌入向量（使其成为新属性向量的叠加）。最后，直接测试，不做任何额外训练。结果发现，冻结了MLP的模型，在新映射上的零样本准确率依然接近100%。这强有力地证明，MLP学到的不是具体的“张三-北京”映射，而是一套通用的筛选机制——只要信息按正确方式叠加，它就能正确提取，无论具体内容是什么。

六、多跳推理：当你问“X的妻子的母亲是谁”

以上实验都是单步事实查询。但现实问题往往更复杂，例如“这本书作者的出生地是哪里？”，这涉及两步推理。研究团队将此类问题称为“多跳推理”，并深入探究了其容量瓶颈。

直觉上，多跳推理更难，但难在何处？论文定理4.2从信息论角度给出了精确答案。

该定理通过计数分析揭示，模型的参数比特数W与嵌入维度比特数D之间必须满足特定不等式，否则无法区分所有可能的映射关系。分析指出了三种迥异的情形：

当嵌入维度D非常小时，模型权重必须承担海量存储工作，参数需求巨大。当D足够大时，嵌入空间足以容纳完整的推理树，权重负担减轻，但代价是嵌入维度随推理跳数k指数增长（约R^k量级）。在这两个极端之间，则存在参数与维度的连续权衡。

为了证明这个理论下界是“紧的”（即存在实际构造能达到该效率极限），研究团队给出了两种明确的多跳Transformer构造方案，恰好对应了两个极端，验证了理论分析的完备性。

七、思维链：一个优雅的解法

面对多跳推理的维度瓶颈，一个自然的解决方案是：让模型一步步推导，把中间结果“说”出来，而不是试图一次完成所有计算。这正是“思维链”（Chain-of-Thought）的核心思想。

论文定理4.4为此提供了明确的理论支持。它证明，当模型被允许生成中间步骤时，仅需一个单层Transformer，嵌入维度约为R×log(N)，即可解决任意跳数的推理问题。与不使用思维链的方案相比，这是一个质的飞跃：嵌入维度从R^k级别降回对数级别，模型层数也从k层降为1层，唯一的代价是需要多一些推理时间来生成中间步骤。

这背后的逻辑非常优雅。思维链的本质，是将连续的“隐式计算”转化为分步的“显式中间状态”。每输出一个中间答案，模型就把该主体的完整嵌入信息重新带入序列，作为下一步推理的起点。这相当于每次推理后都重置了状态，无需在内部维持指数级复杂的信息。

实验结果印证了这一点：在多跳任务中，使用思维链的模型在4跳高难度配置下仍能保持接近完美的准确率；而不使用思维链的模型，在2跳时准确率就已显著下降，4跳时几乎完全失败。

八、真实大模型里的线性结构

理论和玩具模型都支持几何记忆的图景，但在Llama、Qwen、Phi这些真实的庞然大物内部，是否也存在类似结构？研究团队进行了探索性验证。

他们构建了一个涵盖4610个实体、42种关系的测试集，并在Qwen、Llama、Phi等多个不同规模的大语言模型上，训练“线性探针”来尝试从模型中间层的隐向量中预测答案。

结果呈现出一个清晰一致的模式：线性探针的预测准确率远高于随机猜测。更有趣的是各层的动态变化：探针效果随着网络层数加深而持续提升，在深度50%到80%处达到峰值，之后趋于平稳。这与“信息层层丰富化”的理论预测高度吻合——模型在前向传播中，逐渐将隐向量加工成更容易线性解码的结构。

此外，实验还发现，如果用单层词嵌入模型来记忆相同语料，其线性解码准确率甚至比多层预训练大模型更高。这进一步印证了“主体嵌入直接编码属性信息”这一理论预测在简化场景下的有效性。

九、与以往观点的对比和理论的精确位置

这项研究并非凭空而来，它是在与既有理论框架的对话中确立自身位置的。此前最具影响力的观点，如Bietti等人（2024）和Nichani等人（2025）的工作，将大语言模型的知识存储理解为一种“联想记忆”，即注意力或MLP权重相当于存储键值对的外积。这种方式所需的参数量，大致与知识条数（N×R）成正比。

而本篇论文的核心突破在于，它证明了当模型被赋予学习嵌入向量的自由度时，可以突破这种线性增长的束缚，实现对数量级的压缩。这并非否定了前人的工作，而是指明了在另一种更高效的机制下，模型记忆知识的根本性不同路径。它为我们理解大模型如何以如此经济的参数存储海量知识，提供了一个强有力的、且可验证的新范式。

来源：https://www.163.com/dy/article/KT88AHR80511DTVV.html

AI大模型

上一篇智元具身交互模型通过合规备案，今年将推升级版实现自然对话 下一篇京东618首次全产业融入AI 5月30日晚8点开启

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。