纽约大学研究揭示AI大模型如何记忆知识_AI热点日报

这项由纽约大学与弗拉托恩研究所联合开展的研究，于2026年5月以预印本形式发布，论文编号为arXiv:2605 12426。向ChatGPT提问“爱因斯坦的出生地”或“哈利·波特的作者是谁”，它总能对答如流。这看似理所当然，但背后其实藏着一个长期悬而未决的谜题：这些海量的事实知识，究竟是以何种形态

这项由纽约大学与弗拉托恩研究所联合开展的研究，于2026年5月以预印本形式发布，论文编号为arXiv:2605.12426。

纽约大学与弗拉托恩研究所揭秘：AI大模型到底是怎么

向ChatGPT提问“爱因斯坦的出生地”或“哈利·波特的作者是谁”，它总能对答如流。这看似理所当然，但背后其实藏着一个长期悬而未决的谜题：这些海量的事实知识，究竟是以何种形态被“塞”进模型参数里的？

过去的主流观点，倾向于将模型记忆比作一本巨大的电话本——每条知识对应一组特定的参数权重，查询时依靠“模式匹配”来定位。这个思路直观，但意味着知识存储是“加法”的：想多记一条，就得额外占用一份空间。知识越多，模型就越臃肿。好比每认识一位新朋友，就得在书架上专门腾出一个格子存放他的档案。

然而，这篇论文揭示的真相要巧妙得多。研究团队发现，当模型被允许自主学习词汇的表示方式时，它会采用一种高度几何化的压缩策略——将多条相关知识叠加编码进同一个向量空间。这就像把多张透明的胶片叠放在一起，每张胶片记录不同的信息，但整体厚度却只有一张。负责“读取”的MLP模块则扮演智能滤镜的角色，能根据当前问题，从这叠“胶片”中精准抽取出对应那一层的信息。

一、记忆的两种哲学：电话本还是叠影

理解这项研究，不妨先建立一个核心比喻：将大语言模型的记忆系统想象成一座图书馆。

传统认知下的图书馆，每个人物拥有一个独立的档案柜，柜内分门别类存放其出生地、职业等所有信息。查询时，先找到对应人物的柜子，再翻出所需栏目。这种方式清晰，但代价是图书馆的规模必须与档案数量同步线性增长。

研究团队提出的几何记忆方式则截然不同。这里没有独立的档案柜，取而代之的是一面巨大的“叠影投影墙”。每个人的全部信息——出生地、职业、语言等——被编码成一组以特定角度叠加在一起的光影，共同投射在同一面墙上。当你想查询某人的出生地时，图书馆的“筛选器”（即MLP模块）会使用一块特制的滤镜，滤除所有无关光影，只让与“出生地”对应的那一道光透射出来，呈现答案。

这一思路的惊人之处在于，它模糊了“存储”与“计算”的界限。知识并非静态存放于某个固定地址，而是以几何叠加的结构存在于向量空间中，由一个通用的筛选机制动态提取。这意味着，存储一千个人的信息，所需空间的增长远低于十倍——只要叠加编码足够聪明，维度的增长可以压缩到对数级别。

二、实验的舞台：一个干净的玩具世界

为了将猜想转化为可严格证明的结论，研究团队构建了一个极度简化但保留核心矛盾的“玩具实验场景”。他们没有在GPT或Llama这类复杂模型上直接实验，而是搭建了一个可控的设置。

场景设定如下：存在N个“主体”（可理解为人物）和R种“关系”（如出生地、职业等）。每种关系都将每个主体映射到一个“属性”上，且所有关系共享同一个属性池。关键约束在于，每种关系都是双射——即每个属性只对应一个主体。这比假设每种关系拥有独立属性集要困难得多，因为模型无法凭借属性本身来判断它属于哪种关系。

在此场景下训练一个单层Transformer，其任务是在给定主体名称和关系类型后，正确预测对应的属性。这就像一场填空测试：题目是“张三的出生地是？”，模型需从N个可能地名中选出正确答案。

核心问题随之浮现：模型需要多大的向量维度，才能完美记住所有N×R条知识？

三、数学的结论：对数维度就够了

这是整篇论文的理论核心。所谓“维度”，可理解为每个词汇被表示成一串多长的数字。维度越大，表达能力越强，参数消耗也越多。

传统的关联记忆方法，所需维度大约与主体数量N成正比。而论文的核心定理（定理4.1）证明：如果允许模型自主学习嵌入向量，那么所需维度d大约仅为 4R × log₂(N) + 1。其中log₂(N)是以2为底N的对数。

对数的增长极其缓慢。如果N是4096，log₂(N)等于12；即便N增加到一百万，log₂(N)也不过20。这意味着，需要记忆的主体数量翻数百倍，所需维度的增加却微乎其微。这是一个质的差异。

那么，压缩是如何实现的？答案在于“叠加编码”：每个主体的向量，实际上是其在所有R种关系下的R个属性向量的线性叠加。好比将一首歌的旋律、节奏、歌词信息同时压缩进一段声波。随后，MLP模块承担提取工作：当被问及某主体在特定关系下的属性时，注意力机制先将主体向量与关系信息合并，再由MLP通过ReLU激活函数，精准地从叠加信号中抽取出对应关系的那一层，同时屏蔽其他R-1种关系的干扰。重要的是，这个MLP的宽度仅需与R成正比，与N无关，说明它是一个通用的筛选器，而非存储了所有具体知识的记忆库。

四、梯度下降能找到这个解吗？实验给出的答案

理论构造固然优美，但梯度下降训练真能找到这个解吗？这是理论与实际系统的关键桥梁。

研究团队进行了系统性实验。他们固定N=4096，让关系数R在2到16之间变化，向量维度d在32到768之间变化，测试了大量参数组合。

第一个发现是：当维度d达到128或以上时，模型几乎总能完美记忆所有知识，准确率100%。相比之下，若将嵌入向量冻结为随机初始化（模拟传统关联记忆），则需要大得多的维度（如R=16时需d≥512）才能达到相同精度。

更进一步，他们测量了在不同N下，模型达到95%准确率所需的最小维度d。对于可学习嵌入，最小维度随N的增长完美符合对数曲线；而对于随机嵌入，则呈现线性增长。两条曲线的对比，直观展示了几何记忆的效率优势。

五、叠影结构真的存在吗？三种验证方式

模型能跑通还不够，内部结构是否真如理论预测？研究团队设计了三种互补的实验进行验证。

第一种是“线性读出”测试。 为每种关系单独训练一个线性变换矩阵，尝试直接从主体嵌入向量中解码出对应属性。结果支持了预测：在维度足够时，所有关系的线性解码准确率都接近100%，表明主体向量中确实线性叠加了所有关系的属性信息。而使用随机固定嵌入的模型，解码准确率与随机猜测无异。

第二种是“因果干预”测试。 思路是：如果MLP是关系选择器，那么仅修改主体向量中某种关系对应的分量，应只影响对该关系的预测，而不影响其他。实验通过构造精准扰动，计算“选择性”分数。在维度足够时，该分数接近1，证实了MLP能进行关系特异性的精准筛选。

第三种，也是最令人印象深刻的“MLP冻结迁移”测试。 流程是：先用一组随机双射训练模型至收敛，然后完全冻结MLP的参数。接着，换上一组全新的随机双射，并仅通过线性代数方法重新初始化主体嵌入向量（使其成为新属性向量的叠加）。最后，直接测试冻结MLP的模型在新双射上的准确率。结果：在维度足够时，零样本准确率接近100%。这强有力地证明，MLP学到的是一套通用的筛选机制，而非具体的知识映射。

六、多跳推理：当你问“X的妻子的母亲是谁”

上述实验针对单步查询。但现实问题常涉及多跳推理，例如“这本书作者的出生地在哪？”。研究团队深入探讨了其中的容量瓶颈。

直觉上多跳推理更难，但难在何处？论文定理4.2从信息论角度给出了精确答案。该定理通过计数分析揭示，模型的参数比特数W与嵌入维度比特数D之间必须满足特定不等式，并由此划分出三种情形：

当嵌入维度D非常小时，权重矩阵必须承担海量存储，参数需求巨大；当D足够大时，嵌入空间足以容纳完整的推理树，权重负担减轻，但维度需求随跳数指数增长；两者之间存在连续的权衡。

为验证该下界是紧的（即存在能达到此效率的构造），团队给出了两种明确的多跳Transformer构造方案：一是“键值记忆型”，将嵌入维度压缩至对数级，但MLP宽度需与N×R成正比（相当于内置大查找表）；二是“嵌入预计算型”，将整个k跳推理树预编码进嵌入，使维度达到R^k乘以对数级。这两种方案恰好对应了下界的两个极端。

七、思维链：一个优雅的解法

面对多跳推理的维度瓶颈，一个自然的解决方案是：让模型一步步推，把中间结果写出来。这正是“思维链”（Chain-of-Thought, CoT）的核心思想。

论文定理4.4给出了明确的理论解释：当模型被允许先生成中间步骤时，仅需一个单层Transformer，嵌入维度约为R×log(N)，MLP宽度约为R×log(N)，即可解决任意跳数的推理问题。与不用思维链的方案相比，这是质的飞跃——嵌入维度从R^k级别降回对数级别，层数从k层降至1层，代价仅是增加了生成中间步骤的时间。

其逻辑十分优雅：思维链的本质是将连续的“隐式计算”转换为“显式中间状态”。每输出一个中间答案，模型就通过查询词汇表重新获取该实体的完整嵌入，作为下一步推理的起点。这相当于每次推理后都重置了状态，无需在单一隐向量中维持指数级的信息。实验结果印证了这一点：使用思维链的模型，即使在k=4跳、R=16的高难度配置下也能保持近乎完美的准确率；而不使用思维链的模型，在k=2时准确率已开始显著下降。

八、真实大模型里的线性结构

理论和玩具实验支持了几何记忆的图景，但真实的大模型（如Llama、Qwen、Phi）中是否存在类似结构？研究团队进行了探索性验证。

他们构建了一个包含4610个实体、42种关系的测试集，覆盖人物、公司等六大类别。通过在Qwen2.5-0.5B、Llama-3.1-8B等五个模型上训练低秩线性探针，尝试从不同层的隐向量中预测答案。

结果呈现出一致模式：线性探针的命中率远高于随机猜测。更有趣的是各层的动态变化：探针效果随网络深度加深而持续提升，在深度50%到80%处达到峰值，之后趋于平稳。这与“层层丰富化”的预测吻合——模型在前向传播中，逐渐将隐向量加工成更易于线性解码的结构。

此外，若用单层词嵌入模型记忆相同语料，线性读出的准确率（71%）甚至高于多层预训练模型，这进一步验证了“主体嵌入直接编码属性信息”的理论预测。

九、与以往观点的对比和理论的精确位置

这项研究建立在与既有理论的对话之上。以往有影响力的框架（如Bietti等人，2023；Nichani等人，2025）将Transformer的知识存储理解为联想记忆，其参数需求与知识条数成正比。

本文的定理4.1回答了其中一个未解问题：如果嵌入向量可学习，最小维度能降到多少？答案是O(R×log(N))，远低于线性。需要注意的是，这里比较的是“最小所需嵌入维度”，而非“模型总参数量”。同时，研究团队也坦率指出了理论的局限：其分析针对单层Transformer和完全随机的双射关系，而真实模型层数众多，真实知识具有丰富的语义结构。因此，理论发现需谨慎外推。

归根结底，这项研究的价值在于：在一个干净可控的场景中，严格证明了一种更高效的记忆机制的存在，并通过实验表明梯度下降能自发发现该机制，同时在真实模型上找到了与之相符的线性结构痕迹。它为“关系知识以线性方式编码”这一已被多次观察到的现象，提供了坚实的理论基础。

这一框架深化了我们对知识在模型中形态的理解，未来或可为设计更高效的知识编辑方法、理解模型在多跳推理上的差异，以及阐明思维链为何有效，提供有价值的启示。

Q&A

Q1：大语言模型的“几何记忆”和传统“关联记忆”有什么具体区别？

A：传统关联记忆将每条知识编码为权重矩阵中的一个键值对，参数量与知识条数成正比。几何记忆则让每个词的嵌入向量同时叠加编码多条相关知识，MLP仅作为通用筛选器根据当前关系抽取信息。理论上，存储N个主体在R种关系下的全部知识，几何记忆所需的嵌入维度仅约为4R×log₂(N)，比传统方式节省大量空间。

Q2：思维链为什么能帮助大模型进行多跳推理？

A：不使用思维链时，模型需在一次前向传播中将所有中间状态压缩进隐向量，所需嵌入维度随跳数指数级增长。使用思维链后，模型每步都将中间结果实际输出，并通过查询词汇表重新获取该实体的嵌入，相当于每步推理都重置了状态。这样，无论推理多少跳，每步只需存储一跳的信息量，嵌入维度需求不再随跳数增长。

Q3：梯度下降训练出的模型真的会形成叠加嵌入结构吗？

A：论文通过三种实验验证了这一点。首先，线性回归能从主体嵌入中高精度读出各关系属性，证明叠加结构存在。其次，因果干预实验显示，修改特定关系分量仅影响对应预测，表明MLP能精准筛选。最关键的是，MLP冻结迁移实验证明，冻结的MLP在全新的知识映射上仍能保持高准确率，说明它学到的是通用筛选机制，而非具体知识。