首页 游戏 软件 资讯 排行榜 专题
首页
AI
纽约大学研究揭示AI大模型如何记忆知识

纽约大学研究揭示AI大模型如何记忆知识

热心网友
82
转载
2026-05-19

这项由纽约大学与弗拉托恩研究所联合开展的研究,于2026年5月以预印本形式发布,论文编号为arXiv:2605.12426。

纽约大学与弗拉托恩研究所揭秘:AI大模型到底是怎么

向ChatGPT提问“爱因斯坦的出生地”或“哈利·波特的作者是谁”,它总能对答如流。这看似理所当然,但背后其实藏着一个长期悬而未决的谜题:这些海量的事实知识,究竟是以何种形态被“塞”进模型参数里的?

过去的主流观点,倾向于将模型记忆比作一本巨大的电话本——每条知识对应一组特定的参数权重,查询时依靠“模式匹配”来定位。这个思路直观,但意味着知识存储是“加法”的:想多记一条,就得额外占用一份空间。知识越多,模型就越臃肿。好比每认识一位新朋友,就得在书架上专门腾出一个格子存放他的档案。

然而,这篇论文揭示的真相要巧妙得多。研究团队发现,当模型被允许自主学习词汇的表示方式时,它会采用一种高度几何化的压缩策略——将多条相关知识叠加编码进同一个向量空间。这就像把多张透明的胶片叠放在一起,每张胶片记录不同的信息,但整体厚度却只有一张。负责“读取”的MLP模块则扮演智能滤镜的角色,能根据当前问题,从这叠“胶片”中精准抽取出对应那一层的信息。

一、记忆的两种哲学:电话本还是叠影

理解这项研究,不妨先建立一个核心比喻:将大语言模型的记忆系统想象成一座图书馆。

传统认知下的图书馆,每个人物拥有一个独立的档案柜,柜内分门别类存放其出生地、职业等所有信息。查询时,先找到对应人物的柜子,再翻出所需栏目。这种方式清晰,但代价是图书馆的规模必须与档案数量同步线性增长。

研究团队提出的几何记忆方式则截然不同。这里没有独立的档案柜,取而代之的是一面巨大的“叠影投影墙”。每个人的全部信息——出生地、职业、语言等——被编码成一组以特定角度叠加在一起的光影,共同投射在同一面墙上。当你想查询某人的出生地时,图书馆的“筛选器”(即MLP模块)会使用一块特制的滤镜,滤除所有无关光影,只让与“出生地”对应的那一道光透射出来,呈现答案。

这一思路的惊人之处在于,它模糊了“存储”与“计算”的界限。知识并非静态存放于某个固定地址,而是以几何叠加的结构存在于向量空间中,由一个通用的筛选机制动态提取。这意味着,存储一千个人的信息,所需空间的增长远低于十倍——只要叠加编码足够聪明,维度的增长可以压缩到对数级别。

二、实验的舞台:一个干净的玩具世界

为了将猜想转化为可严格证明的结论,研究团队构建了一个极度简化但保留核心矛盾的“玩具实验场景”。他们没有在GPT或Llama这类复杂模型上直接实验,而是搭建了一个可控的设置。

场景设定如下:存在N个“主体”(可理解为人物)和R种“关系”(如出生地、职业等)。每种关系都将每个主体映射到一个“属性”上,且所有关系共享同一个属性池。关键约束在于,每种关系都是双射——即每个属性只对应一个主体。这比假设每种关系拥有独立属性集要困难得多,因为模型无法凭借属性本身来判断它属于哪种关系。

在此场景下训练一个单层Transformer,其任务是在给定主体名称和关系类型后,正确预测对应的属性。这就像一场填空测试:题目是“张三的出生地是?”,模型需从N个可能地名中选出正确答案。

核心问题随之浮现:模型需要多大的向量维度,才能完美记住所有N×R条知识?

三、数学的结论:对数维度就够了

这是整篇论文的理论核心。所谓“维度”,可理解为每个词汇被表示成一串多长的数字。维度越大,表达能力越强,参数消耗也越多。

传统的关联记忆方法,所需维度大约与主体数量N成正比。而论文的核心定理(定理4.1)证明:如果允许模型自主学习嵌入向量,那么所需维度d大约仅为 4R × log₂(N) + 1。其中log₂(N)是以2为底N的对数。

对数的增长极其缓慢。如果N是4096,log₂(N)等于12;即便N增加到一百万,log₂(N)也不过20。这意味着,需要记忆的主体数量翻数百倍,所需维度的增加却微乎其微。这是一个质的差异。

那么,压缩是如何实现的?答案在于“叠加编码”:每个主体的向量,实际上是其在所有R种关系下的R个属性向量的线性叠加。好比将一首歌的旋律、节奏、歌词信息同时压缩进一段声波。随后,MLP模块承担提取工作:当被问及某主体在特定关系下的属性时,注意力机制先将主体向量与关系信息合并,再由MLP通过ReLU激活函数,精准地从叠加信号中抽取出对应关系的那一层,同时屏蔽其他R-1种关系的干扰。重要的是,这个MLP的宽度仅需与R成正比,与N无关,说明它是一个通用的筛选器,而非存储了所有具体知识的记忆库。

四、梯度下降能找到这个解吗?实验给出的答案

理论构造固然优美,但梯度下降训练真能找到这个解吗?这是理论与实际系统的关键桥梁。

研究团队进行了系统性实验。他们固定N=4096,让关系数R在2到16之间变化,向量维度d在32到768之间变化,测试了大量参数组合。

第一个发现是:当维度d达到128或以上时,模型几乎总能完美记忆所有知识,准确率100%。相比之下,若将嵌入向量冻结为随机初始化(模拟传统关联记忆),则需要大得多的维度(如R=16时需d≥512)才能达到相同精度。

更进一步,他们测量了在不同N下,模型达到95%准确率所需的最小维度d。对于可学习嵌入,最小维度随N的增长完美符合对数曲线;而对于随机嵌入,则呈现线性增长。两条曲线的对比,直观展示了几何记忆的效率优势。

五、叠影结构真的存在吗?三种验证方式

模型能跑通还不够,内部结构是否真如理论预测?研究团队设计了三种互补的实验进行验证。

第一种是“线性读出”测试。 为每种关系单独训练一个线性变换矩阵,尝试直接从主体嵌入向量中解码出对应属性。结果支持了预测:在维度足够时,所有关系的线性解码准确率都接近100%,表明主体向量中确实线性叠加了所有关系的属性信息。而使用随机固定嵌入的模型,解码准确率与随机猜测无异。

第二种是“因果干预”测试。 思路是:如果MLP是关系选择器,那么仅修改主体向量中某种关系对应的分量,应只影响对该关系的预测,而不影响其他。实验通过构造精准扰动,计算“选择性”分数。在维度足够时,该分数接近1,证实了MLP能进行关系特异性的精准筛选。

第三种,也是最令人印象深刻的“MLP冻结迁移”测试。 流程是:先用一组随机双射训练模型至收敛,然后完全冻结MLP的参数。接着,换上一组全新的随机双射,并仅通过线性代数方法重新初始化主体嵌入向量(使其成为新属性向量的叠加)。最后,直接测试冻结MLP的模型在新双射上的准确率。结果:在维度足够时,零样本准确率接近100%。这强有力地证明,MLP学到的是一套通用的筛选机制,而非具体的知识映射。

六、多跳推理:当你问“X的妻子的母亲是谁”

上述实验针对单步查询。但现实问题常涉及多跳推理,例如“这本书作者的出生地在哪?”。研究团队深入探讨了其中的容量瓶颈。

直觉上多跳推理更难,但难在何处?论文定理4.2从信息论角度给出了精确答案。该定理通过计数分析揭示,模型的参数比特数W与嵌入维度比特数D之间必须满足特定不等式,并由此划分出三种情形:

当嵌入维度D非常小时,权重矩阵必须承担海量存储,参数需求巨大;当D足够大时,嵌入空间足以容纳完整的推理树,权重负担减轻,但维度需求随跳数指数增长;两者之间存在连续的权衡。

为验证该下界是紧的(即存在能达到此效率的构造),团队给出了两种明确的多跳Transformer构造方案:一是“键值记忆型”,将嵌入维度压缩至对数级,但MLP宽度需与N×R成正比(相当于内置大查找表);二是“嵌入预计算型”,将整个k跳推理树预编码进嵌入,使维度达到R^k乘以对数级。这两种方案恰好对应了下界的两个极端。

七、思维链:一个优雅的解法

面对多跳推理的维度瓶颈,一个自然的解决方案是:让模型一步步推,把中间结果写出来。这正是“思维链”(Chain-of-Thought, CoT)的核心思想。

论文定理4.4给出了明确的理论解释:当模型被允许先生成中间步骤时,仅需一个单层Transformer,嵌入维度约为R×log(N),MLP宽度约为R×log(N),即可解决任意跳数的推理问题。与不用思维链的方案相比,这是质的飞跃——嵌入维度从R^k级别降回对数级别,层数从k层降至1层,代价仅是增加了生成中间步骤的时间。

其逻辑十分优雅:思维链的本质是将连续的“隐式计算”转换为“显式中间状态”。每输出一个中间答案,模型就通过查询词汇表重新获取该实体的完整嵌入,作为下一步推理的起点。这相当于每次推理后都重置了状态,无需在单一隐向量中维持指数级的信息。实验结果印证了这一点:使用思维链的模型,即使在k=4跳、R=16的高难度配置下也能保持近乎完美的准确率;而不使用思维链的模型,在k=2时准确率已开始显著下降。

八、真实大模型里的线性结构

理论和玩具实验支持了几何记忆的图景,但真实的大模型(如Llama、Qwen、Phi)中是否存在类似结构?研究团队进行了探索性验证。

他们构建了一个包含4610个实体、42种关系的测试集,覆盖人物、公司等六大类别。通过在Qwen2.5-0.5B、Llama-3.1-8B等五个模型上训练低秩线性探针,尝试从不同层的隐向量中预测答案。

结果呈现出一致模式:线性探针的命中率远高于随机猜测。更有趣的是各层的动态变化:探针效果随网络深度加深而持续提升,在深度50%到80%处达到峰值,之后趋于平稳。这与“层层丰富化”的预测吻合——模型在前向传播中,逐渐将隐向量加工成更易于线性解码的结构。

此外,若用单层词嵌入模型记忆相同语料,线性读出的准确率(71%)甚至高于多层预训练模型,这进一步验证了“主体嵌入直接编码属性信息”的理论预测。

九、与以往观点的对比和理论的精确位置

这项研究建立在与既有理论的对话之上。以往有影响力的框架(如Bietti等人,2023;Nichani等人,2025)将Transformer的知识存储理解为联想记忆,其参数需求与知识条数成正比。

本文的定理4.1回答了其中一个未解问题:如果嵌入向量可学习,最小维度能降到多少?答案是O(R×log(N)),远低于线性。需要注意的是,这里比较的是“最小所需嵌入维度”,而非“模型总参数量”。同时,研究团队也坦率指出了理论的局限:其分析针对单层Transformer和完全随机的双射关系,而真实模型层数众多,真实知识具有丰富的语义结构。因此,理论发现需谨慎外推。

归根结底,这项研究的价值在于:在一个干净可控的场景中,严格证明了一种更高效的记忆机制的存在,并通过实验表明梯度下降能自发发现该机制,同时在真实模型上找到了与之相符的线性结构痕迹。它为“关系知识以线性方式编码”这一已被多次观察到的现象,提供了坚实的理论基础。

这一框架深化了我们对知识在模型中形态的理解,未来或可为设计更高效的知识编辑方法、理解模型在多跳推理上的差异,以及阐明思维链为何有效,提供有价值的启示。

Q&A

Q1:大语言模型的“几何记忆”和传统“关联记忆”有什么具体区别?

A:传统关联记忆将每条知识编码为权重矩阵中的一个键值对,参数量与知识条数成正比。几何记忆则让每个词的嵌入向量同时叠加编码多条相关知识,MLP仅作为通用筛选器根据当前关系抽取信息。理论上,存储N个主体在R种关系下的全部知识,几何记忆所需的嵌入维度仅约为4R×log₂(N),比传统方式节省大量空间。

Q2:思维链为什么能帮助大模型进行多跳推理?

A:不使用思维链时,模型需在一次前向传播中将所有中间状态压缩进隐向量,所需嵌入维度随跳数指数级增长。使用思维链后,模型每步都将中间结果实际输出,并通过查询词汇表重新获取该实体的嵌入,相当于每步推理都重置了状态。这样,无论推理多少跳,每步只需存储一跳的信息量,嵌入维度需求不再随跳数增长。

Q3:梯度下降训练出的模型真的会形成叠加嵌入结构吗?

A:论文通过三种实验验证了这一点。首先,线性回归能从主体嵌入中高精度读出各关系属性,证明叠加结构存在。其次,因果干预实验显示,修改特定关系分量仅影响对应预测,表明MLP能精准筛选。最关键的是,MLP冻结迁移实验证明,冻结的MLP在全新的知识映射上仍能保持高准确率,说明它学到的是通用筛选机制,而非具体知识。

来源:https://www.techwalker.com/2026/0518/3187400.shtml
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

AI王炸项目实战:12个智能体与20个大模型打造爆款抖音
AI
AI王炸项目实战:12个智能体与20个大模型打造爆款抖音

该平台为企业级AI全链路短剧生成系统,通过多智能体协作模拟专业团队,实现从创意输入到成片输出的全流程自动化。系统支持水平扩展与断点续跑,可线性提升产能,并具备智能重试机制保障稳定性,显著降低了短剧创作的门槛与成本。

热心网友
05.18
福田汽车发布苍穹AI大模型 赋能商用车全场景智能生态
AI
福田汽车发布苍穹AI大模型 赋能商用车全场景智能生态

在中国公路货运的庞大生态中,3800万卡车司机是当之无愧的基石力量。然而,这份职业长期伴随着超负荷工作与健康隐患的双重压力。行业调研数据显示,近40%的重型卡车司机年工作时长超过3600小时,夜间行车比例高达60%以上,而各类职业相关疾病的检出率已超过70%。更值得警惕的是从业者结构的老化趋势:45

热心网友
05.18
福田汽车发布苍穹AI大模型,引领商用车智慧化新未来
AI
福田汽车发布苍穹AI大模型,引领商用车智慧化新未来

在中国货运经济的庞大体系中,3800万卡车司机如同坚韧的齿轮,昼夜不息地运转,支撑着全国物流的生命线。然而,高强度作业、高风险环境与职业健康问题,正构成行业发展的严峻挑战。统计显示,近四成重卡司机年工作时长超过3600小时,绿通、快递等细分领域夜间行车比例超60%;超过70%的从业者受到职业病困扰,

热心网友
05.18
零基础看懂Token从登录凭证到AI模型核心的演变全过程
AI
零基础看懂Token从登录凭证到AI模型核心的演变全过程

说起Token,很多人可能觉得这是个技术术语。但如果你把它理解为数字世界中兼具身份凭证、信息单元与计费基准三重功能的“通用符号”,许多概念就清晰了。它的核心,是由分词器根据特定算法动态生成的离散单元,这直接决定了AI模型的处理效率、成本构成及系统整体性能。 什么是Token:从物理凭证到数字世界的通

热心网友
05.17
万联易达成立AI专家委员会推动产业智能化应用
AI
万联易达成立AI专家委员会推动产业智能化应用

万联易达成立产业人工智能专家委员会,汇聚顶尖学者破解产研协同难题,推动全产业大模型“万联摩尔”的研发与应用。委员会聚焦产业AI落地中的全局观不足、场景碎片化等挑战,通过构建知识图谱、优化数据利用提升复杂场景决策能力,致力于打造可复制、可持续的产业AI范式,推动AI向主动智能。

热心网友
05.16

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

免费在线OCR工具TextIn使用指南与功能详解
AI
免费在线OCR工具TextIn使用指南与功能详解

在文档数字化与智能处理领域,一款高效精准的在线工具能极大提升工作效率。今天重点评测的TextIn Tools,正是这样一个集OCR识别、格式转换于一体的全能型免费平台。它由上海合合信息科技开发,该公司在人工智能文字识别领域拥有超过17年的技术积累,实力深厚。我们熟悉的“扫描全能王”、“名片全能王”等

热心网友
05.19
AI在线PPT美化工具 智能优化演示文稿设计
AI
AI在线PPT美化工具 智能优化演示文稿设计

还在为制作PPT而烦恼吗?排版耗时、素材难寻、风格杂乱……这些常见困扰,或许一个智能工具就能高效化解。 WPS智能PPT,是一款基于先进人工智能技术的在线演示文稿辅助平台。其核心优势在于:用户仅需输入文本内容,内置的AI引擎便能自动进行视觉设计与美化,快速生成多种风格的精美版式供您挑选。这极大地简化

热心网友
05.19
超办AI平台:集成主流大模型的一站式解决方案
AI
超办AI平台:集成主流大模型的一站式解决方案

在追求高效办公的今天,各类AI工具不断涌现,但能够真正实现“一站式”智能集成的平台却屈指可数。本文将深入介绍的“超办AI”,正是这样一个致力于将多种AI能力深度融合,直接赋能日常工作效率的集成化平台。 超办AI是什么?一站式AI办公平台详解 简而言之,超办AI是一个智能办公解决方案平台。其核心理念非

热心网友
05.19
论文关键词如何激发学术灵感与创新思路
AI
论文关键词如何激发学术灵感与创新思路

学术灵感:AI驱动的中文论文写作辅助工具全解析 在科研写作过程中,从选题构思到初稿完成,研究者往往需要投入大量时间与精力。是否存在一种高效工具,能够在研究起点——即灵感激发与论文框架构建阶段——提供实质性帮助?本文将深入探讨的“学术灵感”平台,正是这样一款专注于中文论文写作场景的AI智能助手,旨在提

热心网友
05.19
造物云AI在线3D营销设计平台:一站式创意解决方案
AI
造物云AI在线3D营销设计平台:一站式创意解决方案

在视觉营销主导的数字化时代,一个名为“造物云”的在线3D营销设计平台正在重塑内容生产的规则。它本质上是一个基于浏览器的云端设计工具,其核心价值在于,让用户无需依赖复杂的专业软件或高昂的硬件,就能独立创作出具有商业摄影品质的3D渲染图片和动态视频。这为品牌营销、电商展示和社交媒体内容创作开辟了高效的新

热心网友
05.19