Engram - DeepSeek联合北大推出的条件记忆模块
Engram是什么
如果说给大语言模型(LLM)装上一个“外置知识U盘”,会是什么效果?DeepSeek团队联合北京大学推出的条件记忆模块Engram,就在做这件事。它的核心思路很巧妙:通过引入现代化的 -gram 嵌入表,把那些相对静态、固定的知识,从模型的计算核心中剥离出来,单独存到一个独立的记忆体里。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
怎么用呢?靠的是稀疏检索和上下文感知门控这两项关键技术。模型在运行时,可以像查字典一样,快速从这个记忆体中查找所需的知识片段,既高效又精准。更重要的是,Engram与当前流行的混合专家模型(MoE)架构形成了完美互补。它能在几乎不增加实际计算量的前提下,显著提升模型在知识密集型任务、长文处理和多步骤推理上的表现。更吸引人的是,这种设计还能突破GPU显存的物理限制,为未来模型的参数规模扩展,打开了一扇新的大门。
Engram的主要功能
- 知识检索:它的基本功。通过静态嵌入表快速锚定固定知识,让模型不必每次都“重新计算”常识,大幅降低了对即时计算资源的依赖。
- 长上下文处理:这算是它的“特长”。Engram分担了记忆固定知识的任务,相当于释放了注意力机制的“脑容量”,让它能更专注于理解和串联全局的上下文逻辑,从而有效提升长文本的深层推理能力。
- 计算与存储解耦:这是其架构上的突破。支持从主机内存异步预取数据,意味着知识库可以做得非常大,不再受GPU显存大小的束缚,为实现千亿、万亿参数级别的模型铺平了道路。
- 性能提升:最终体现为综合收益。在不额外增加计算成本的情况下,模型在知识问答、通用推理、乃至代码和数学等专业任务上的表现,都能获得肉眼可见的提升。
Engram的技术原理
- 分词器压缩:第一步是“瘦身”。通过预计算的满射函数,将海量的原始Token ID映射为更精简的规范化ID,这直接减少了词表的冗余度,让后续的 -gram 覆盖效率大大提高。
- 多头哈希检索:这是实现快速查找的“寻址系统”。利用哈希方法和多头机制,将局部的上下文片段映射到庞大的嵌入表中,巧妙地绕过了直接参数化所有 -gram 组合所带来的组合爆炸难题。
- 上下文感知门控:确保精准的“质量控制”。以模型当前的隐藏状态作为动态查询指令,将检索到的嵌入作为知识钥匙和内容,再通过一个门控机制来自动滤除噪声,保证引入的记忆与当前语境高度相关、语义一致。
- 稀疏性分配:关乎资源优化的“艺术”。在固定的参数预算下,研究团队尝试将MoE专家的一部分参数重新分配给Engram记忆体,并发现了一条计算与记忆之间的“U型”权衡曲线。找到这个曲线上的最优点,就能实现性能的最大化。
- 系统实现:最后是工程上的“精益求精”。利用Engram确定性检索的特性,彻底实现了计算过程与存储空间的解耦。通过数据预取和计算-传输重叠等机制,巧妙掩盖了数据搬移的延迟,从而真正实现了突破显存限制的大规模部署。
Engram的项目地址
- 技术论文:对于想深入了解技术细节的同行,所有设计、实验和论证都详尽地收录在项目论文中:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf
Engram的应用场景
- 知识问答:这类任务简直是Engram的“主场”。它可以毫秒级检索知识库中的事实、日期、定义,让问答系统的响应既快又准。
- 文本生成:在创作或生成规范性文本时,Engram能快速匹配出地道的固定短语、专业术语或行文模式,让生成内容不仅流畅,也更显专业。
- 长文本处理:法律文档分析、学术论文研读等场景迎来利器。Engram能优化长上下文建模,增强模型对全篇逻辑的把握能力,实现更深度的分析。
- 代码辅助:编程时常见的模式、API结构和算法模板,都可以被Engram高效检索。这对于代码补全、生成乃至理解复杂项目,都能带来效率的显著提升。
- 数学推理:面对复杂的数学问题,快速回忆起相关公式、定理和推导步骤是关键。Engram在此能发挥类似“数学手册”的辅助功能,提升推理的效率和准确性。
相关攻略
上海大剧院导游词 朋友们,我们的下一站,上海大剧院,马上就要到了。一路行程,大家辛苦了,欢迎来到上海观光游览。今天,就让我们一同走进这座城市的艺术心脏,感受它独特的魅力。 上海大剧院导游词 眼前这座建筑,是不是像一座用水晶和音符编织而成的宫殿?没错,上海大剧院堪称一座融合了新技术、新工艺与新材料的现
寒山寺导游词范文精选2026最新 寒山寺导游词范文精选2026最新 “月落乌啼霜满天,江枫渔火对愁眠。” 各位游客大家好,欢迎来到寒山寺。提起这座古刹,恐怕很多人脑海中第一时间浮现的,就是那首脍炙人口的《枫桥夜泊》吧?没错,“姑苏城外寒山寺,夜半钟声到客船”的千古绝唱,早已让这里成为无数人心中的诗意
三峡导游词精选:六种视角,带你领略峡江之美 撰写一份出色的导游词,是每位导游的基本功。好的导语需要兼顾口语化、简洁性与聚焦性,让游客在短时间内抓住重点,融入情境。下面这六篇风格各异的三峡导游词范文,或许能给你带来一些灵感与参考。 三峡导游词300字一 各位朋友,大家好!缘分让我们相聚于此,很高兴能为
全国计算机等级考试软件序列号 备考全国计算机等级考试,手头有正版软件是关键。但有时候,安装序列号找起来确实麻烦。为了方便大家,这里整理了一份目前常用的软件序列号清单,备考时可以直接取用。 三级网络技术 安装序列号是:786-298-784。这个序列号对应的是官方指定的模拟环境,对于熟悉考试流程和题型
序列号:软件世界的“身份证” 我们常说的“序列号”,有时也被称作“机器码”。这其实是软件开发者为了保护自家产品、防止盗版而设置的一道安全锁。不过,网络上总有一些“破解”工具,比如注册机,试图绕过这道锁,让人能免费获得使用许可。 简单来说,序列号就是软件开发商赋予自家产品的一个独特识别码,好比是人的身
热门专题
热门推荐
最新犯罪悬疑剧《暴锋雨》开播,尺度突破,双女主刑侦引爆话题。 双女主强势扛起刑侦大旗,油锯碎尸、树洞藏尸、活猪啃噬……一系列源于真实案件改编的惊悚罪案接连上演。那么,这场探案风暴的真正主导者究竟是谁?剧情又将如何展开? 犯罪悬疑剧《暴锋雨》深度解析 (以下剧情内容为艺术创作,请勿模仿。) 故事始于一
《十日终焉》开机:一场关于记忆、轮回与演技的豪赌 由肖战领衔主演,改编自同名小说的无限流悬疑剧《十日终焉》,终于正式官宣开机。消息一出,全网期待值拉满,相关话题讨论迅速升温。 影视改编与原著之间,向来难以划上绝对的等号。但这一次,情况尤为特殊。原著小说本身已是现象级作品:超过90万读者点评,拿下9
《逐玉》爆火后主演迎事业转折点,健康审美座谈会引行业反思 近期一场备受关注的健康审美座谈会虽未直接点名《逐玉》,但其探讨的议题却与观众对这部剧的诸多评价高度契合。座谈会提出的观点,几乎每一条都能对应上网友此前对剧集制作与演员表现的讨论焦点。 表面上看,近期舆论焦点多集中于男主角张凌赫的表现,但女主角
于凤至与赵四小姐:张学良生命中两位传奇女性的真实容貌与人生轨迹 在民国历史的璀璨星河中,少帅张学良无疑是备受瞩目的焦点人物。而他情感世界里的两位关键女性——原配夫人于凤至与相伴终老的赵四小姐(赵一荻),更是构成了这段历史中动人而复杂的一章。张学良最终选择与赵四小姐相守到老,而于凤至则默默付出、孤独等
凭借《逐玉》爆火出圈,张凌赫事业直接开挂,稳居当红小生前列! 随着事业势头一路高歌猛进,张凌赫的下一部影视作品自然成为全网关注的焦点。目前,他与王楚然联袂主演的民国虐恋大剧《这一秒过火》,早已未播先火,持续霸占各大社交平台热搜榜,引发观众热烈讨论。 市场的反响是最有力的证明:该剧在主流视频平台的预约





