DeepSeek V4模型的主要不足与未来改进方向
作者:henry 发自 凹非寺
量子位 | 公众号 QbitAI
仔细研读DeepSeek-V4的技术报告,其中提及了mHC、CSA、HCA、Muon、FP4等一系列前沿技术名词。
然而,报告中却唯独缺少了一个备受瞩目的名字:Engram。
这项关键技术究竟去了哪里?
这一话题迅速成为AI技术社区讨论的焦点。毕竟,Engram在今年1月由深度求索(DeepSeek)与北京大学联合开源时,其核心使命就是解决大语言模型的记忆效率瓶颈。自论文在arXiv上发布以来,围绕它的探讨就从未停止。
业界对它的期待,不仅因为它是V4可能的技术铺垫,更在于它提出的革命性理念:对于“伦敦是英国首都”这类事实性知识,模型无需再动用整个深层神经网络进行复杂计算,而是可以直接通过查询获取。
这种设计不仅能显著节省宝贵的GPU显存,更能将深层网络的强大算力解放出来,专注于处理需要复杂逻辑链的推理任务。
正因如此,自一月初论文发表后,业内普遍形成了一种共识:Engram极有可能成为DeepSeek V4模型架构的核心组件。所有人都在等待它在V4中的正式亮相。
以至于V4技术论文一经发布,许多研究者的第一反应就是按下Ctrl+F,在全文搜索“Engram”这个关键词——但结果令人意外,它并未出现。
这种预期与现实的落差,让不少密切关注的技术爱好者感到,缺少了Engram的V4,其技术图谱似乎留下了一处引人遐想的空白。
可以说,Engram的缺席,构成了DeepSeek-V4发布后留给外界最大的一个技术悬念。
然而,故事并未就此画上句号。Engram并未消失,在随后的三个月里,它的技术思想以另一种方式持续演进——至少有三篇重要的后续研究论文相继涌现:
- CXL内存池化版本: 研究如何将Engram嵌入多机共享的CXL内存池,旨在攻克大模型分布式部署中的存储瓶颈难题。
- 无冲突热层实验: 对Engram的多头哈希机制进行了严谨的实证检验,结果推翻了一些看似合理的直觉优化方案。
- 视觉Tiny Engram: AutoArk团队成功将文本领域的Engram思想迁移至视觉模态,显著拓展了其应用边界。
因此,尽管V4最终没有集成Engram,但其设计理念、探索路径以及后续的衍生应用,已经悄然铺开,为下一代大模型架构的演进埋下了重要的伏笔。
Engram技术详解:它到底是什么?
让我们将时间回溯到2026年1月12日。
当天,DeepSeek与北京大学联合发布了一篇长达33页的论文《Conditional Memory via Scalable Lookup》。论文的第一作者是Cheng Xin,一位曾参与DeepSeek-V3研究的北大博士生。而最后一位作者,正是深度求索的创始人梁文锋。
用一句话概括,Engram是一个为Transformer大模型架构设计的原生知识查找表模块。其核心思想非常直接:对于能够直接查询的静态知识,就无需消耗昂贵的计算资源去动态推导。
研究团队洞察到一个关键问题:现代语言模型的训练实际上混合了两种性质不同的任务。一种是需要深度动态计算的组合式逻辑推理,另一种则是对海量静态事实知识的检索与调用。
传统Transformer架构的症结在于,它将这两类任务混杂在同一套计算流程中处理。当模型需要识别一个特定实体时,不得不消耗多层注意力机制和前馈网络的资源,像拼图一样逐层拼凑特征。
论文中举了一个生动的例子:“Diana, Princess of Wales”(戴安娜王妃)。模型需要经过整整6层网络计算才能完成准确识别。前几层还在解析“Wales是英国的一个地区”、“Princess of Wales是某种贵族头衔”这些中间概念,直到最后一层才最终确认:这是指戴安娜王妃本人。
这种“用昂贵的运行时计算去重建一个本可静态存储的查找表”的工作模式,严重挤占了本应用于高级推理任务的算力资源。
对此,Engram提出的解决方案异常清晰:既然经典的N-gram语言模型就能以O(1)的时间复杂度高效捕获这类局部词汇依赖,为何不将这种能力直接嵌入到现代Transformer中?
打个比方,就像学生解答数学题,该用的公式不必每次从头推导,直接查表代入即可。而之前的Transformer模型缺乏这张“公式表”,每道题都得从最基础的公理开始推演。Engram,就等于为模型配备了这样一张高效的知识查询表。
在具体实现上,Engram模块被插入到Transformer的第2层与第15层之间。每个位置的输入会触发一次高效的哈希查找,将当前token与前几个token组成的N-gram序列映射到一个巨大的嵌入向量表中,直接取出对应的语义向量。
一个精巧的门控(Gating)机制确保了查表内容的准确性:当检索到的内容与当前上下文语义不匹配时,该机制会自动屏蔽输出。例如,“张”是一个常见姓氏,但“张仲景”三个字组合在一起,就构成了一个固定的历史人物实体,门控机制负责精准识别这种细微的语义差别。
Engram的技术定位,是区别于MoE(混合专家)的另一条模型稀疏化路径。MoE实现的是计算的稀疏化,即只激活部分专家网络。而Engram实现的是存储的稀疏化,即只查询部分关键记忆条目。两者在架构上互补,可以并行不悖。
论文中最核心的实验之一,是在固定模型总参数量和每token激活参数量的严格前提下,让MoE专家和Engram记忆模块“竞争”参数预算,实验结果呈现出一条清晰的U形曲线。
实验数据表明,纯MoE架构并非最优解。当将大约20%-25%的稀疏参数分配给Engram记忆模块时,模型的整体损失函数达到最低点,性能最优。
依据这条优化曲线指导,研究团队将Engram扩展至270亿参数规模进行验证。模型激活参数为38亿,训练数据达2620亿tokens,与同规模的MoE-27B基线模型严格对齐。
结果令人印象深刻:在知识密集型任务(如MMLU、CMMLU)上的提升符合预期,但在通用推理和代码数学任务(如BBH、ARC-Challenge、HumanEval、MATH)上的提升幅度超出了预期。尤其在长上下文理解场景下,效果更为显著,Multi-Query NIAH指标从84.2%大幅跃升至97.0%。
那么,一个专注于记忆的模块为何能反过来提升模型的推理能力?
LogitLens和CKA(中心核对齐)分析给出了答案:Engram-27B模型第5层的特征表征,与MoE基线模型第12层的表征最为相似。
这意味着,Engram将模型的早期网络层从“重建静态知识”这类繁重工作中解放了出来。这部分被释放的网络深度,得以重新转向处理更复杂的逻辑推理。因此,Engram不仅是新增了一块记忆存储,它实质上变相加深了神经网络的有效推理深度。
在工程实现上,论文展示了将一个拥有1000亿条目的巨型Engram表完全放置在主机DRAM中,在H800 GPU上进行推理,对于一个80亿参数的稠密模型,其吞吐量损失仅为2.8%。
其性能秘诀在于Engram索引的确定性——它只取决于输入的token序列,完全可以提前计算。这使得CPU能够异步预取数据,与GPU的计算过程高度重叠进行,极大隐藏了访问延迟。
可以说,这个模块天生就不依赖昂贵且稀缺的HBM(高带宽内存)。然而,当万众期待的V4正式到来时,Engram却未能如期登场。
虽未现身V4,但技术探索仍在继续
尽管原创团队暂时按下了暂停键,但围绕Engram的技术探索之路并未中断。在短短三个月内,至少出现了三项值得关注的后续研究工作。
将Engram嵌入CXL内存池
3月10日,北京大学、阿里云、山东英信、中国人民大学、香港大学联合发表了一篇系统论文:《Pooling Engram Conditional Memory in Large Language Models using CXL》。
这项研究没有改动Engram的核心算法,而是回答了一个更工程化、更实际的问题:如果Engram真的成为下一代大模型的标配组件,它的海量“记忆”应该存放在哪里?
论文给出的答案是:CXL(Compute Express Link)内存池。具体架构是,GPU的HBM存放需要频繁访问的计算权重,本地DRAM作为二级缓存,而大规模的CXL共享内存池则作为三级存储。实验搭建了8台服务器共享4TB内存池,通过XConn XC50256交换芯片构建高速拓扑,提供高达512GB/s的聚合带宽。
整套系统被集成进SGLang推理框架,并实现了智能预取与GPU计算的重叠优化。最终测试显示,端到端的推理吞吐量损失小于5%。这相当于将Engram原论文中那句“将1000亿嵌入表卸载到DRAM”的设想,落地成了针对270亿和400亿参数规模大模型的真实系统测试。
结论非常明确:Engram这种具有确定性寻址、可高度预取特性的工作负载,几乎是为CXL(Compute Express Link)这项新兴内存互联技术量身定做的应用场景。
一个反直觉的优化实验
在Engram论文上线十一天后,1月23日,一位名叫Tao Lin的研究者(单作者)发布了《A Collision-Free Hot-Tier Extension for Engram-Style Conditional Memory》。
他想验证一个看上去“理所当然”的优化思路:Engram使用的多头哈希查表可能存在哈希冲突,如果采用最小完美哈希函数为高频N-gram构建一个完全无冲突的“热层”(Hot-Tier),模型性能是否会获得显著提升?
他设计了名为“Engram-Nine”的方案,将记忆分为无冲突的“热层”和保留原有多头哈希的“冷层”。
然而,实验结果却反直觉。在严格的等参数控制实验下,无冲突设计并未带来验证损失的稳定提升。进一步的路由分层评估还发现,训练初期高频路径的损失更低,但到了训练后期,低频路径的表现反而超过了高频路径。
一个看似显而易见的优化方向,被一次严谨的对照实验证伪了。这凸显了AI系统优化中实证研究的重要性。
将Engram思想拓展到视觉领域 (AutoArk / TinyEngram)
GitHub上一个名为AutoArk的开源团队开发了“Tiny Engram”项目。
在基于Qwen-3模型完整复现了文本Engram之后,他们做了一项原论文未涉及的重要工作:将Engram的核心思想成功迁移到Stable Diffusion这类视觉生成模型上。
具体方法是将视觉图像分割成块(patch)并经过分层编码,底层编码捕捉纹理细节,中层编码捕捉物体部件,高层编码捕捉整体风格,然后将整套分层编码送入哈希查表进行记忆与检索。
与目前流行的LoRA微调方法相比,达到同等效果时,Engram所需的额外参数量仅为LoRA的15%到30%。更关键的是,当连续注入多个新概念时,LoRA会出现明显的概念遗忘或退化现象,而Engram则表现出了优异的稳定性。
Engram最初是为文本模态设计的。AutoArk的工作相当于撞开了一扇新的大门:凡是能够被离散化、能够被哈希化的数据模态,Engram都有潜力迁移过去,实现高效的条件记忆。
回顾这三个月,在Engram这条技术路径上,原创团队最为沉默,而全球的跟进者们却各自迈出了坚实的一步:一个产学研团队为它解决了多机内存层级扩展问题,一位独立研究者通过实验证伪了一个直觉上的优化方案,一个开源团队则将它的应用边界成功拓展到了视觉领域。
而DeepSeek官方在GitHub上的engram开源仓库,其最后一次代码提交,依然停留在1月14日。
未来展望:One more thing
Engram原论文的摘要结尾,有这样一句充满展望的断言:
我们认为条件记忆(Conditional Memory)将是下一代稀疏大模型不可或缺的建模原语。
看来,这个关于“下一代”的期待与承诺,或许要留给未来的DeepSeek V5来实现了。又或者,会不会在某个V4.1的迭代版本中与我们惊喜相见呢?
参考链接
[1]https://arxiv.org/pdf/2601.07372
[2]https://arxiv.org/pdf/2603.10087
[3]https://arxiv.org/pdf/2601.16531
热门专题
热门推荐
IDC报告显示,商汤“万象”平台以11 3%份额位居中国大模型私有化市场第二。平台通过一站式模型服务、全生命周期专家支持及低代码工具链,满足企业安全、性能与成本需求,推动AI在政务、交通、能源等行业落地,降低技术门槛,加速价值实现。
市场上有多种高效AI工具可供选择。WPSAI能智能处理文档,Grammarly辅助写作纠错,AIPPT工具快速生成演示文稿,ChatGPT进行对话与创作,DeepL提供精准翻译。CanvaAI助力设计,GitHubCopilot和TabNine提升编程效率,AI去背工具简化图像编辑。这些工具覆盖写作、设计、编程等场景,能显著提升工作效率。
BitgetAI负责人Bill博士指出,AI在交易平台中已能高效整合信息、辅助决策,提升效率。当前产品注重个性化建议与安全易用的交互,如通过Telegram提供自然对话辅助。AI虽无法完全替代顶尖交易员,但其价值在于赋能用户、优化流程。未来竞争关键将在于安全体系、成本控制及持续学习用户习惯的能力。
2024年,AI工具正深度融入工作流程,提升效率与创意。WPSAI集成于办公软件,助力文档创作与优化;ChatGPT作为多功能对话模型,辅助编程与文案;GoogleBard擅长信息整合与自然对话;BoardMix结合白板与AI,可生成思维导图等可视化内容;NewBing融合搜索与对话,兼具创意与可信来源;NotionAI能自动处理会议纪要等文本任务;Gram
代币化美股热度上升,投资者可通过区块链交易相关资产,挑战传统券商模式。其优势包括降低门槛、提升流动性和全天候交易,但也面临监管不明确等风险。未来能否颠覆传统金融,取决于技术发展与合规进程。





