DeepSeek开源的Engram：仅3%推理损失实现方法解析

时间：2026-01-13 16:55

上新mHC之后，DeepSeek再出大招。1月13日凌晨，DeepSeek在GitHub开源了名为Engram的模块，并同时发布了与北京大学联合撰写的论文Conditional Memory via

继不久前发布突破性的mHC架构后，DeepSeek再次释放重磅更新。

1月13日凌晨，DeepSeek在GitHub开源了名为“记忆编码（Engram）”的模块组件。同期，他们与北京大学联合发表了论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》，系统阐述了一种新的大模型稀疏化路径：条件存储。

图片来源：GitHub

这篇论文共有十四位作者，DeepSeek创始人兼CEO梁文锋的署名列于最后。值得注意的是，就在1月初，DeepSeek发布的关于mHC架构的论文同样引发了广泛关注，梁文锋的署名也以同样的方式呈现。

这两项研究清晰地体现了DeepSeek长期坚持的技术路线：致力于打破算力成本对模型发展的硬约束，通过底层架构与算法理论的协同创新，探索更具性价比的发展道路。

如果说此前的mHC是提出一种全新的底层计算架构，那么“条件存储”就更像是架构层面的职责重构与分工优化。

根据论文描述，Engram被设计成一个可微分、可训练、并能原生嵌入模型结构的组件。它的核心思路是将那些需要记忆的负载从主干计算中剥离出来，从而避免低效的重复计算。通过一个高速检索模块，模型能够直接调用那些稳定存在且高频出现的知识。

具体来说，Engram首先提供确定性检索。模型基于当前输入及前文形成的特定文本片段，通过哈希映射，直接从一个超大规模静态嵌入表中取出对应的向量表示。这个过程无需依赖复杂的神经网络计算，因此速度更快、路径也更稳定。

之后，Engram会通过一个轻量化的门控机制，由当前层的隐藏状态来判断这段记忆是否真正适合当下的语境，有效避免“查到就用”的生硬植入，保证了响应的灵活性。

简单来说，Engram这套机制既能解决输入端“记得住”的问题，也能优化输出端“说人话”的效果。

DeepSeek还指出，实验表明，相关机制在处理日期、专有名词等固定模式的信息时表现高度活跃，而在自由生成和复杂推理场景下则几乎不介入。这样就在强化记忆功能的同时，有效避免了不合时宜的“幻觉”出现。

在整体架构视角下，DeepSeek将大模型的能力拆解成了三个既相互独立、又彼此协作的维度。

首先是决定逻辑与抽象能力的模型深度，这是模型智能的基石。其次是以MoE为代表的“计算稀疏性”，旨在减少每次前向传播的计算负载。而这第三个维度，正是“存储稀疏性”，也就是Engram所引入的条件记忆。

以往，大模型厂商在开发记忆模块时，往往会担心影响模型主干的计算效率和推理性能。

根据论文，DeepSeek通过U型扩展定律解决了这一平衡问题。在总参数量和算力预算固定的前提下，研究团队系统性调整了MoE与Engram之间的比例，发现将20%到25%的稀疏参数分配给Engram，能达成最优的性能平衡点。

测试数据显示，即便加载了参数规模高达千亿级别的Engram记忆库，模型推理过程中的性能损失也能控制在3%以内。

另据知情人士透露，DeepSeek预计将在今年中国春节前后发布其最新的V4模型。此次的核心突破点主要在于对超长上下文提示词的处理与解析能力，以及对全流程训练中数据模式的理解力的提升。

这意味着，新模型不仅推理性能会大幅提升，在处理复杂任务时将更加得心应手。编程能力也将成为新模型的主打优势之一。内部初步测试结果显示，其表现已经超越了Anthropic当前最强的编程模型Claude。

值得注意的是，Anthropic近期为了守护其在编程能力的优势和入口，已陆续切断Claude Code在第三方平台的接入。1月12日，该公司又放出了Co-work，主打办公场景的自主助手应用落地。该应用能自动帮用户完成制作PPT、整理电子邮件、制订工作计划等各类任务，上手门槛较低。

目前，mHC和Engram在DeepSeek新模型中的具体角色与组合方式尚未完全清晰，但这艘即将到来的旗舰新作，正被市场期待它能再次带来一次“DeepSeek春节冲击波”。

来源：https://www.163.com/dy/article/KJ5SKI8U05118O92.html

推理编程正式版模型 engram deepseek

上一篇2026年上汽大众发布7款新车，冲锋号引领电动转型 下一篇启辰大V DD-i混动版2026年上市，新动力能否逆袭市场？

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-06-29

年国家能源局充换电服务业用电量增速48.8%

2025年全社会用电量达103682亿千瓦时，同比增长5 0%。充换电服务业用电增速高达48 8%，信息传输与软件服务业增速17 0%。第三产业和居民用电对增长贡献率合计占一半。中国成为全球首个年度用电量超10 4万亿千瓦时的国家。

科技数码 · 2026-06-29

追风者 GLACIER ONE 360 S25 液冷散热器新品上市联体风扇售价429元

追风者冰川360S25液冷散热器售价429元，三联一体风扇便捷安装，冷头小体积纯铜底座噪音18dB，风扇转速300-2000RPM、风量75CFM、静压2 96mmAq，五年质保漏液包赔。

科技数码 · 2026-06-29

三星Galaxy Watch8用户反馈谷歌后台组件异常

三星GalaxyWatch8、Watch5Pro、Watch6及Watch7用户反映，GooglePlayServices后台耗电异常，电量占比最高达99 97%，远超正常水平，严重影响续航。目前故障原因不明，谷歌尚未发布官方声明。

科技数码 · 2026-06-29

罗永浩批苹果iOS 27创新不足盼新CEO改进

罗永浩批评苹果iOS27创新不足，称仅有双iPhone同号、音量分离等数十项细节改进，认为库克时代缺乏突破性创新，股市虽好但消费者只能被迫接受挤牙膏式升级。

科技数码 · 2026-06-29

年国产车出口710万辆，两家车企销量破百万

2025年国产汽车出口总量达710万辆，同比增长21%。奇瑞以134万辆居首，比亚迪105万辆次之，上汽乘用车出口占比60%最高，长城出口51万辆。吉利、长安等主流品牌同步增长，小鹏、零跑等新兴品牌海外拓展加速。