DeepSeek开源的Engram:仅3%推理损失实现方法解析
继不久前发布突破性的mHC架构后,DeepSeek再次释放重磅更新。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
1月13日凌晨,DeepSeek在GitHub开源了名为“记忆编码(Engram)”的模块组件。同期,他们与北京大学联合发表了论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》,系统阐述了一种新的大模型稀疏化路径:条件存储。

图片来源:GitHub
这篇论文共有十四位作者,DeepSeek创始人兼CEO梁文锋的署名列于最后。值得注意的是,就在1月初,DeepSeek发布的关于mHC架构的论文同样引发了广泛关注,梁文锋的署名也以同样的方式呈现。
这两项研究清晰地体现了DeepSeek长期坚持的技术路线:致力于打破算力成本对模型发展的硬约束,通过底层架构与算法理论的协同创新,探索更具性价比的发展道路。
如果说此前的mHC是提出一种全新的底层计算架构,那么“条件存储”就更像是架构层面的职责重构与分工优化。
根据论文描述,Engram被设计成一个可微分、可训练、并能原生嵌入模型结构的组件。它的核心思路是将那些需要记忆的负载从主干计算中剥离出来,从而避免低效的重复计算。通过一个高速检索模块,模型能够直接调用那些稳定存在且高频出现的知识。
具体来说,Engram首先提供确定性检索。模型基于当前输入及前文形成的特定文本片段,通过哈希映射,直接从一个超大规模静态嵌入表中取出对应的向量表示。这个过程无需依赖复杂的神经网络计算,因此速度更快、路径也更稳定。
之后,Engram会通过一个轻量化的门控机制,由当前层的隐藏状态来判断这段记忆是否真正适合当下的语境,有效避免“查到就用”的生硬植入,保证了响应的灵活性。
简单来说,Engram这套机制既能解决输入端“记得住”的问题,也能优化输出端“说人话”的效果。
DeepSeek还指出,实验表明,相关机制在处理日期、专有名词等固定模式的信息时表现高度活跃,而在自由生成和复杂推理场景下则几乎不介入。这样就在强化记忆功能的同时,有效避免了不合时宜的“幻觉”出现。
在整体架构视角下,DeepSeek将大模型的能力拆解成了三个既相互独立、又彼此协作的维度。
首先是决定逻辑与抽象能力的模型深度,这是模型智能的基石。其次是以MoE为代表的“计算稀疏性”,旨在减少每次前向传播的计算负载。而这第三个维度,正是“存储稀疏性”,也就是Engram所引入的条件记忆。
以往,大模型厂商在开发记忆模块时,往往会担心影响模型主干的计算效率和推理性能。
根据论文,DeepSeek通过U型扩展定律解决了这一平衡问题。在总参数量和算力预算固定的前提下,研究团队系统性调整了MoE与Engram之间的比例,发现将20%到25%的稀疏参数分配给Engram,能达成最优的性能平衡点。
测试数据显示,即便加载了参数规模高达千亿级别的Engram记忆库,模型推理过程中的性能损失也能控制在3%以内。
另据知情人士透露,DeepSeek预计将在今年中国春节前后发布其最新的V4模型。此次的核心突破点主要在于对超长上下文提示词的处理与解析能力,以及对全流程训练中数据模式的理解力的提升。
这意味着,新模型不仅推理性能会大幅提升,在处理复杂任务时将更加得心应手。编程能力也将成为新模型的主打优势之一。内部初步测试结果显示,其表现已经超越了Anthropic当前最强的编程模型Claude。
值得注意的是,Anthropic近期为了守护其在编程能力的优势和入口,已陆续切断Claude Code在第三方平台的接入。1月12日,该公司又放出了Co-work,主打办公场景的自主助手应用落地。该应用能自动帮用户完成制作PPT、整理电子邮件、制订工作计划等各类任务,上手门槛较低。
目前,mHC和Engram在DeepSeek新模型中的具体角色与组合方式尚未完全清晰,但这艘即将到来的旗舰新作,正被市场期待它能再次带来一次“DeepSeek春节冲击波”。
相关攻略
OpenClaw的爆火,让众多AI应用开发者第一次直面了高昂的Token账单——一个用户请求可能触发多轮工具调用,每次调用都携带超长上下文,实际的API成本远超预期,甚至可能达到订阅费用的数十倍。如何有效控制Token成本,正成为AI Agent开发者面临的核心挑战与增长瓶颈。 这显然不是可持续的商
这项由瑞士洛桑联邦理工学院(EPFL)、意大利卢加诺大学(USI)、韦斯利安大学、巴黎脑研究所(ICM)以及宾夕法尼亚州立大学联合开展的研究,以预印本形式发布于2026年4月,论文编号为arXiv:2604 03480。对这一交叉领域感兴趣的读者,可以通过该编号在arXiv平台上查阅完整原文。 一、
北京商报讯(记者 陶凤 王天逸) 人工智能领域又传来一条振奋人心的消息。4月8日,摩尔线程正式宣布,其旗舰级AI训推一体全功能GPU——MTT S5000,已经成功完成了对智谱新一代旗舰模型GLM-5 1的Day-0极速适配。这意味着,推理部署与训练复现的全部流程,现在都能在这条国产算力路径上获得支
如何用SQL求解逻辑推理题:经典楼层分配谜题实战 今天我们来探讨一个非常有趣的技术应用:使用SQL来求解逻辑推理题。这听起来或许有些大材小用,但正是这种跨界应用,充分展现了SQL语言的强大灵活性以及开发者分析问题的思维能力。我们将以一个经典的五人楼层分配谜题作为案例,逐步拆解如何用纯粹的SQL找到答
一个学生忽视了一行代码,结果发现了一件很不对劲的事:在一个多模态医学AI项目中,这行代码原本负责让模型读取图像数据。但因为这次疏忽,模型实际上完全没有看到任何图片。按理说系统应该报错,或者至少拒绝回
热门专题
热门推荐
市场情绪显著升温,创业板指盘中涨超2%,报4013点,创2015年6月以来新高。深证成指与上证指数分别上涨1 28%和0 42%,整体表现强劲,超3200只个股上涨。
鸿蒙智行智界FUV高清谍照曝光,定位跨界轿跑,设计运动化。新车采用溜背造型与半隐藏门把手以优化风阻,车尾配备大尺寸尾翼。车顶疑似搭载激光雷达,将具备高阶智能驾驶能力。据悉,该车计划在纽博格林北环赛道进行性能测试,对标海外豪华超跑。
市场情绪回暖,深证成份指数盘中涨幅超1%。部分成份股表现活跃,润泽科技涨超14%,网宿科技、晶盛机电等涨幅均超11%,带动指数走强。市场资金对相关板块关注度提升,反映出结构性机会,后续需观察量能与板块轮动持续性。
岚图知音在京沪线1300公里实测中全程未充电,续航达成率超95%,公开智驾过程在复杂路况下未出现误判或制动异常,展现了高性能传感器与智能系统的协同能力。此次实测以真实场景验证技术可靠性,凸显系统优化对缓解续航与智驾焦虑的关键作用。
面对AI浪潮,职场人需转变思维,从执行转向整合与决策。核心竞争力在于定义问题、整合资源及情感连接。未来属于能融合专业深度、AI素养与人类软技能的“混合型”人才,主动构建AI工作流并发挥人类在创新与价值判断上的优势是关键。





