1月13日消息,今天凌晨,DeepSeek开源了全新架构模块“Engram”,并同步发布了技术论文,署名作者中再次出现了梁文锋。据悉,Engram模块通过引入可扩展的查找式记忆结构,为大模型提供了区别于传统Transformer与MoE的全新稀疏性维度。
DeepSeek在论文中指出,当前主流大模型在处理两类任务时存在结构性低效:一类是依赖固定知识的“查表式”记忆,另一类是复杂推理与组合计算。传统Transformer(无论Dense或MoE)均需通过多层注意力与MLP重建这些静态模式,导致计算资源被大量消耗在“重复构造已知模式”上。
Engram的核心机制是基于现代化哈希-N-Gram嵌入的O(1)查找式记忆。模块会对输入Token序列进行N-Gram切片,并通过多头哈希映射到一个规模可扩展的静态记忆表中,实现常数时间的检索。
论文强调,这种查找与模型规模无关,即便记忆表扩展至百亿级参数,检索成本仍保持稳定。与MoE的条件计算不同,Engram提供的是“条件记忆”。模块会根据当前上下文隐向量决定是否启用查找结果,并通过门控机制与主干网络融合。
论文显示,Engram通常被放置在模型早期层,用于承担“模式重建”职责,从而释放后续层的计算深度用于复杂推理。DeepSeek在27B参数规模的实验中,将部分MoE专家参数重新分配给Engram记忆表,在等参数、等算力条件下,模型在知识、推理、代码与数学任务上均取得显著提升。
在相关技术讨论平台上,观点认为Engram的机制有效减少了模型早期层对静态模式的重建需求,使模型在推理部分表现得更“深”。有开发者指出,这种架构让大规模静态记忆得以脱离GPU存储限制,通过确定性寻址实现主机内存预取,从而在推理阶段保持低开销。多位观察者推测,Engram很可能成为DeepSeek下一代模型“V4”的核心技术基础。
