梁文锋披露DeepSeek V4：全新记忆架构或将面世

1月13日消息，今日凌晨，DeepSeek 开源全新架构模块「Engram」，并同步发布技术论文，署名作者中再次出现梁文锋。据悉，Engram 模块通过引入可扩展的查找式记忆结构，为大模型提供了区别

1月13日消息，今天凌晨，DeepSeek开源了全新架构模块“Engram”，并同步发布了技术论文，署名作者中再次出现了梁文锋。据悉，Engram模块通过引入可扩展的查找式记忆结构，为大模型提供了区别于传统Transformer与MoE的全新稀疏性维度。

DeepSeek在论文中指出，当前主流大模型在处理两类任务时存在结构性低效：一类是依赖固定知识的“查表式”记忆，另一类是复杂推理与组合计算。传统Transformer（无论Dense或MoE）均需通过多层注意力与MLP重建这些静态模式，导致计算资源被大量消耗在“重复构造已知模式”上。

Engram的核心机制是基于现代化哈希-N-Gram嵌入的O(1)查找式记忆。模块会对输入Token序列进行N-Gram切片，并通过多头哈希映射到一个规模可扩展的静态记忆表中，实现常数时间的检索。

论文强调，这种查找与模型规模无关，即便记忆表扩展至百亿级参数，检索成本仍保持稳定。与MoE的条件计算不同，Engram提供的是“条件记忆”。模块会根据当前上下文隐向量决定是否启用查找结果，并通过门控机制与主干网络融合。

论文显示，Engram通常被放置在模型早期层，用于承担“模式重建”职责，从而释放后续层的计算深度用于复杂推理。DeepSeek在27B参数规模的实验中，将部分MoE专家参数重新分配给Engram记忆表，在等参数、等算力条件下，模型在知识、推理、代码与数学任务上均取得显著提升。

在相关技术讨论平台上，观点认为Engram的机制有效减少了模型早期层对静态模式的重建需求，使模型在推理部分表现得更“深”。有开发者指出，这种架构让大规模静态记忆得以脱离GPU存储限制，通过确定性寻址实现主机内存预取，从而在推理阶段保持低开销。多位观察者推测，Engram很可能成为DeepSeek下一代模型“V4”的核心技术基础。

梁文锋披露DeepSeek V4：全新记忆架构或将面世

相关推荐

同类最新

泰坦军团战魂KG277VPLUS双模显示器27英寸4K165Hz/520Hz仅1888元

苹果调价影响消费需求 2026年全球笔电出货量或降13.6%

苹果iPhone 18 Pro自研C2芯片或不支持5G毫米波

纳睿雷达推出睿宸超精细化短时临近AI气象大模型

南航国际创新港一期交付四大专业园区打造空天产业强磁场

梁文锋披露DeepSeek V4：全新记忆架构或将面世

相关推荐

同类最新

泰坦军团战魂KG277VPLUS双模显示器27英寸4K165Hz/520Hz仅1888元

苹果调价影响消费需求 2026年全球笔电出货量或降13.6%

苹果iPhone 18 Pro自研C2芯片或不支持5G毫米波

纳睿雷达推出睿宸超精细化短时临近AI气象大模型

南航国际创新港一期交付 四大专业园区打造空天产业强磁场

南航国际创新港一期交付四大专业园区打造空天产业强磁场