1月13日有消息称,今天,DeepSeek正式发表了一篇新论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》(基于可扩展查找的条件记忆:大型语言模型稀疏性的新维度)。
这篇论文由北京大学与DeepSeek团队合作完成,在共同作者署名中出现了梁文锋的名字。

论文中提出的“条件记忆”机制,通过引入可扩展的查找式记忆结构,在参数量与计算力相当的条件下,显著提升了模型在知识调用、逻辑推理、代码生成、数学解题等多个任务上的表现。
此外,DeepSeek还同步开源了相关的记忆模块Engram。
该模块采用了“查算分离”的全新架构设计思路。业内人士分析认为,Engram有望成为DeepSeek下一代V4模型的核心技术基础。
据媒体报道,知情人士透露,DeepSeek计划在2月中旬农历新年前后推出V4模型,不过具体发布时间仍可能进行调整。

