
1月13日,DeepSeek发布了一篇题为《基于可扩展查找的条件记忆:大型语言模型稀疏性的新维度》的研究论文。这项研究工作由北京大学与DeepSeek共同完成,论文作者名单中包括梁文锋。
论文中提出了一种名为“条件记忆”的创新机制,通过构建可扩展的查找式记忆结构,在保持模型参数量和计算资源不变的前提下,显著增强了模型在知识检索、逻辑推理、编程及数学等任务中的表现能力。
与此同时,DeepSeek宣布开源其记忆模块Engram。该模块采用了“查—算分离”的创新架构设计,引发了业界的广泛关注。业内分析认为,Engram或许将成为DeepSeek下一代V4模型的核心技术支撑。
有消息称,DeepSeek预计将在2月中旬、农历新年前后发布V4版本,但具体发布时间仍存在调整的可能性。
