继去年底发布一篇新论文后,1月12日晚,DeepSeek又更新了一篇研究论文,这次聚焦在大规模模型的条件记忆模块。研究团队在结论部分指出,这一技术有望成为下一代稀疏大语言模型中不可或缺的核心架构基础。

此前有消息透露,DeepSeek的下一代大模型V4计划在春节前后推出。结合近期的几项研究进展,业内人士猜测,这篇论文或许已经勾勒出DeepSeek V4的技术演进蓝图。
这篇最新发表的论文由DeepSeek与北京大学合作完成,论文标题为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》(《基于条件查找的条件记忆:大语言模型稀疏性的新维度》)。在作者名单中,DeepSeek创始人梁文锋的名字同样位列其中。
论文的核心观点在于,当前的大规模模型实际上承担着两种性质截然不同的任务:一种是需要深度动态计算的组合推理,另一种则是静态知识的检索与调用。而现有的Transformer架构本身缺乏原生的知识查找机制,只能通过低效的计算过程来模拟检索行为。例如,当模型需要查询不变的常识或事实时,不得不耗费大量算力重新推导一遍,既浪费计算时间又占用宝贵资源。
为了解决这个问题,DeepSeek研究团队引入了“条件记忆”作为补充的稀疏性维度,并通过名为Engram的条件记忆模块予以实现。该模块旨在优化混合专家计算结构与静态记忆存储之间的权衡关系。
团队还发现了一个U型缩放规律,表明混合专家与条件记忆之间的稀疏容量分配策略,在性能上严格优于纯粹的MoE基准模型。值得注意的是,虽然记忆模块直观上有助于知识检索,但团队在通用推理、代码生成和数学问题求解等领域观察到了更为显著的性能提升。
简单来说,当前的MoE模型在处理动态推理和静态知识时使用的是同一套计算方法,效率较低且算力消耗大。而这篇文章的本质,是为大模型做了一次“分工优化”:让专业的模块处理专业的任务。比如,用专门的“记忆本”来管理固定知识库,而推理模块则专注于复杂逻辑思考,再按最佳比例分配计算资源,最终让模型既反应迅捷,又聪慧过人。
DeepSeek在论文最后明确表示,条件记忆技术将成为下一代稀疏模型不可或缺的建模基础。有行业人士推测,此次提出的条件记忆架构,很可能就是下一代大模型DeepSeek V4所采用的核心技术框架。
此前有报道称,DeepSeek计划于2月发布新一代旗舰模型DeepSeek V4,且内部初步测试表明,V4在代码编程能力上已经超越了市场上其他顶级模型。目前DeepSeek官方尚未对此消息作出任何回应。报道同时提及,具体的发布计划可能会根据实际情况进行相应调整。
自2024年底发布V3模型以来,DeepSeek的下一代旗舰模型一直备受期待。去年底,DeepSeek发布了小幅升级的V3.2版本,并提及该版本在多个基准测试中超越了OpenAI的GPT-5和Google的Gemini 3.0 Pro。业界始终关注着DeepSeek的旗舰模型进展,V4的正式推出,预计将成为行业关注的焦点。
