新京报贝壳财经讯(记者罗亦丹)1月12日晚间,DeepSeek发表了一篇新论文,题为《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》(译作:基于可扩展查找的条件记忆:大语言模型稀疏性的新维度)。值得注意的是,梁文锋再次出现在作者名单末尾。这篇论文由北京大学与DeepSeek共同完成。
新京报贝壳财经记者浏览发现,这篇论文的核心直指当前大语言模型存在的记忆力“短板”,并提出了“条件记忆”这一创新概念。
为实现“条件记忆”,DeepSeek提出的解决方案是一个名为Engram(可译为:记忆痕迹)的模块。它将语言建模任务解构为“静态模式检索”与“动态组合推理”两大分支:前者负责实体、固定短语等确定性知识的快速调取,后者则交由Transformer架构专注完成复杂逻辑运算。
论文最后强调,“我们将条件记忆视为下一代稀疏模型不可或缺的建模原语。”
当前,不少业内声音猜测DeepSeek的下一代模型将于春节前发布,重现2025年春节期间的发布盛况。在此背景下,此篇论文或为模型的“庐山真面目”提供了重要方向指引。
编辑 杨媛媛
校对 杨利
