游乐游手机版
首页/科技数码/文章详情

DeepSeek新论文:下一代大模型如何实现记忆分离

时间:2026-01-13 13:07
继去年底发布一篇新论文后,1月12日晚,DeepSeek又上新了一篇论文,这次聚焦的是大模型的条件记忆模块,在结论中DeepSeek 认为,这将成为下一代稀疏大模型中不可或缺的核心建模原语。此前有爆

继去年底发布一篇新论文后,1月12日晚,DeepSeek又更新了一篇研究论文,这次聚焦在大规模模型的条件记忆模块。研究团队在结论部分指出,这一技术有望成为下一代稀疏大语言模型中不可或缺的核心架构基础。


此前有消息透露,DeepSeek的下一代大模型V4计划在春节前后推出。结合近期的几项研究进展,业内人士猜测,这篇论文或许已经勾勒出DeepSeek V4的技术演进蓝图。

这篇最新发表的论文由DeepSeek与北京大学合作完成,论文标题为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》(《基于条件查找的条件记忆:大语言模型稀疏性的新维度》)。在作者名单中,DeepSeek创始人梁文锋的名字同样位列其中。

论文的核心观点在于,当前的大规模模型实际上承担着两种性质截然不同的任务:一种是需要深度动态计算的组合推理,另一种则是静态知识的检索与调用。而现有的Transformer架构本身缺乏原生的知识查找机制,只能通过低效的计算过程来模拟检索行为。例如,当模型需要查询不变的常识或事实时,不得不耗费大量算力重新推导一遍,既浪费计算时间又占用宝贵资源。

为了解决这个问题,DeepSeek研究团队引入了“条件记忆”作为补充的稀疏性维度,并通过名为Engram的条件记忆模块予以实现。该模块旨在优化混合专家计算结构与静态记忆存储之间的权衡关系。

团队还发现了一个U型缩放规律,表明混合专家与条件记忆之间的稀疏容量分配策略,在性能上严格优于纯粹的MoE基准模型。值得注意的是,虽然记忆模块直观上有助于知识检索,但团队在通用推理、代码生成和数学问题求解等领域观察到了更为显著的性能提升。

简单来说,当前的MoE模型在处理动态推理和静态知识时使用的是同一套计算方法,效率较低且算力消耗大。而这篇文章的本质,是为大模型做了一次“分工优化”:让专业的模块处理专业的任务。比如,用专门的“记忆本”来管理固定知识库,而推理模块则专注于复杂逻辑思考,再按最佳比例分配计算资源,最终让模型既反应迅捷,又聪慧过人。

DeepSeek在论文最后明确表示,条件记忆技术将成为下一代稀疏模型不可或缺的建模基础。有行业人士推测,此次提出的条件记忆架构,很可能就是下一代大模型DeepSeek V4所采用的核心技术框架。

此前有报道称,DeepSeek计划于2月发布新一代旗舰模型DeepSeek V4,且内部初步测试表明,V4在代码编程能力上已经超越了市场上其他顶级模型。目前DeepSeek官方尚未对此消息作出任何回应。报道同时提及,具体的发布计划可能会根据实际情况进行相应调整。

自2024年底发布V3模型以来,DeepSeek的下一代旗舰模型一直备受期待。去年底,DeepSeek发布了小幅升级的V3.2版本,并提及该版本在多个基准测试中超越了OpenAI的GPT-5和Google的Gemini 3.0 Pro。业界始终关注着DeepSeek的旗舰模型进展,V4的正式推出,预计将成为行业关注的焦点。

来源:https://www.163.com/dy/article/KJ5ANGKM0519DDQ2.html
上一篇小鹏汇天秘密递表闯关:IPO进程与飞行汽车的未来 下一篇北汽新能源发力:一文看懂关键“破壁时刻”突围路径
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
年国家能源局充换电服务业用电量增速48.8%
科技数码 · 2026-06-29

年国家能源局充换电服务业用电量增速48.8%

2025年全社会用电量达103682亿千瓦时,同比增长5 0%。充换电服务业用电增速高达48 8%,信息传输与软件服务业增速17 0%。第三产业和居民用电对增长贡献率合计占一半。中国成为全球首个年度用电量超10 4万亿千瓦时的国家。

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元
科技数码 · 2026-06-29

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元

追风者冰川360S25液冷散热器售价429元,三联一体风扇便捷安装,冷头小体积纯铜底座噪音18dB,风扇转速300-2000RPM、风量75CFM、静压2 96mmAq,五年质保漏液包赔。

三星Galaxy Watch8用户反馈谷歌后台组件异常
科技数码 · 2026-06-29

三星Galaxy Watch8用户反馈谷歌后台组件异常

三星GalaxyWatch8、Watch5Pro、Watch6及Watch7用户反映,GooglePlayServices后台耗电异常,电量占比最高达99 97%,远超正常水平,严重影响续航。目前故障原因不明,谷歌尚未发布官方声明。

罗永浩批苹果iOS 27创新不足 盼新CEO改进
科技数码 · 2026-06-29

罗永浩批苹果iOS 27创新不足 盼新CEO改进

罗永浩批评苹果iOS27创新不足,称仅有双iPhone同号、音量分离等数十项细节改进,认为库克时代缺乏突破性创新,股市虽好但消费者只能被迫接受挤牙膏式升级。

年国产车出口710万辆,两家车企销量破百万
科技数码 · 2026-06-29

年国产车出口710万辆,两家车企销量破百万

2025年国产汽车出口总量达710万辆,同比增长21%。奇瑞以134万辆居首,比亚迪105万辆次之,上汽乘用车出口占比60%最高,长城出口51万辆。吉利、长安等主流品牌同步增长,小鹏、零跑等新兴品牌海外拓展加速。