首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
DeepSeek新论文:下一代大模型如何实现记忆分离

DeepSeek新论文:下一代大模型如何实现记忆分离

热心网友
90
转载
2026-01-13

继去年底发布一篇新论文后,1月12日晚,DeepSeek又更新了一篇研究论文,这次聚焦在大规模模型的条件记忆模块。研究团队在结论部分指出,这一技术有望成为下一代稀疏大语言模型中不可或缺的核心架构基础。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈


此前有消息透露,DeepSeek的下一代大模型V4计划在春节前后推出。结合近期的几项研究进展,业内人士猜测,这篇论文或许已经勾勒出DeepSeek V4的技术演进蓝图。

这篇最新发表的论文由DeepSeek与北京大学合作完成,论文标题为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》(《基于条件查找的条件记忆:大语言模型稀疏性的新维度》)。在作者名单中,DeepSeek创始人梁文锋的名字同样位列其中。

论文的核心观点在于,当前的大规模模型实际上承担着两种性质截然不同的任务:一种是需要深度动态计算的组合推理,另一种则是静态知识的检索与调用。而现有的Transformer架构本身缺乏原生的知识查找机制,只能通过低效的计算过程来模拟检索行为。例如,当模型需要查询不变的常识或事实时,不得不耗费大量算力重新推导一遍,既浪费计算时间又占用宝贵资源。

为了解决这个问题,DeepSeek研究团队引入了“条件记忆”作为补充的稀疏性维度,并通过名为Engram的条件记忆模块予以实现。该模块旨在优化混合专家计算结构与静态记忆存储之间的权衡关系。

团队还发现了一个U型缩放规律,表明混合专家与条件记忆之间的稀疏容量分配策略,在性能上严格优于纯粹的MoE基准模型。值得注意的是,虽然记忆模块直观上有助于知识检索,但团队在通用推理、代码生成和数学问题求解等领域观察到了更为显著的性能提升。

简单来说,当前的MoE模型在处理动态推理和静态知识时使用的是同一套计算方法,效率较低且算力消耗大。而这篇文章的本质,是为大模型做了一次“分工优化”:让专业的模块处理专业的任务。比如,用专门的“记忆本”来管理固定知识库,而推理模块则专注于复杂逻辑思考,再按最佳比例分配计算资源,最终让模型既反应迅捷,又聪慧过人。

DeepSeek在论文最后明确表示,条件记忆技术将成为下一代稀疏模型不可或缺的建模基础。有行业人士推测,此次提出的条件记忆架构,很可能就是下一代大模型DeepSeek V4所采用的核心技术框架。

此前有报道称,DeepSeek计划于2月发布新一代旗舰模型DeepSeek V4,且内部初步测试表明,V4在代码编程能力上已经超越了市场上其他顶级模型。目前DeepSeek官方尚未对此消息作出任何回应。报道同时提及,具体的发布计划可能会根据实际情况进行相应调整。

自2024年底发布V3模型以来,DeepSeek的下一代旗舰模型一直备受期待。去年底,DeepSeek发布了小幅升级的V3.2版本,并提及该版本在多个基准测试中超越了OpenAI的GPT-5和Google的Gemini 3.0 Pro。业界始终关注着DeepSeek的旗舰模型进展,V4的正式推出,预计将成为行业关注的焦点。

来源:https://www.163.com/dy/article/KJ5ANGKM0519DDQ2.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

专访《自然》总编:中国“十五五”科技雄心的可行路径
科技数码
专访《自然》总编:中国“十五五”科技雄心的可行路径

  新华社北京3月29日电 专访|中国“十五五”有科技雄心,更有实现途径——访英国《自然》杂志总编辑斯基珀  新华社记者黄堃 吕岩昊  “这为中国科技发展树立了很好的雄心,并且重要的是,还提供了实现

热心网友
03.29
谷歌TurboQuant算法受质疑,中国博士后指其论文存重大缺陷
科技数码
谷歌TurboQuant算法受质疑,中国博士后指其论文存重大缺陷

IT之家 3 月 28 日消息,谷歌研究院 3 月 25 日推出全新极端压缩算法 TurboQuant,有望重塑 AI 运行效率并解决大模型键值缓存(KV Cache)的内存瓶颈,据称可以使 AI

热心网友
03.29
谷歌内存论文疑被抄袭,华人学者控诉业内学术不公
AI
谷歌内存论文疑被抄袭,华人学者控诉业内学术不公

新智元报道编辑:好困 Aeneas【新智元导读】把闪存股一夜干崩的谷歌顶会论文,出大事了。TurboQuant的核心方法,两年前就被一位华人学者做完、发完顶会、代码全部开源了。谷歌不仅没正面提及,而

热心网友
03.28
刚刚NeurIPS退稿?了解审稿趋势与避坑指南
AI
刚刚NeurIPS退稿?了解审稿趋势与避坑指南

机器之心编辑部就在刚刚,正在舆论风口上左摇右摆的 AI 顶会 NeurIPS 发布了一条长推文,针对此前的「NeurIPS 限制华为等实体机构投稿」事件做了解释、道歉、承诺三件事:解释:在编制 Ne

热心网友
03.28
中国学界拉黑后,这家AI顶会为何公开道歉?
科技数码
中国学界拉黑后,这家AI顶会为何公开道歉?

在中国科学技术协会、中国计算机学会、中国自动化学会相继发布声明宣布“抵制”后,人工智能学术会议NeurIPS低头道歉。 3月27日,NeurIPS通过社交平台“X”发布了一份声明,就征稿指南中的不

热心网友
03.28

最新APP

恶魔秘境
恶魔秘境
角色扮演 03-29
猫和老鼠华为
猫和老鼠华为
休闲益智 03-29
暗黑之地
暗黑之地
角色扮演 03-28
你比我猜
你比我猜
休闲益智 03-26
锦绣商铺
锦绣商铺
模拟经营 03-26

热门推荐

鲁大师软件管家使用教程:一键升级常用电脑软件
电脑教程
鲁大师软件管家使用教程:一键升级常用电脑软件

鲁大师软件管家可安全升级常用软件:一、启动后点击顶部“软件管家”选项卡自动扫描;二、在“可升级软件”列表点击绿色“升级”按钮确认安装;三、勾选多个软件后点“批量升级”按钮并发处理;

热心网友
03.29
北京推进智能网联新能源车险,支持L2-L4级别统一适配
科技数码
北京推进智能网联新能源车险,支持L2-L4级别统一适配

3月29日,北京已在全国率先启动智能网联新能源汽车商业保险产品开发应用。新产品基本沿用现有的新能源商业车险体系,按照“总体稳定、部分优化”的原则,主要为消费者和汽车企业关心的特定智驾场景、软硬件损失

热心网友
03.29
苹果今年将发布两款新iPhone应用,包含聊天机器人
科技数码
苹果今年将发布两款新iPhone应用,包含聊天机器人

预计苹果今年将发布两款新的 iPhone 应用,包括 Apple Business 应用和一款具备类似聊天机器人功能的 Siri 应用。借助 Apple Business 应用,使用全新 Apple

热心网友
03.29
苹果聘请前谷歌副总裁分管AI产品营销
科技数码
苹果聘请前谷歌副总裁分管AI产品营销

据 Axios 报道,苹果公司已聘请前谷歌副总裁 Lilian Rincon 担任人工智能产品营销副总裁。加入苹果之前, Rincon 曾任谷歌购物产品副总裁。在苹果, Rincon 将负责苹果所有

热心网友
03.29
雷军销售心法:一句话卖出一辆车,金牌销售的秘诀
科技数码
雷军销售心法:一句话卖出一辆车,金牌销售的秘诀

3月29日消息,谁能料到前段时间奥迪车主与雷军之间的那个打赌,竟然还有后续。这到底是咋回事?事情发生在3月25日,网友@单手开吉利 在雷军的微博评论区晒出了自己去年10月刚提的奥迪车,还当场立下一个

热心网友
03.29