首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
梁文锋详解DeepSeek论文:分离记忆与计算的新突破

梁文锋详解DeepSeek论文:分离记忆与计算的新突破

热心网友
21
转载
2026-01-13

1月12日晚间,DeepSeek发布梁文锋署名的新论文,主题为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》(直译为基于可扩展查找的条件记忆:大语言模型稀疏性的新维度),这也是2026开年至今,DeepSeek团队的第二篇重磅论文。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

此前,在1月1日发布的论文中,DeepSeek提出一种名为“mHC”(直译为“流形约束超连接”)的框架,可以有效解决大模型训练中的稳定性问题。而在本次发布的论文中,DeepSeek联合北京大学提出了“条件记忆”这一概念,直指当前大语言模型基础架构Transformer在知识检索方面存在的低效和算力消耗问题。

在这篇论文里,DeepSeek通过创新的Engram(直译为:记忆痕迹)架构为模型规模化扩展提供了新的技术路径,若以简单的比喻来理解,就是DeepSeek设计了一种新架构,将大模型的“条件记忆”和“计算”分开,最终达到了降低错误、节省算力的目的。


预印本 上DeepSeek的论文页面截图,红框为梁文锋名字。

大模型“痛点”:简单问题需要复杂推理,容易“遗忘”

许多AI大模型用户均曾在使用过程中发现过一个现象:AI会偶尔“忘记”自己曾经说过的话。对于这一问题,有AI聊天重度用户曾对记者表示,可以通过再次“提醒”的方式来让AI重复记起,ChatGPT等应用也对此进行过设置,让用户可以保存一些较为重要的信息到“长期记忆”中。

然而,这一切只能“治标”不能“治本”。究其原因,根据美国约翰斯·霍普金斯大学和中国人民大学的研究团队2025年3月发布的论文《大型语言模型不具备类人工作记忆》(LLMs Do Not Have Human-Like Working Memory),大语言模型所依赖的“上下文窗口”与工作记忆存在本质区别。

根据研究人员测试,模型在处理超过5轮的多步骤逻辑推理任务时,会出现关键信息丢失的现象,在长文本生成场景下,前文设定的人物关系、情节线索极易发生偏差。

在实际应用中,这一缺陷有可能被无限放大。如在企业客服场景,模型无法长期记住用户的个性化需求;在医疗问诊场景,患者此前提及的病史、用药禁忌可能被忽略;在代码生成场景,跨文件的函数调用逻辑易出现混乱。可以说,记忆短板已成为大模型从 “通用工具” 迈向 “垂直领域专用系统” 的最大障碍。

究其原因,在多轮对话中,早期输入的关键信息会随着对话轮次增加而逐渐衰减,最终被新信息覆盖。这种 “答后忘前”的现象,本质是模型的短时记忆无法有效转化为长期可用的知识。另一方面,密集型注意力计算模式下,记忆存储与逻辑推理共享算力资源,二者存在天然的资源竞争关系 —— 模型难以同时兼顾 “记住更多信息” 与 “精准完成推理”。

这一背景下,DeepSeek则保持了一 贯的“省钱”作风,看到了这之中存在的算力消耗问题。梁文锋署名的新论文表示,语言建模本质上包含两类子任务:一类是组合式推理,需要依赖深层、动态计算完成;另一类是知识检索,面向命名实体等相对静态的内容,理论上可以通过简单查找更高效地处理。然而,现有Transformer架构缺乏原生的查找组件,遇到这类静态信息时往往仍要反复调用深层网络进行重建,从而加剧算力浪费并推高推理成本。

DeepSeek在论文中指出,当前主流模型在内部运行方式上仍存在明显低效。大量固定知识和常见语言模式并不需要复杂推理,但模型在推理时往往仍要通过多层计算重新构建相关信息,导致算力被大量消耗在记忆相关操作上。在长文本和知识密集型任务中,这一问题更为突出,重复静态信息的重建会增加额外的推理开销并拉长推理链路。

首创MoE+Engram双稀疏轴架构,实现“推理+检索”分工协作

那么,如何解决上述问题呢?

根据DeepSeek的论文,研究人员首次将条件记忆(Conditional Memory)作为混合专家模型(MoE)条件计算的互补维度,提出计算与记忆双稀疏轴的设计思路,这也是此次研究的核心创新点。

所谓“条件记忆”,是指模型能够基于输入中的局部上下文模式,以常数时间从大规模参数化记忆中检索并融合静态知识表示,从而避免在推理过程中反复通过深层计算重建高频、模板化信息,类似于人类在面对熟悉知识时直接调用既有记忆,而非重新推导。



Engram架构示意图 来源:DeepSeek论文截图

具体而言,条件记忆通过Engram模块(记忆痕迹)实现静态知识存储与动态计算的分离,达成静态模式的常数时间O(1)查找。其核心逻辑是为语言建模的两类子任务进行分工:MoE专注处理需要深层思考的组合式推理任务,Engram则依托条件记忆机制负责静态知识的快速检索,从架构上优化了算力资源分配,改变了传统模型用计算模拟记忆的低效模式。当大约20%至25%的稀疏参数预算分配给Engram,剩余部分留给MoE时(75% -80%),模型性能达到最佳。

这种稀疏性设计带来两大优势:一是大幅降低算力消耗,静默状态的记忆资源不占用计算资源,提升模型运行效率;二是拓展记忆容量,稀疏存储模式可支持更大规模的知识存入,突破传统注意力窗口的物理限制。

论文给出了这一新方案在准确性上所得到的提升:在长上下文检索方面,研究人员采用业内公认的两个长上下文评测基准。实验结果显示,在32k上下文长度下,Engram-27B 在多项 Needle-in-a-Haystack(NIAH)任务中显著优于MoE基线模型,Multi-Query NIAH的准确率从 84.2%提升至97.0%,Variable Tracking从77.0%提升至89.0%。

目前,该研究的代码已开源,DeepSeek团队在论文最后表示,“我们认为条件记忆函数是下一代稀疏模型中不可或缺的建模基元。”这一表述的背后,是行业对大模型技术演进方向的共识——当参数竞赛进入瓶颈期,稀疏性设计将成为提升模型效率与能力的核心路径,而条件记忆或许可以成为稀疏模型在记忆领域的关键突破。

在业界猜测DeepSeek下一代模型将于春节前发布的背景下,这篇论文的出现颇具风向标意义,论文提出的技术范式也为大模型的底层架构创新提供了新的思路。

新京报贝壳财经记者 罗亦丹 实习生 郭雯华

编辑 岳彩周

校对 付春愔

来源:https://www.163.com/dy/article/KJ6F9AU0055284JB.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

中国科协:2026年NeurIPS会议资助调整与学者参会指引
科技数码
中国科协:2026年NeurIPS会议资助调整与学者参会指引

中国科学技术协会2026年3月31日发布告示:中国科协曾于2026年3月27日就2026年NeurIPS会议发表声明,本意是尽力维护我国关涉学者正当利益,其措施原则是清晰、适当的,没有发生变化。现就

热心网友
03.31
康奈尔大学将离开全球最大论文预印本平台arXiv
科技数码
康奈尔大学将离开全球最大论文预印本平台arXiv

Cornell University 图源:wikipedia撰文|张天如果有一天,全球科研人员突然无法访问arXiv,许多领域的研究节奏可能会被打乱。每天清晨刷新论文列表,已经成为部分数学家、物理

热心网友
03.31
中国科协重申新冠病毒源头结论:持续科学调查未发现变异
科技数码
中国科协重申新冠病毒源头结论:持续科学调查未发现变异

据微信公众号“中国科协之声”消息,3月31日,中国科学技术协会发布告示: 中国科协曾于2026年3月27日就2026年NeurIPS会议发表声明,本意是尽力维护我国关涉学者正当利益,其措施原则是清

热心网友
03.31
吴文俊人工智能奖出炉:阿里达摩院获唯一特等奖
科技数码
吴文俊人工智能奖出炉:阿里达摩院获唯一特等奖

今日,阿里达摩院发文称,近日,中国人工智能学会颁发了“吴文俊人工智能科学技术奖”,阿里巴巴达摩院参与完成的重大科技项目“深度自然语言理解和生成关键技术与应用”,获得唯一的科技进步奖特等奖。据介绍,该

热心网友
03.31
NeurIPS紧急致歉背后,AI安全风险更值得警惕
科技数码
NeurIPS紧急致歉背后,AI安全风险更值得警惕

【文 观察者网 心智观察所】 最近,NeurIPS——人工智能领域最具影响力的学术会议之一——在2026年征稿规则中新增了一项条款:凡被美国财政部海外资产控制办公室(OFAC)列入制裁名单的机构,

热心网友
03.31

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

G胖退出Valve游戏开发 怕员工不敢反驳
游戏资讯
G胖退出Valve游戏开发 怕员工不敢反驳

V社联合创始人G胖调整角色:从主导开发转向赋能团队,释放创意生产力 近期一则消息引发游戏行业广泛关注:Valve联合创始人加布·纽维尔(“G胖”)在公司内部进行了一次重要角色转型。此次调整的关键原因,与他个人在公司中的特殊影响力息息相关。根据透露,这位创始人决定减少在具体游戏开发工作中的直接深度参与

热心网友
04.05
红魔姜超“冒险爆料”:Pad 新品不是四月就是五月发布,一定不让大家失望
科技数码
红魔姜超“冒险爆料”:Pad 新品不是四月就是五月发布,一定不让大家失望

红魔姜超透露:全新游戏平板将于四月或五月发布,承诺带来惊艳体验 游戏硬件领域即将迎来重磅更新。努比亚红魔游戏手机的产品线负责人姜超,近日通过社交媒体进行了一次颇具悬念的“前瞻剧透”,成功引发了广大游戏玩家和科技爱好者的高度关注。他明确指出,红魔全新一代游戏平板的发布日期已锁定在四月或五月,并使用了“

热心网友
04.05
金铲铲之战S17天煞羁绊效果一览
游戏攻略
金铲铲之战S17天煞羁绊效果一览

金铲铲之战S17天煞羁绊:效果解析与实战应用 在《金铲铲之战》S17赛季中,【天煞】是一个定位独特的专属羁绊,仅由5费英雄“劫”所携带。激活这一羁绊需要特定的前置条件——玩家必须在强化符文选择阶段获得【入侵者劫】。一旦成功解锁,劫将获得全新的技能机制,从而在战局中发挥出颠覆性的作用。 金铲铲之战S1

热心网友
04.05
蓝点工作室被索尼移除 第一方阵容调整
游戏资讯
蓝点工作室被索尼移除 第一方阵容调整

索尼调整第一方工作室阵容,王牌重制团队蓝点工作室正式“退出”核心名单 近日,索尼在其PlayStation Studios官方网站的更新中做出了一项关键调整,引发了游戏玩家和行业观察者的广泛关注:曾凭借《恶魔之魂:重制版》等作品赢得盛誉的蓝点工作室,已不再出现在索尼核心第一方工作室的名单之中。此次页

热心网友
04.05
未来人类 X98W 移动“工作站”笔记本电脑上线官网,4 月内发售
科技数码
未来人类 X98W 移动“工作站”笔记本电脑上线官网,4 月内发售

未来人类X98W移动工作站正式发布:重新定义移动端专业性能的新标杆 在专业移动计算领域,总有一些产品能够打破常规认知。近日,未来人类(TerransForce)正式在其官网上线了全新的X98W高性能移动工作站,并宣布将于本月内全面发售。这款设备的问世,无疑为那些在移动办公环境中仍需要桌面级别强悍性能

热心网友
04.05