首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
DeepSeek开源的Engram:仅3%推理损失实现方法解析

DeepSeek开源的Engram:仅3%推理损失实现方法解析

热心网友
72
转载
2026-01-13

继不久前发布突破性的mHC架构后,DeepSeek再次释放重磅更新。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

1月13日凌晨,DeepSeek在GitHub开源了名为“记忆编码(Engram)”的模块组件。同期,他们与北京大学联合发表了论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》,系统阐述了一种新的大模型稀疏化路径:条件存储。


图片来源:GitHub

这篇论文共有十四位作者,DeepSeek创始人兼CEO梁文锋的署名列于最后。值得注意的是,就在1月初,DeepSeek发布的关于mHC架构的论文同样引发了广泛关注,梁文锋的署名也以同样的方式呈现。

这两项研究清晰地体现了DeepSeek长期坚持的技术路线:致力于打破算力成本对模型发展的硬约束,通过底层架构与算法理论的协同创新,探索更具性价比的发展道路。

如果说此前的mHC是提出一种全新的底层计算架构,那么“条件存储”就更像是架构层面的职责重构与分工优化。

根据论文描述,Engram被设计成一个可微分、可训练、并能原生嵌入模型结构的组件。它的核心思路是将那些需要记忆的负载从主干计算中剥离出来,从而避免低效的重复计算。通过一个高速检索模块,模型能够直接调用那些稳定存在且高频出现的知识。

具体来说,Engram首先提供确定性检索。模型基于当前输入及前文形成的特定文本片段,通过哈希映射,直接从一个超大规模静态嵌入表中取出对应的向量表示。这个过程无需依赖复杂的神经网络计算,因此速度更快、路径也更稳定。

之后,Engram会通过一个轻量化的门控机制,由当前层的隐藏状态来判断这段记忆是否真正适合当下的语境,有效避免“查到就用”的生硬植入,保证了响应的灵活性。

简单来说,Engram这套机制既能解决输入端“记得住”的问题,也能优化输出端“说人话”的效果。

DeepSeek还指出,实验表明,相关机制在处理日期、专有名词等固定模式的信息时表现高度活跃,而在自由生成和复杂推理场景下则几乎不介入。这样就在强化记忆功能的同时,有效避免了不合时宜的“幻觉”出现。

在整体架构视角下,DeepSeek将大模型的能力拆解成了三个既相互独立、又彼此协作的维度。

首先是决定逻辑与抽象能力的模型深度,这是模型智能的基石。其次是以MoE为代表的“计算稀疏性”,旨在减少每次前向传播的计算负载。而这第三个维度,正是“存储稀疏性”,也就是Engram所引入的条件记忆。

以往,大模型厂商在开发记忆模块时,往往会担心影响模型主干的计算效率和推理性能。

根据论文,DeepSeek通过U型扩展定律解决了这一平衡问题。在总参数量和算力预算固定的前提下,研究团队系统性调整了MoE与Engram之间的比例,发现将20%到25%的稀疏参数分配给Engram,能达成最优的性能平衡点。

测试数据显示,即便加载了参数规模高达千亿级别的Engram记忆库,模型推理过程中的性能损失也能控制在3%以内。

另据知情人士透露,DeepSeek预计将在今年中国春节前后发布其最新的V4模型。此次的核心突破点主要在于对超长上下文提示词的处理与解析能力,以及对全流程训练中数据模式的理解力的提升。

这意味着,新模型不仅推理性能会大幅提升,在处理复杂任务时将更加得心应手。编程能力也将成为新模型的主打优势之一。内部初步测试结果显示,其表现已经超越了Anthropic当前最强的编程模型Claude。

值得注意的是,Anthropic近期为了守护其在编程能力的优势和入口,已陆续切断Claude Code在第三方平台的接入。1月12日,该公司又放出了Co-work,主打办公场景的自主助手应用落地。该应用能自动帮用户完成制作PPT、整理电子邮件、制订工作计划等各类任务,上手门槛较低。

目前,mHC和Engram在DeepSeek新模型中的具体角色与组合方式尚未完全清晰,但这艘即将到来的旗舰新作,正被市场期待它能再次带来一次“DeepSeek春节冲击波”。

来源:https://www.163.com/dy/article/KJ5SKI8U05118O92.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

沃顿商学院研究:AI如何重塑人类推理与判断机制
科技数码
沃顿商学院研究:AI如何重塑人类推理与判断机制

IT之家 3 月 28 日消息,当地时间 3 月 27 日,据《福布斯》报道,美国宾夕法尼亚大学沃顿商学院最新研究显示,使用 AI 规划旅行、咨询医疗建议或撰写求职信,看似只是节省时间,实际上可能正

热心网友
03.29
龙虾、Token是什么?6位AI大咖为你深度解析
科技数码
龙虾、Token是什么?6位AI大咖为你深度解析

来源:人民日报客户端走红的“龙虾”(OpenClaw)打开了智能体的想象空间;巨量的词元(Token)反映着AI产业规模快速扩张……3月27日,在2026中关村论坛人工智能主题日,月之暗面创始人杨植

热心网友
03.28
龙虾之后的大模型共识困境与未来趋势
科技数码
龙虾之后的大模型共识困境与未来趋势

出品|虎嗅科技组作者|宋思杭编辑|苗正卿头图|中关村论坛现场上一次智谱AI与月之暗面同台,还是在1月10日。那天是智谱通过港交所聆讯后的第三天,一个周六,在中关村国际创新中心举行了一场名为AGI-N

热心网友
03.28
阿里林俊离职首文:AI迈向智能体式思考新阶段
科技数码
阿里林俊离职首文:AI迈向智能体式思考新阶段

AI正在走向“为了采取正确行动而思考”。编译整理|莘歆来源 | 盒饭财经(ID:daxiongfan)头图及封面来源 | 网络及即梦制作在X(推特)上宣布离职后的22天,林俊旸发了一篇长文。3月2

热心网友
03.27
智能化如何主导未来?林俊峪离职后首次撰文深思
科技数码
智能化如何主导未来?林俊峪离职后首次撰文深思

3月26日晚间,前千问大模型技术负责人林俊旸在社交平台发文,在从阿里离职后,他首度发布长文详谈自己对大模型发展路线的理解及对AI下一阶段的预判。林俊旸表示,过去两年重塑了行业对大模型的评估方式与核心

热心网友
03.27

最新APP

暗黑之地
暗黑之地
角色扮演 03-28
你比我猜
你比我猜
休闲益智 03-26
锦绣商铺
锦绣商铺
模拟经营 03-26
儿童画画
儿童画画
休闲益智 03-25
疯狂猜词
疯狂猜词
休闲益智 03-25

热门推荐

显示器颜色校正教程:5步解决偏色与颜色不准
电脑教程
显示器颜色校正教程:5步解决偏色与颜色不准

首先使用系统内置工具校准显示器颜色,调整伽马、亮度、对比度和色彩平衡;其次可借助专业校色仪进行硬件级校准并生成ICC配置文件;接着检查并更换高质量视频线缆以确保信号稳定;然后更新显

热心网友
03.29
萤石云监控删除录像教程:清理云端历史视频记录
手机教程
萤石云监控删除录像教程:清理云端历史视频记录

1、第一步,在手机中打开萤石云应用程序,然后单击萤石云智能相机设备进入,见下图,转到下面的步骤。2、第二步,执行完上面的操作之后,可以检查摄像机的实时监控屏幕,此时,单击右上角的三

热心网友
03.29
机械方方果实获取攻略:《洛克王国》世界任务指南
游戏攻略
机械方方果实获取攻略:《洛克王国》世界任务指南

《洛克王国:世界》是由腾讯IEG魔方工作室群开发的大世界精灵收集养成战斗游戏,在游戏中有许许多多不同的精灵,游戏中可以用果实来产生精灵,那么有不少小伙伴好奇机械方方果实怎么获得,下

热心网友
03.29
33岁男星泰国暴尸疑点披露:最新调查揭秘致命真相
娱乐
33岁男星泰国暴尸疑点披露:最新调查揭秘致命真相

近日,泰国普吉岛的一则噩耗引发全球关注——33岁的英国真人秀男明星乔丹·赖特,被发现溺亡于当地一处排水沟中。无独有偶,就在上个月,一名中国女子在泰国芭提雅参加泳池派对后失联,最终被警方发现其不幸遇害

热心网友
03.29
电脑CPU是核心:查看位置、功能与选购指南
电脑教程
电脑CPU是核心:查看位置、功能与选购指南

CPU位于主板中央偏上、散热器正下方的专用插槽中,可通过机箱目视、系统软件(如msinfo32、HWiNFO64)或主板说明书图示三步精准定位。如果您想定位电脑中负责核心运算与指令

热心网友
03.29