梁文锋署名DeepSeek新论文:破解大模型记忆瓶颈
新京报贝壳财经讯(记者罗亦丹)1月12日晚间,DeepSeek发表了一篇新论文,题为《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》(译作:基于可扩展查找的条件记忆:大语言模型稀疏性的新维度)。值得注意的是,梁文锋再次出现在作者名单末尾。这篇论文由北京大学与DeepSeek共同完成。
新京报贝壳财经记者浏览发现,这篇论文的核心直指当前大语言模型存在的记忆力“短板”,并提出了“条件记忆”这一创新概念。
为实现“条件记忆”,DeepSeek提出的解决方案是一个名为Engram(可译为:记忆痕迹)的模块。它将语言建模任务解构为“静态模式检索”与“动态组合推理”两大分支:前者负责实体、固定短语等确定性知识的快速调取,后者则交由Transformer架构专注完成复杂逻辑运算。
论文最后强调,“我们将条件记忆视为下一代稀疏模型不可或缺的建模原语。”
当前,不少业内声音猜测DeepSeek的下一代模型将于春节前发布,重现2025年春节期间的发布盛况。在此背景下,此篇论文或为模型的“庐山真面目”提供了重要方向指引。
编辑 杨媛媛
校对 杨利
相关攻略
近日,Anthropic发布了一项关于Claude模型内部“情绪机制”的新研究,却因未引用关键的前期工作而引发学术争议。原作者直接指出这一疏漏,促使Anthropic迅速回应并更新了论文引用。 发现这一问题的研究者是来自MBZUAI的研究生Chenxi Wang。她在阅读论文后敏锐地察觉到,这项研究
复旦大学等机构破解了困扰学界60年的经典数学物理难题,成果发表于国际顶尖期刊。研究系统分析了二维不可压缩欧拉方程中“猫眼流”涡旋结构在不同扰动下的稳定性,首次严格证明了其存在“合并不稳定性”,为理解磁重联等物理过程提供了新理论工具,其分析框架有望应用于更广泛的涡。
《自然》:一桩悬案了结? “砷基生命”论文终遭撤稿,但争议远未结束 科学界一桩持续了15年的公案,最近有了新进展。顶级期刊《科学》(Science)正式撤回了那篇曾引发轰动的争议性论文——该研究当年声称,在美国加州莫诺湖发现的一种细菌,能够用有毒的砷元素替代生命必需的磷来构建DNA,这直接挑战了我们
中国科研产出激增背后:学术出版话语权与经济成本的双重挑战 近期,在上海科学会堂举行的Insight Press(睿见出版)首批高质量学术期刊创刊仪式暨第十一期“好望角科学沙龙”上,科学家、出版机构负责人与期刊主编们齐聚一堂,共同探讨中国一流学术期刊的未来发展路径。当前,中国科学家正以前所未有的速度产
中国科学技术协会2026年3月31日发布告示:中国科协曾于2026年3月27日就2026年NeurIPS会议发表声明,本意是尽力维护我国关涉学者正当利益,其措施原则是清晰、适当的,没有发生变化。现就
热门专题
热门推荐
MiniCPM-o 4 5是什么 在探索更自然、更智能的人机交互道路上,我们始终在期待一个“全能型选手”的到来。如今,这个角色或许已经登场。面壁智能最新开源的MiniCPM-o 4 5,一个仅拥有90亿参数的全模态大模型,正致力于重新划定“智能对话”的边界。 它彻底颠覆了传统一问一答的“对讲机”式交
Binance币安 欧易OKX ️ Huobi火币️ 想在2025年安全获取欧易OKX的正版APP?其实秘诀就一个:认准官方网站,避开所有仿冒和可疑的下载渠道。要知道,欧易现已统一更名为欧易OKX,其核心业务始终围绕数字资产交易及相关服务展开。 确认官方网站地址 第一步,打开浏览器,手动输入欧易OK
SecondMe Book是什么 在AI社交这一前沿赛道,一款国产平台正带来独特的解决方案。SecondMe Book,本质上是一个能够让你构建个人AI数字分身的创新平台。它允许用户创建一个能够代表真实自我风格与思维的AI数字身份,并让这个“第二自我”在一个专属的AI社交网络中自主运行——包括主动发
在AI大模型技术快速发展的今天,如何在卓越性能与高效推理成本之间取得最佳平衡,已成为行业关注的核心焦点。近期,由阶跃星辰推出的开源模型Step 3 5 Flash引发了广泛热议。该模型专为智能体(AI Agent)应用场景深度优化,旨在顶尖能力与亲民部署成本之间,构建一个极具竞争力的技术支点。 简而
LongCat-Flash-Lite是什么 在探索大语言模型性能与效率的最佳平衡点时,美团近期推出的LongCat-Flash-Lite提供了一个极具创新性的解决方案。作为新一代高效大语言模型,它凭借其突破性的架构设计,在人工智能领域获得了广泛关注。 简而言之,该模型创新性地融合了“混合专家系统(M





