DeepSeek发布梁文锋署名新论文:V4有望支持全新记忆架构
1月13日有消息称,今天,DeepSeek正式发表了一篇新论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》(基于可扩展查找的条件记忆:大型语言模型稀疏性的新维度)。
这篇论文由北京大学与DeepSeek团队合作完成,在共同作者署名中出现了梁文锋的名字。

论文中提出的“条件记忆”机制,通过引入可扩展的查找式记忆结构,在参数量与计算力相当的条件下,显著提升了模型在知识调用、逻辑推理、代码生成、数学解题等多个任务上的表现。
此外,DeepSeek还同步开源了相关的记忆模块Engram。
该模块采用了“查算分离”的全新架构设计思路。业内人士分析认为,Engram有望成为DeepSeek下一代V4模型的核心技术基础。
据媒体报道,知情人士透露,DeepSeek计划在2月中旬农历新年前后推出V4模型,不过具体发布时间仍可能进行调整。

相关攻略
DeepSeek的低价源于全方位成本控制:通过上下文缓存复用降低长文本生成开销,采用混合注意力机制高效处理超长序列,利用MoE架构推理时仅激活部分专家以提升算力效率。训练阶段通过算法与工程优化压缩开支,最终形成极低服务成本与竞争力定价。
近日,DeepSeek 官方对其 API 服务文档进行了一次关键性更新。根据最新发布的定价信息,DeepSeek-V4-Pro 模型的 API 计费策略已作出明确调整:原计划于 2026 年 5 月 31 日截止的 2 5 折限时优惠活动到期后,服务价格将不会回调至最初公布的标准原价,而是会永久性调
2026年5月23日,这个看似寻常的日期,或许将在未来被视作一个关键的转折点。一系列独立事件正同步发生,悄然交织成一张影响深远的趋势网络。 市场波动通常由多重因素共振导致。从宏观政策微调到前沿科技突破,从产业链局部调整到全球资本重新配置,每一个信号都蕴含深层信息。当这些信号在相近时段密集出现,其背后
宁德时代近期密集布局AI算力基础设施,投资超145亿元入股世纪互联和中恒电气,覆盖算力机房、电力供应与储能主业,并参投能源大模型公司,与商汤科技落地算电协同平台。此举旨在构建从储能、供电到算力调度的完整闭环,推动公司从电池供应商向算力时代能源基建巨头转型,顺应政策与产。
据知情人士透露,宁德时代计划参与人工智能公司DeepSeek的首轮融资,该轮融资目标规模约500亿元,或于6月完成。此前腾讯、阿里巴巴已展开洽谈,京东、网易也在商谈入股。若融资完成,DeepSeek估值可能达约450亿美元。其创始人梁文锋也将以个人名义出资。
热门专题
热门推荐
在追求极致效率的现代软件开发中,一款名为Cursor的AI代码编辑器正引领着开发范式的变革。它被定义为“面向未来的IDE”,其核心理念清晰而有力:将人工智能深度无缝地集成到编码工作流的每一个步骤,为开发者创造一种前所未有的“AI结对编程”体验。 Cursor sh应用场景 那么,这款AI驱动的编辑器
在众多AI图像生成工具中,WHEE凭借其精准的产品定位与持续的功能迭代,正成为越来越多设计师和内容创作者的首选工具。它专注于打造高品质的AI视觉素材生成器,核心使命就是帮助用户快速、高效地获得可直接使用的优质图片素材。 那么,这款AI绘图工具究竟有哪些核心优势?下面我们从其关键特性与功能设计进行深入
在AI绘画工具不断涌现的当下,一款名为NightCafe Creator的应用以其全面的AI艺术生成能力脱颖而出。它不仅是一个简单的图片处理工具,更是一个融合了多种前沿人工智能技术的创意平台,帮助用户轻松实现从构思到成品的艺术创作。 NightCafe Creator是什么? NightCafe C
近期加密货币市场受到宏观经济不确定性及流动性紧缩影响,比特币(BTC)、以太坊(ETH)以及多种山寨币出现明显下行走势,市场情绪趋于谨慎。 比特币近期走势分析 比特币的价格近期表现如何?简单来说,它跌破了几个市场公认的关键支撑位,而且伴随交易量的放大。这种放量下跌的信号,往往意味着多空分歧加剧。无论
蔡司宣布将于6月2日发布一款新镜头,并称其为镜头技术的重大突破,标志着全新纪元的开启。官方仅公布了产品剪影,但措辞暗示其可能带来根本性的技术升级,例如全新光学结构、先进镀膜或对焦系统改进。具体细节需待发布日揭晓。





