DeepSeek V4深度:一次注意力机制的结构性颠覆
DeepSeek-V4预览版解析:百万上下文如何成为“标配”?
DeepSeek发布了V4预览版,并且同步开源。公告里有一句话,分量不轻:
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
“从现在开始,1M(一百万)上下文将是DeepSeek所有官方服务的标配。”
OpenAI和Google早就支持超长上下文了,这不算新闻。真正的难点在于成本。Transformer那套注意力机制,计算量会随着序列长度呈平方级增长——序列长度翻一倍,所需算力就得翻四倍。在传统架构下,处理100万个token的成本,几乎让商业化成为不可能的任务。
那么,DeepSeek V4是怎么做到的?技术报告给出了关键数据:在1M token的场景下,V4-Pro的单token推理计算量(FLOPs)只有上一代V3.2的27%,而KV缓存的用量更是降到了只有10%。
两把刀
标准Transformer的自注意力机制,要求每个token都得和序列里所有其他token计算一遍相关性权重。这是平方复杂度,是结构性问题,靠工程上的小修小补根本解决不了。
过去业界的主流应对方式,大体分两类:要么“切掉”计算范围,比如采用滑动窗口,只看局部邻居,但代价是失去了全局感知能力;要么“绕开”长文本本身,比如先用RAG检索出相关片段再喂给模型,但这又让检索质量成了新的性能天花板。还有一些固定模式的稀疏注意力方法,通过人工设计来跳过部分计算,但模式是死的,面对不同任务千差万别的信息分布,泛化能力实在有限。
V4给出的方案,是一套组合拳:CSA + HCA混合注意力架构。
CSA(压缩稀疏注意力),解决的是“算什么”的问题。它的思路很巧妙:先用一个轻量级的索引器对所有token对进行快速粗筛,估算出相关性的排序,然后再精准地挑出那些真正需要完整计算的token集合。这套机制的关键在于,其稀疏结构是可训练的——模型能在训练过程中自己学会,在哪些地方需要高密度的注意力,在哪些地方可以稀疏处理。这其实在V3.2时代的DSA(动态稀疏注意力)中已有雏形,V4是在此基础上做了进一步的演化。
HCA(重度压缩注意力),解决的则是“存什么”的问题。它在V3时代MLA(多头潜在注意力)的基础上继续推进,将KV向量映射到一个低维的“潜空间”进行压缩存储,推理时再解压使用。再叠加上FP4与FP8混合精度技术——MoE专家参数用FP4,其余用FP8——KV缓存的显存占用又被砍掉了一半。
CSA和HCA这两把刀叠加起来的效果,直接体现在了开头那两个数字上:27%的FLOPs,10%的KV缓存。换算成实际收益就是,在同等算力下,能够支持的长上下文并发服务量,大约是原来的3到4倍。
技术报告里还有两个细节值得圈点。一个是mHC(流形约束超连接),它对残差连接做了流形约束强化,专门针对1.6T参数这种超深度模型在训练时可能出现的跨层信号衰减问题。另一个是Muon优化器,它取代了Adam系列,基于矩阵正交化进行更新,在超大规模训练中收敛更快、更稳定——要知道,Adam几乎是大模型训练的默认配置,DeepSeek这次把它换掉了。
数字
官方给出了V4与Claude Opus 4.6、GPT-5.4 xHigh、Gemini 3.1 Pro High的全维度横向评测。
数学和竞赛推理是V4-Pro表现最突出的维度。Codeforces评分达到3206,在四家中最高(GPT-5.4是3168,Gemini和V4-Flash都是3052)。Apex Shortlist得分90.2,超过了Opus 4.6(85.9)、GPT-5.4(78.1)和Gemini(89.1)。IMOAnswerBench得分89.8,仅次于GPT-5.4(91.4)。
智能体(Agent)能力上,SWE Verified得分80.6,与Opus 4.6的80.8几乎持平。Toolathlon得分51.8,高于Opus 4.6的47.2,略低于GPT-5.4的54.6。公告里有一句内部评价很能说明问题:V4已成为员工进行Agentic Coding的主力模型,“使用体验优于Claude Sonnet 4.5,交付质量接近Opus 4.6的非思考模式”。
长上下文测评有两个数字需要对比着看:MRCR 1M(长文本关键信息检索)得分83.5,高于Gemini的76.3,但低于Opus 4.6的92.9。CorpusQA 1M(长文档精准问答)得分62.0,低于Opus 4.6的71.7。MRCR更侧重检测关键信息是否存在,而CorpusQA则要求在百万token中精准定位并进行综合分析——这两个测评结果的分化,恰恰说明了模型在不同长文本任务上的能力特点。
在综合知识和科学前沿推理方面:SimpleQA-Verified得分57.9,低于Gemini的75.6。HLE(前沿科学推理超难题集)得分37.7,在四家中最低。
此外,V4-Flash版本也值得关注:284B总参数,13B激活参数,体量约为Pro版的18%,但同样支持1M上下文和Think/Think Max推理模式。官方称其在简单的Agent任务上与Pro版“旗鼓相当”。
DeepSeek将这次发布称为“预览版”,技术报告的标题里用的词是“Towards”——朝向,还在路上。CSA和HCA的设计逻辑今天已经公开,但这套稀疏训练机制在面对不同任务分布时具体表现如何,将是接下来开源社区需要共同探索和验证的事。
数据来源:DeepSeek官方公告《DeepSeek-V4 预览版:迈入百万上下文普惠时代》(2026年4月24日);技术报告 DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence
热门专题
热门推荐
HTML中的dialog标签怎么用? 很多开发者第一次接触 标签时,都会有个美丽的误会:以为把它写进HTML,页面就会自动弹出一个对话框。其实不然,这个标签的默认状态是“隐藏”的。你可以把它想象成一扇关着的门——写了标签只是造好了门框,想让门打开,你得要么手动加上 open 属性,要么用Ja vaS
本文介绍如何在基于 CSS 媒体查询和 checkbox 的响应式导航菜单中,通过重构 HTML 结构并结合轻量 Ja vaScript,实现点击汉堡图标展开菜单、再点击右上角“×”按钮即时收起的功能,解决纯 CSS 方案无法主动关闭的问题。 你是否遇到过这样的场景?在移动端,用户点击汉堡图标打开了
如何用 Array prototype entries 配合 for of 在遍历数组的同时获取索引和值 entries() 返回的是什么类型的迭代器 先说清楚一个核心概念:Array prototype entries() 返回的,是一个标准的数组迭代器对象。这意味着,每次调用它的 next(
伊朗驳斥特朗普所谓“分裂内斗”论调:美方言论被指为心理投射 近日,围绕伊朗国内局势的表述,美伊之间再次上演了一场外交言辞交锋。这场对话的焦点,似乎已悄然发生了转移。 谈判重心的转向与核心关切的明确 根据伊朗外交部发言人纳赛尔·卡纳尼的表态,一个关键信号已经释放:当前伊美谈判的重心,已不再局限于核问题
真正复古的CRT效果需叠加扫描线与亚像素抖动:用repeating-linear-gradient生成2px间距、rgba(0,0,0,0 08)透明度的黑色条纹层,并配以transform: translateX(0 5px) translateY(-0 3px)和steps(1)动画,辅以bac





