DeepSeek V4深度：一次注意力机制的结构性颠覆

首页

web3.0

热心网友

转载

2026-04-24

DeepSeek-V4预览版解析：百万上下文如何成为“标配”？

DeepSeek发布了V4预览版，并且同步开源。公告里有一句话，分量不轻：

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

“从现在开始，1M（一百万）上下文将是DeepSeek所有官方服务的标配。”

OpenAI和Google早就支持超长上下文了，这不算新闻。真正的难点在于成本。Transformer那套注意力机制，计算量会随着序列长度呈平方级增长——序列长度翻一倍，所需算力就得翻四倍。在传统架构下，处理100万个token的成本，几乎让商业化成为不可能的任务。

那么，DeepSeek V4是怎么做到的？技术报告给出了关键数据：在1M token的场景下，V4-Pro的单token推理计算量（FLOPs）只有上一代V3.2的27%，而KV缓存的用量更是降到了只有10%。

两把刀

标准Transformer的自注意力机制，要求每个token都得和序列里所有其他token计算一遍相关性权重。这是平方复杂度，是结构性问题，靠工程上的小修小补根本解决不了。

过去业界的主流应对方式，大体分两类：要么“切掉”计算范围，比如采用滑动窗口，只看局部邻居，但代价是失去了全局感知能力；要么“绕开”长文本本身，比如先用RAG检索出相关片段再喂给模型，但这又让检索质量成了新的性能天花板。还有一些固定模式的稀疏注意力方法，通过人工设计来跳过部分计算，但模式是死的，面对不同任务千差万别的信息分布，泛化能力实在有限。

V4给出的方案，是一套组合拳：CSA + HCA混合注意力架构。

CSA（压缩稀疏注意力），解决的是“算什么”的问题。它的思路很巧妙：先用一个轻量级的索引器对所有token对进行快速粗筛，估算出相关性的排序，然后再精准地挑出那些真正需要完整计算的token集合。这套机制的关键在于，其稀疏结构是可训练的——模型能在训练过程中自己学会，在哪些地方需要高密度的注意力，在哪些地方可以稀疏处理。这其实在V3.2时代的DSA（动态稀疏注意力）中已有雏形，V4是在此基础上做了进一步的演化。

HCA（重度压缩注意力），解决的则是“存什么”的问题。它在V3时代MLA（多头潜在注意力）的基础上继续推进，将KV向量映射到一个低维的“潜空间”进行压缩存储，推理时再解压使用。再叠加上FP4与FP8混合精度技术——MoE专家参数用FP4，其余用FP8——KV缓存的显存占用又被砍掉了一半。

CSA和HCA这两把刀叠加起来的效果，直接体现在了开头那两个数字上：27%的FLOPs，10%的KV缓存。换算成实际收益就是，在同等算力下，能够支持的长上下文并发服务量，大约是原来的3到4倍。

技术报告里还有两个细节值得圈点。一个是mHC（流形约束超连接），它对残差连接做了流形约束强化，专门针对1.6T参数这种超深度模型在训练时可能出现的跨层信号衰减问题。另一个是Muon优化器，它取代了Adam系列，基于矩阵正交化进行更新，在超大规模训练中收敛更快、更稳定——要知道，Adam几乎是大模型训练的默认配置，DeepSeek这次把它换掉了。

数字

官方给出了V4与Claude Opus 4.6、GPT-5.4 xHigh、Gemini 3.1 Pro High的全维度横向评测。

数学和竞赛推理是V4-Pro表现最突出的维度。Codeforces评分达到3206，在四家中最高（GPT-5.4是3168，Gemini和V4-Flash都是3052）。Apex Shortlist得分90.2，超过了Opus 4.6（85.9）、GPT-5.4（78.1）和Gemini（89.1）。IMOAnswerBench得分89.8，仅次于GPT-5.4（91.4）。

智能体（Agent）能力上，SWE Verified得分80.6，与Opus 4.6的80.8几乎持平。Toolathlon得分51.8，高于Opus 4.6的47.2，略低于GPT-5.4的54.6。公告里有一句内部评价很能说明问题：V4已成为员工进行Agentic Coding的主力模型，“使用体验优于Claude Sonnet 4.5，交付质量接近Opus 4.6的非思考模式”。

长上下文测评有两个数字需要对比着看：MRCR 1M（长文本关键信息检索）得分83.5，高于Gemini的76.3，但低于Opus 4.6的92.9。CorpusQA 1M（长文档精准问答）得分62.0，低于Opus 4.6的71.7。MRCR更侧重检测关键信息是否存在，而CorpusQA则要求在百万token中精准定位并进行综合分析——这两个测评结果的分化，恰恰说明了模型在不同长文本任务上的能力特点。

在综合知识和科学前沿推理方面：SimpleQA-Verified得分57.9，低于Gemini的75.6。HLE（前沿科学推理超难题集）得分37.7，在四家中最低。

此外，V4-Flash版本也值得关注：284B总参数，13B激活参数，体量约为Pro版的18%，但同样支持1M上下文和Think/Think Max推理模式。官方称其在简单的Agent任务上与Pro版“旗鼓相当”。

DeepSeek将这次发布称为“预览版”，技术报告的标题里用的词是“Towards”——朝向，还在路上。CSA和HCA的设计逻辑今天已经公开，但这套稀疏训练机制在面对不同任务分布时具体表现如何，将是接下来开源社区需要共同探索和验证的事。

数据来源：DeepSeek官方公告《DeepSeek-V4 预览版：迈入百万上下文普惠时代》（2026年4月24日）；技术报告 DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence

来源:https://www.528btc.com//news/116385331.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：人工智能股票目前占标普500指数市值的45%，自ChatGPT推出以来上涨了20个百分点下一篇：Figure 股价下跌 9%，10 亿美元贷款里程碑遭遇市场波动

热门推荐

前端开发

html中的dialog标签怎么用？

HTML中的dialog标签怎么用？很多开发者第一次接触标签时，都会有个美丽的误会：以为把它写进HTML，页面就会自动弹出一个对话框。其实不然，这个标签的默认状态是“隐藏”的。你可以把它想象成一扇关着的门——写了标签只是造好了门框，想让门打开，你得要么手动加上 open 属性，要么用Ja vaS

热心网友

04.24

前端开发

如何为响应式下拉菜单添加可点击关闭的“X”按钮

本文介绍如何在基于 CSS 媒体查询和 checkbox 的响应式导航菜单中，通过重构 HTML 结构并结合轻量 Ja vaScript，实现点击汉堡图标展开菜单、再点击右上角“×”按钮即时收起的功能，解决纯 CSS 方案无法主动关闭的问题。你是否遇到过这样的场景？在移动端，用户点击汉堡图标打开了

热心网友

04.24

前端开发

如何用 Array.prototype.entries 配合 for...of 在遍历数组的同时获取索引和值

如何用 Array prototype entries 配合 for of 在遍历数组的同时获取索引和值 entries() 返回的是什么类型的迭代器先说清楚一个核心概念：Array prototype entries() 返回的，是一个标准的数组迭代器对象。这意味着，每次调用它的 next(

热心网友

04.24

web3.0

伊朗驳斥特朗普所谓分裂内斗

伊朗驳斥特朗普所谓“分裂内斗”论调：美方言论被指为心理投射近日，围绕伊朗国内局势的表述，美伊之间再次上演了一场外交言辞交锋。这场对话的焦点，似乎已悄然发生了转移。谈判重心的转向与核心关切的明确根据伊朗外交部发言人纳赛尔·卡纳尼的表态，一个关键信号已经释放：当前伊美谈判的重心，已不再局限于核问题

热心网友

04.24

前端开发

HTML怎么做复古风格_html复古怀旧风格页面实现【手册】

真正复古的CRT效果需叠加扫描线与亚像素抖动：用repeating-linear-gradient生成2px间距、rgba(0,0,0,0 08)透明度的黑色条纹层，并配以transform: translateX(0 5px) translateY(-0 3px)和steps(1)动画，辅以bac

热心网友

04.24