游乐游手机版
首页/AI热点日报/热点详情

DeepSeek V4新成果DSpark发布 推理速度更快

类型:热点整理2026-07-04
先给出几个核心结论。 就在昨天,DeepSeek 为 V4 模型带来了一个重要的新成果,这次聚焦于推理速度的优化。他们推出了一套名为DSpark的投机解码框架,同时开源了配套的训练框架DeepSpec。该论文由 DeepSeek 与北京大学共同完成。 近期使用 V4 的用户应该能明显感受到,生成文字

先给出几个核心结论。

就在昨天,DeepSeek 为 V4 模型带来了一个重要的新成果,这次聚焦于推理速度的优化。他们推出了一套名为DSpark的投机解码框架,同时开源了配套的训练框架DeepSpec。该论文由 DeepSeek 与北京大学共同完成。

近期使用 V4 的用户应该能明显感受到,生成文字的速度变快了,尤其是在并发请求不多的时候。这正是 DSpark 带来的改善。目前它已经部署在 V4 的 Flash 和 Pro 两个版本的线上流量中,取代了上一代的 MTP-1 方案。

需要特别说明:DSpark 并非一个全新架构的模型,而是在 V4 基础上增加了一个推测性解码模块。这次更新的重点在于工程落地,而非模型能力的迭代升级。

DeepSeek 在推理效率方面一直持续投入。V2 的 MLA 压缩了 KV cache,V3 引入了 MTP(多 token 预测),V3.2 采用了稀疏注意力。DSpark 是这条技术路线上最新的进展,也是首次直接应用于主力产品中。

报告链接:https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf

这项新成果从一个不同的角度来审视推理速度问题:

投机解码领域近两年一直在围绕“草稿生成的数量与准确性”进行竞争,而 DSpark 则将矛头指向了另一个被忽视的环节:验证过程。

先讲清楚:投机解码到底在做什么

大模型生成文本是逐字进行的:每生成一个 token,都需要将前面的全部内容重新计算一遍。输出越长,速度越慢,GPU 的利用率也越低。

投机解码(Speculative Decoding)是解决这一问题的标准思路:使用一个小而快的“草稿模型”一次性预测出后续若干个 token,然后由完整的“目标模型”并行验证这一批 token,接受其中正确的前缀,遇到第一个错误则将后面的全部丢弃。

打个比方,就像秘书先草拟一段话,老板快速审阅一遍,正确的留下,错误的地方自己修改。关键在于,验证是并行进行的,并且能在数学上保证结果与目标模型逐字生成完全一致。因此它是一种无损加速方式,质量不打折扣。

草稿模型如何构建是性能的关键。过去主要有两条技术路线:

  • 自回归草稿(代表模型 Eagle3):逐个 token 向后预测,每个 token 都基于前一个。准确率较高,但起草时间随长度线性增长,只能写短序列,网络层数也较浅。

  • 并行草稿(代表模型 DFlash):一次前向计算就能预测出整串 token,时间几乎与长度无关,可以写得很长。缺点是各位置独立预测,彼此不知道对方的结果,越往后越容易出现前后不一致。

并行草稿的这个缺点有一个形象的例子:当上下文同时支持“of course”和“no problem”两种续写时,独立预测可能会拼出“of problem”或“no course”。论文中将其称为 multi-modal collision,结果是越靠后的 token 越容易被拒绝,接受率快速下降。

DSpark 所做的两项工作,正好一项针对草稿生成,一项针对验证过程。

创新一:半自回归,为并行草稿补上“顺序”

前面说过,并行方法速度快但尾部不连贯,自回归方法连贯但速度慢,过去只能二选一。而 DSpark 试图兼顾两者。

具体做法是:繁重的计算仍由并行骨干网络一次性完成,然后在其后接一个轻量的串行模块,专门补充“前一个 token”的信息,从而弥补连贯性。

这个串行模块默认采用 Markov head:只参考紧邻的前一个 token,通过低秩分解(r=256)将转移关系压缩到极小规模,几乎不增加计算量。回到刚才的例子:一旦第一个位置确定为“of”,它就会在下一个位置提高“course”的概率、压低“problem”,从而使前后衔接起来。

论文也尝试了记忆更长的 RNN head,效果略好,但实现复杂且部署成本较高,最终默认仍采用 Markov head。

代价非常小。后续数据显示,这个串行模块给整轮延迟仅增加 0.2%–1.3%。

一个反直觉的发现:并行比自回归更准

按直觉来说,逐字向后生成的自回归方法应该比各自独立预测的并行方法更连贯、接受率更高。但论文的实测结果恰恰相反:并行草稿反而更准确。

原因有两方面。

第一个 token,并行天然占优。并行草稿的起草时间与长度无关,因此网络可以做得更深;自回归为了控制延迟只能做浅。结果在第一个位置上,DFlash 的接受率高于 Eagle3(数学 0.88 对 0.81,对话 0.72 对 0.53)。而投机解码是前缀验证,一旦第一个 token 被拒,整串都会作废,因此起始位置的权重最高。

越往后,独立预测的短板才会显现。位置 2 到 7,DFlash 持续衰减(代码从 0.87 降到 0.78,对话从 0.72 降到 0.63);自回归则能保持甚至回升(对话从 0.53 升到 0.74)。

DSpark 正是要汲取两者的长处:用深并行骨干拿下高起点(数学第一位达到 0.93),再用轻量串行模块弥补尾部的衰减。这套组合还非常节省参数。

草稿写得更长时,优势会更加明显。

创新二:让验证也能动态调度

前面都在改进草稿生成,论文的另一个核心创新在于验证环节。

草稿可以写得很长,但这是否意味着需要整串都进行验证?答案是否定的。

在高并发的线上环境中,验证并不免费。多验证一个大概率会被拒绝的 token,就会占用目标模型这一批的算力,而这块算力本可以用来服务其他正在等待的请求。负载低时影响不大,但负载一高就会造成明显浪费。

DSpark 的第一步,是为每个草稿位置配备一个置信度头(Confidence Head),用于预测该 token 通过验证的概率。

仅仅判断是否应该验证尾部 token,这一步就已经能带来显著效果。

不过,要让置信度真正用于调度,还需要一步。

调度需要的不是“哪个 token 更有把握”的排序,而是存活概率的绝对值:数值准确,才能计算出应该验证多长。神经网络给出的置信度通常偏乐观,因此论文又加入了一道称为 STS 的事后校准,将预测概率拉回到真实接受率,同时不改变原有的排序。

有了可靠的存活概率,最后一步才是核心:一个硬件感知调度器(Hardware-Aware Prefix Scheduler),根据当前负载动态决定每个请求需要验证多长。

在真实环境里,到底快了多少

先看离线评测。在 Qwen3 的 4B/8B/14B 以及 Gemma4-12B 四个目标模型上,DSpark 全面超越了自回归的 Eagle3 和并行的 DFlash。

具体来说,平均接受长度相比 Eagle3 提升了 26.7%–30.9%,相比更强的 DFlash 也提升了 16.3%–18.4%。

数据中还呈现出一条规律:结构化任务(数学、代码)的接受长度天然高于开放对话。以 Qwen3-4B 为例,数学三项平均 5.57、代码 5.12,对话只有 3.49。这正好解释了固定长度验证为什么是浪费:对话中那些大概率被拒绝的尾部 token,本就不该花费算力去验证。这也是上一节动态调度的意义所在。

论文中更重要的部分,是真实的生产环境数据。

结论是:在吞吐量持平的前提下,V4-Flash 上每个用户的生成速度提升了 60%–85%,V4-Pro 上提升了 57%–78%。

另一个场景更为关键。当对单用户速度要求非常严格时(例如 120 tok/s/user),上一代 MTP-1 已接近极限、只能服务很少的并发,而 DSpark 仍能维持。此时两者的相对吞吐差距可达 +661%。论文也强调,这个数字更多是说明 DSpark 将可用的交互档位向外扩展了,而非真的有六倍提升。

它是如何做到的?请看负载自适应这张图。

简单来说,就是空闲时多验证、多接受,繁忙时收紧,把算力优先留给真正在排队的请求。

写在最后

论文也提到了不足之处:DSpark 再省,起草的成本仍然无法避免。并行骨干生成第一块草稿是固定开销,遇到本身难度高、接受率低的复杂请求时,这部分前期投入可能难以收回。团队给出的后续方向,是让草稿模型也能根据难度提前停止。

总体来看,这是 DeepSeek 在推理加速领域的又一次推进,并且首次直接落地到 V4 主力产品中。

来源:https://www.bestblogs.dev/article/08d6d8e7?utm_source=rss&utm_medium=feed&utm_campaign=resources&entry=rss_article_item

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。