DeepSeek运行速度极快体验出色

时间：2026-06-29 15:12

DeepSeek发布DSpark推测性解码框架，采用半自回归生成与置信度调度验证，使Flash模型推理速度提升60%-85%，Pro模型提升57%-78%，并开源配套训练评估库DeepSpec，为大规模部署提供标准化工具。

转眼间六月即将结束，DeepSeek的新模型依然未见踪影。不过，昨日在官网对话时，一个细节让我颇感意外：刚按下回车键，回答便如流水般顺畅涌现，几乎察觉不到任何延迟。

仔细探查后发现，原来是 DeepSeek 推出了一款名为 DSpark 的框架，它能够将推理生成速度提升 60% 到 85%。这究竟是怎样一项技术突破？

通俗地说，DSpark 是一种“推测性解码”模块。其设计思路相当巧妙：设想你是一位总工程师，每写一行代码都需要亲自审批。而推测性解码的做法是，先让一个实习生快速起草几行代码，你只需扫一眼，正确的就直接通过，错误的再亲自修改。这样一来，审批次数从100次锐减到20次。该框架的核心，是引入一个轻量级的“草稿模型”来快速生成候选 token，然后由大模型进行批量验证。

两大核心创新

投机解码本身并非全新概念，但真正将其大规模部署到生产环境中，DSpark 确实实现了两项前人未能突破的成果。

第一项：半自回归生成架构。

传统的草稿模型通常分为两种：一种是“并行派”，能一次性预测整行文字，速度快，但后续内容容易偏差；另一种是“串行派”，逐字预测，准确率高，但速度较慢。DSpark 的策略是两者兼得：它主体上仍采用并行生成，但在每个小模块（block）内部，让 token 之间先进行互相确认后再输出。这样既保留了并行的速度，又有效降低了错误率。

第二项：置信度调度验证。

原有的投机解码有一个常见问题：草稿生成的 token，无论质量如何，都需要送进大模型验证。但在高并发场景下，GPU算力尤为宝贵。如果大量被大概率拒绝的 token 也排队等待验证，无疑会造成算力浪费。为此，DSpark 引入了一个“置信度头”，让草稿在生成 token 的同时，为每个 token 打分——评估其被采纳的概率。随后，一个实时调度器会监控 GPU 负载情况，动态决定本次需要验证多少个 token。高负载时减少验证，以保障整体吞吐量；低负载时增加验证，以充分发挥单个请求的性能。调度器根据当前硬件状态，为每个请求量身定制最佳方案。

架构运行机制

DSpark 架构图

我们来梳理一下它的工作流程：

步骤 1：目标模型首先运行一步，生成第一个 token D，作为草稿阶段的“锚点”。

步骤 2：以 D 为输入，DSpark 启动并行主干网络，一次性生成草稿 token EFGH，同时通过轻量级的串行头计算每个 token 的置信度 c1-c4。

步骤 3：硬件感知的前缀调度器（Hardware-Aware Prefix Scheduler）评估这些置信度，决定哪些保留，哪些舍弃。从图中可以看到，EF 被保留，G 被拒绝，H 被直接丢弃。最后，目标模型并行验证被调度的前缀，E 和 F 顺利通过，G 被拒绝后模型生成修正版 G* 来完成本轮。整个流程循环往复，每轮都有新的 token 被确认。

实际性能数据

相较于前一代的单 Token 基准（MTP-1），在维持总体吞吐量不变的前提下：

• Flash 模型：生成速度提升 60%-85%
• Pro 模型：生成速度提升 57%-78%

与其他投机解码方案（在 Qwen3 系列 4B、8B、14B 上的测试）相比：

• 比 Eagle3 提升 26.7%-30.9%
• 比 DFlash 提升 16.3%-18.4%

这里有一个关键指标叫“平均接受长度”，它衡量的是草稿模型生成的 token 中有多少被目标模型采纳。接受率越高，无效计算就越少，推理速度自然更快。DSpark 已实际部署在官网，难怪昨天我使用对话时，感觉它几乎无需思考就迅速回应。

为实现这种效果，DSpark 的调度器采用了异步机制，兼容零开销调度（ZOS）和连续 CUDA 图回放。它利用前两步的历史预测来决定当前的动态截断长度，既隐藏了调度延迟，又避免了 GPU 流水线停顿，同时确保了目标模型输出分布的完全无损还原。

在涵盖数学推理、代码生成和日常对话等多个领域的测试中，DSpark 大幅超越了当前最先进的自回归模型（Eagle3）和并行草稿模型（DFlash）。例如，在 Qwen3 系列（4B、8B、14B）目标模型上，其平均接受长度比 Eagle3 提升了 26.7% 到 30.9%，比 DFlash 提升了 16.3% 到 18.4%。

图片

相较于前一代部署的单 Token 生产基准（MTP-1），在保持相同总体吞吐量的情况下，DSpark 将用户的生成速度分别提升了 60%-85%（Flash 模型）和 57%-78%（Pro 模型）。

图片

图8 | 负载自适应吞吐量和验证预算。顶行（a，b）展示了不同系统并发水平下的聚合输出吞吐量；底行（c，d）展示了每个请求分配的平均目标验证预算。随着并发负载的增加，动态调度器会自动限制每个请求的验证长度，以防资源竞争。

配套基础设施：DeepSpec

与 DSpark 一同开源的还有 DeepSpec，这是一个用于训练和评估投机解码草稿模型的全栈代码库。它将整体流程划分为三个阶段：数据准备、训练和评估。

数据准备阶段需要下载提示词数据，利用推理引擎对目标模型重新生成答案，并构建好目标缓存。

训练阶段可通过一段简单的 bash 脚本启动，脚本会调用 train.py，并为每张可见 GPU 启动一个工作进程。用户可以通过指定 config_path，在 config/ 目录下选择不同算法和目标模型配置。项目也支持覆盖配置路径和缓存目录，以及使用 --opts 修改单个配置字段。

在硬件方面，DeepSpec 的默认配置面向单节点8卡环境。如果 GPU 数量较少，则需要相应调整可见 GPU 数量。

评估阶段则通过另一个 bash 脚本启动，它会使用训练好的草稿模型，在多个投机解码基准任务上进行测试。目前列出的评估数据集涵盖了数学推理、代码生成、对话能力和综合问答等多种类型。

项目内置了三种草稿模型：DSpark、DFlash 和 Eagle3。支持的目标模型系列包括 Qwen3 和 Gemma。需要注意的是，以 Qwen3-4B 配置为例，目标缓存大小约为38TB，开始运行前需要先评估存储资源是否充足。

DeepSpec 的价值在于，它将此前分散在各团队内部的工程经验汇聚成了一套标准化工具链。对于希望加快模型推理速度的团队而言，这意味着可以直接在成熟框架上训练定制草稿模型，省去大量重复的基础设施搭建工作。

总结

观察近期各家大模型的更新路径，可以发现一个有趣的分化：DeepSeek 似乎专注于大模型技术底层的深度优化，而其他厂商更多地向应用层面发力，比如通过后训练让 Agent 能执行更多现实世界的任务。像阿里的语言世界模型、智谱让大模型持续长时间运行以完成复杂任务，都是这一方向的典型代表。

这种局面其实很有意思。国内各家在不同方向上投入资源，并且都保持开源。这样一来，每个模型团队在训练时都能汲取各家之长，任何一方的技术突破都会迅速成为整个行业的“公共养分”。大家默契地共同推进一场分布式攻坚战，合力追赶国际前沿水平。

你也在等待 DeepSeek 的新模型发布吗？欢迎在评论区交流讨论。

参考资料

技术报告：《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》

GitHub：https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf

来源：https://cloud.tencent.com.cn/developer/article/2699861

DeepSeek

上一篇机器学习如何从数据中学习规则的全过程 下一篇RAG 不是把资料塞给大模型就完事了还需要后续步骤

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

AI教程 · 2026-06-29

Windows Docker Desktop RabbitMQ生产级部署完整指南

前言在 Windows 本地开发环境中，直接安装 RabbitMQ 确实颇为周折：需要单独配置 Erlang 运行环境、手动管理环境变量、服务启停全凭手工操作。更令人困扰的是，版本兼容冲突、端口占用、环境不一致等问题层出不穷。笔者见过不少开发者为搭建环境就得耗费整整半天时间。相比之下，借助 Do

AI教程 · 2026-06-29

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践

先分享一个切实感受。过去两年，我们与福建制造企业合作较为频繁，发现一个非常突出的现象：超过80%的企业官网，产品参数仍然存放在PDF或图片中。AI爬虫？根本无法抓取。这些企业技术实力不弱、资质证照齐全、应用案例也丰富，但在AI搜索这一全新战场上，它们几乎处于隐身状态。一、一个正在发生的行业变化 A

AI教程 · 2026-06-29

阿里云Token Plan团队版功能价格与省钱购买指南

阿里云百炼近期推出了名为“Token Plan 团队版”的全新服务，这一服务专为企业与开发者量身打造，定位为AI大模型订阅平台。通过引入Credits作为统一计量单位，将文本生成、图像生成等多模态AI能力纳入单一计费体系，同时无缝兼容主流AI编程工具及智能体（Agent）生态系统。其核心亮点包括：全

AI教程 · 2026-06-29

阿里云物联网.NET Core客户端位置信息上报

阿里云物联网平台的位置服务并非一个完全独立的功能模块。位置信息可包含二维坐标与三维坐标，而位置数据的来源本质上是借助设备属性进行上传。换言之，若要让设备上报位置，您需先将其视为一个普通属性进行处理。 1）添加二维位置数据操作过程十分简洁。进入数据分析 → 空间数据可视化 → 二维数据，点击添加，将

AI教程 · 2026-06-29

年阿里云服务器选型配置与网站部署全攻略

2026年，阿里云服务器生态已高度成熟，形成了清晰的轻量应用服务器与ECS云服务器两大产品阵营。无论你是计划搭建个人博客、企业官网，还是运营电商平台、进行应用开发，基本都能找到理想的解决方案。本指南将从服务器选型、配置选择、部署流程到安全运维，系统梳理2026年最实用的操作要点，帮助你少走弯路，让网