游乐游手机版
首页/AI教程/文章详情

DeepSeek运行速度极快体验出色

时间:2026-06-29 15:12
DeepSeek发布DSpark推测性解码框架,采用半自回归生成与置信度调度验证,使Flash模型推理速度提升60%-85%,Pro模型提升57%-78%,并开源配套训练评估库DeepSpec,为大规模部署提供标准化工具。

转眼间六月即将结束,DeepSeek的新模型依然未见踪影。不过,昨日在官网对话时,一个细节让我颇感意外:刚按下回车键,回答便如流水般顺畅涌现,几乎察觉不到任何延迟。

\

仔细探查后发现,原来是 DeepSeek 推出了一款名为 DSpark 的框架,它能够将推理生成速度提升 60% 到 85%。这究竟是怎样一项技术突破?

通俗地说,DSpark 是一种“推测性解码”模块。其设计思路相当巧妙:设想你是一位总工程师,每写一行代码都需要亲自审批。而推测性解码的做法是,先让一个实习生快速起草几行代码,你只需扫一眼,正确的就直接通过,错误的再亲自修改。这样一来,审批次数从100次锐减到20次。该框架的核心,是引入一个轻量级的“草稿模型”来快速生成候选 token,然后由大模型进行批量验证。


两大核心创新

投机解码本身并非全新概念,但真正将其大规模部署到生产环境中,DSpark 确实实现了两项前人未能突破的成果。

第一项:半自回归生成架构。

传统的草稿模型通常分为两种:一种是“并行派”,能一次性预测整行文字,速度快,但后续内容容易偏差;另一种是“串行派”,逐字预测,准确率高,但速度较慢。DSpark 的策略是两者兼得:它主体上仍采用并行生成,但在每个小模块(block)内部,让 token 之间先进行互相确认后再输出。这样既保留了并行的速度,又有效降低了错误率。

第二项:置信度调度验证。

原有的投机解码有一个常见问题:草稿生成的 token,无论质量如何,都需要送进大模型验证。但在高并发场景下,GPU算力尤为宝贵。如果大量被大概率拒绝的 token 也排队等待验证,无疑会造成算力浪费。为此,DSpark 引入了一个“置信度头”,让草稿在生成 token 的同时,为每个 token 打分——评估其被采纳的概率。随后,一个实时调度器会监控 GPU 负载情况,动态决定本次需要验证多少个 token。高负载时减少验证,以保障整体吞吐量;低负载时增加验证,以充分发挥单个请求的性能。调度器根据当前硬件状态,为每个请求量身定制最佳方案。


架构运行机制

\

DSpark 架构图

我们来梳理一下它的工作流程:

步骤 1:目标模型首先运行一步,生成第一个 token D,作为草稿阶段的“锚点”。

步骤 2:以 D 为输入,DSpark 启动并行主干网络,一次性生成草稿 token EFGH,同时通过轻量级的串行头计算每个 token 的置信度 c1-c4。

步骤 3:硬件感知的前缀调度器(Hardware-Aware Prefix Scheduler)评估这些置信度,决定哪些保留,哪些舍弃。从图中可以看到,EF 被保留,G 被拒绝,H 被直接丢弃。最后,目标模型并行验证被调度的前缀,E 和 F 顺利通过,G 被拒绝后模型生成修正版 G* 来完成本轮。整个流程循环往复,每轮都有新的 token 被确认。


实际性能数据

相较于前一代的单 Token 基准(MTP-1),在维持总体吞吐量不变的前提下:

• Flash 模型:生成速度提升 60%-85%
• Pro 模型:生成速度提升 57%-78%

与其他投机解码方案(在 Qwen3 系列 4B、8B、14B 上的测试)相比:

• 比 Eagle3 提升 26.7%-30.9%
• 比 DFlash 提升 16.3%-18.4%

这里有一个关键指标叫“平均接受长度”,它衡量的是草稿模型生成的 token 中有多少被目标模型采纳。接受率越高,无效计算就越少,推理速度自然更快。DSpark 已实际部署在官网,难怪昨天我使用对话时,感觉它几乎无需思考就迅速回应。

为实现这种效果,DSpark 的调度器采用了异步机制,兼容零开销调度(ZOS)和连续 CUDA 图回放。它利用前两步的历史预测来决定当前的动态截断长度,既隐藏了调度延迟,又避免了 GPU 流水线停顿,同时确保了目标模型输出分布的完全无损还原。

在涵盖数学推理、代码生成和日常对话等多个领域的测试中,DSpark 大幅超越了当前最先进的自回归模型(Eagle3)和并行草稿模型(DFlash)。例如,在 Qwen3 系列(4B、8B、14B)目标模型上,其平均接受长度比 Eagle3 提升了 26.7% 到 30.9%,比 DFlash 提升了 16.3% 到 18.4%。

图片图片

相较于前一代部署的单 Token 生产基准(MTP-1),在保持相同总体吞吐量的情况下,DSpark 将用户的生成速度分别提升了 60%-85%(Flash 模型)和 57%-78%(Pro 模型)。

图片图片

图8 | 负载自适应吞吐量和验证预算。顶行(a,b)展示了不同系统并发水平下的聚合输出吞吐量;底行(c,d)展示了每个请求分配的平均目标验证预算。随着并发负载的增加,动态调度器会自动限制每个请求的验证长度,以防资源竞争。


配套基础设施:DeepSpec

与 DSpark 一同开源的还有 DeepSpec,这是一个用于训练和评估投机解码草稿模型的全栈代码库。它将整体流程划分为三个阶段:数据准备、训练和评估。

数据准备阶段需要下载提示词数据,利用推理引擎对目标模型重新生成答案,并构建好目标缓存。

训练阶段可通过一段简单的 bash 脚本启动,脚本会调用 train.py,并为每张可见 GPU 启动一个工作进程。用户可以通过指定 config_path,在 config/ 目录下选择不同算法和目标模型配置。项目也支持覆盖配置路径和缓存目录,以及使用 --opts 修改单个配置字段。

在硬件方面,DeepSpec 的默认配置面向单节点8卡环境。如果 GPU 数量较少,则需要相应调整可见 GPU 数量。

评估阶段则通过另一个 bash 脚本启动,它会使用训练好的草稿模型,在多个投机解码基准任务上进行测试。目前列出的评估数据集涵盖了数学推理、代码生成、对话能力和综合问答等多种类型。

项目内置了三种草稿模型:DSpark、DFlash 和 Eagle3。支持的目标模型系列包括 Qwen3 和 Gemma。需要注意的是,以 Qwen3-4B 配置为例,目标缓存大小约为38TB,开始运行前需要先评估存储资源是否充足。

DeepSpec 的价值在于,它将此前分散在各团队内部的工程经验汇聚成了一套标准化工具链。对于希望加快模型推理速度的团队而言,这意味着可以直接在成熟框架上训练定制草稿模型,省去大量重复的基础设施搭建工作。


总结

观察近期各家大模型的更新路径,可以发现一个有趣的分化:DeepSeek 似乎专注于大模型技术底层的深度优化,而其他厂商更多地向应用层面发力,比如通过后训练让 Agent 能执行更多现实世界的任务。像阿里的语言世界模型、智谱让大模型持续长时间运行以完成复杂任务,都是这一方向的典型代表。

这种局面其实很有意思。国内各家在不同方向上投入资源,并且都保持开源。这样一来,每个模型团队在训练时都能汲取各家之长,任何一方的技术突破都会迅速成为整个行业的“公共养分”。大家默契地共同推进一场分布式攻坚战,合力追赶国际前沿水平。

你也在等待 DeepSeek 的新模型发布吗?欢迎在评论区交流讨论。

参考资料

技术报告:《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》

GitHub:https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf

来源:https://cloud.tencent.com.cn/developer/article/2699861
上一篇机器学习如何从数据中学习规则的全过程 下一篇RAG 不是把资料塞给大模型就完事了还需要后续步骤
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
Windows Docker Desktop RabbitMQ生产级部署完整指南
AI教程 · 2026-06-29

Windows Docker Desktop RabbitMQ生产级部署完整指南

前言 在 Windows 本地开发环境中,直接安装 RabbitMQ 确实颇为周折:需要单独配置 Erlang 运行环境、手动管理环境变量、服务启停全凭手工操作。更令人困扰的是,版本兼容冲突、端口占用、环境不一致等问题层出不穷。笔者见过不少开发者为搭建环境就得耗费整整半天时间。 相比之下,借助 Do

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践
AI教程 · 2026-06-29

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践

先分享一个切实感受。过去两年,我们与福建制造企业合作较为频繁,发现一个非常突出的现象:超过80%的企业官网,产品参数仍然存放在PDF或图片中。AI爬虫?根本无法抓取。这些企业技术实力不弱、资质证照齐全、应用案例也丰富,但在AI搜索这一全新战场上,它们几乎处于隐身状态。 一、一个正在发生的行业变化 A

阿里云Token Plan团队版功能价格与省钱购买指南
AI教程 · 2026-06-29

阿里云Token Plan团队版功能价格与省钱购买指南

阿里云百炼近期推出了名为“Token Plan 团队版”的全新服务,这一服务专为企业与开发者量身打造,定位为AI大模型订阅平台。通过引入Credits作为统一计量单位,将文本生成、图像生成等多模态AI能力纳入单一计费体系,同时无缝兼容主流AI编程工具及智能体(Agent)生态系统。其核心亮点包括:全

阿里云物联网.NET Core客户端位置信息上报
AI教程 · 2026-06-29

阿里云物联网.NET Core客户端位置信息上报

阿里云物联网平台的位置服务并非一个完全独立的功能模块。位置信息可包含二维坐标与三维坐标,而位置数据的来源本质上是借助设备属性进行上传。换言之,若要让设备上报位置,您需先将其视为一个普通属性进行处理。 1)添加二维位置数据 操作过程十分简洁。进入数据分析 → 空间数据可视化 → 二维数据,点击添加,将

年阿里云服务器选型配置与网站部署全攻略
AI教程 · 2026-06-29

年阿里云服务器选型配置与网站部署全攻略

2026年,阿里云服务器生态已高度成熟,形成了清晰的轻量应用服务器与ECS云服务器两大产品阵营。无论你是计划搭建个人博客、企业官网,还是运营电商平台、进行应用开发,基本都能找到理想的解决方案。本指南将从服务器选型、配置选择、部署流程到安全运维,系统梳理2026年最实用的操作要点,帮助你少走弯路,让网