北大与DeepSeek联合开源DSpark框架，大模型高并发推理效率跃升_AI热点日报

北大与DeepSeek联合开源DSpark框架，大模型高并发推理效率跃升

类型：热点整理2026-07-01

大模型要真正落地生产环境，最大的障碍之一便是高并发场景下的推理效率问题。近期，深度求索（DeepSeek）与北京大学联合发布了一项重磅开源成果——DSpark推理加速框架。该框架直击高并发场景的核心瓶颈，在保证相同吞吐量的前提下，单用户的生成速度提升了60%至85%。目前，它已率先部署于DeepSe

大模型要真正落地生产环境，最大的障碍之一便是高并发场景下的推理效率问题。近期，深度求索（DeepSeek）与北京大学联合发布了一项重磅开源成果——DSpark推理加速框架。该框架直击高并发场景的核心瓶颈，在保证相同吞吐量的前提下，单用户的生成速度提升了60%至85%。目前，它已率先部署于DeepSeek-V4-Flash和DeepSeek-V4-Pro的预览版服务引擎中，相关论文、训练代码和模型检查点也已在GitHub的DeepSpec项目中完全开源。这意味着，整个大模型产业的商业化落地，终于拥有了可直接利用的高性能推理底座。

北大联合DeepSeek开源DSpark框架，大模型高并发推理效率跃升

当前大模型规模化落地的最大痛点是什么？简而言之，就是高并发条件下推理效率难以提升。随着大模型在智能办公助手、在线客服、AI内容生成等领域的广泛使用，一台推理服务器往往需要同时应对数十甚至上百个用户的并发请求。传统的单token推测解码方案在高负载环境下极易出现性能瓶颈——用户请求排队等待算力调度，原本流畅的对话体验变得漫长而卡顿。这不仅让终端用户感到困扰，也迫使企业投入更多算力资源来维持基础服务，运营成本随之攀升。DSpark框架的推出，正是针对这一行业共性问题，从底层算法到工程实现实现了全面革新。

与DeepSeek此前广泛使用的单token推测解码基线MTP-1相比，DSpark的核心创新在于重构了整个推测解码的逻辑。它不再局限于传统的单步token预测，而是通过深度优化的多步并行推测机制，结合北京大学在分布式系统与并行计算领域的多年技术积累，实现了高并发场景下算力资源的动态调度。该框架能够根据实时用户请求负载，智能调整推测解码的步长与算力分配策略，有效避免传统方案在高并发时出现的资源争抢和无效计算问题。最终，在不降低整体系统吞吐量的前提下，单用户的生成速度直接提升了60%以上，部分优化场景甚至达到了85%的性能跃升。

目前，这套框架已经完成真实生产环境的验证，首先搭载于DeepSeek最新V4系列大模型预览版服务引擎中。大量内测用户的反馈显示：在高峰时段多人同时调用服务时，模型的长文本生成速度几乎没有出现明显的延迟增加。即便是生成数千字的长文档、复杂代码，也能保持流畅的逐字输出体验。过去高并发场景下“转圈等待”的不良体验终于成为历史。更关键的是，整套框架完全开源，所有大模型企业和开发者均可免费获取完整的代码与模型检查点，无需从零开始投入大量资源进行推理优化，直接就能将这套高性能方案部署到自己的服务中。

作为国内顶尖高校与头部大模型企业的一次产学研联合成果，DSpark的开源落地所带来的价值远不止技术本身。过去，许多中小模型团队受限于推理优化的技术门槛，很难在生产环境中达到头部厂商级别的响应速度。这套框架直接缩小了技术差距，让全行业都能共享顶尖的推理加速成果，大幅降低大模型服务的部署成本。

可以预见，随着DSpark框架在全行业的大规模普及，整个大模型产业的生产级落地门槛将进一步降低。更多高性价比的大模型服务将深入千行百业，为AI应用的普惠化发展注入全新动力。

来源：https://m.elecfans.com/article/8033684.html

DeepSeek

延伸阅读

补充最近整理过的热点入口。

北大与DeepSeek联合开源DSpark框架，大模型高并发推理效率跃升

相关热点

延伸阅读