北大与DeepSeek联合开源大模型推理框架DSpark 算力提速关键突破_AI热点日报

北大与DeepSeek联合开源大模型推理框架DSpark 算力提速关键突破

类型：热点整理2026-06-29

大模型推理效率的瓶颈，如今终于迎来了技术层面的突破。2025年6月28日，北京大学携手深度求索联合发布并开源了大模型推理加速框架——DSpark，其核心目标十分明确：解决大语言模型在高并发场景下，因频繁前向计算所导致的响应延迟与算力浪费问题。先来看一个关键痛点。在大模型标准的自回归生成流程中，每次输

大模型推理效率的瓶颈，如今终于迎来了技术层面的突破。2025年6月28日，北京大学携手深度求索联合发布并开源了大模型推理加速框架——DSpark，其核心目标十分明确：解决大语言模型在高并发场景下，因频繁前向计算所导致的响应延迟与算力浪费问题。

先来看一个关键痛点。在大模型标准的自回归生成流程中，每次输出一个词元，系统都需要消耗完整的算力资源。这一点直接制约了对话的实时响应速度——你说一句话，模型不得不逐字“思考”，每一步都是满负荷运算。尽管推测解码是目前主流的提速手段，但传统方案存在明显短板：简单模型串行生成耗时过长，而并行模型在处理长序列时，候选接受率容易下降，从而导致大量算力被白白浪费。

针对这些不足，DSpark引入了双重优化机制。在候选生成阶段，它采用半自回归架构——通过并行主干网络一次性输出高质量的基础特征，再借助轻量化模块来优化文本逻辑。这套方案有多高效？仅需两层Transformer结构，就能取得优于五层并行模型的表现，在速度与质量之间找到了一个巧妙的平衡点。在验证调度层面，框架内置了置信度调度验证机制：由硬件感知前缀调度器实时判断算力负载，优先处理可靠性高的文本片段，从而最大程度减少无效计算。

实际表现如何？在通义千问3、Gemma4等主流模型上，经过代码编写、数学推理、日常对话等多场景的严格测试，DSpark的成果相当亮眼。对比Eagle3和DFlash这两类行业主流基线模型，它的单轮有效生成长度优势明显；尤其在长序列生成任务中，有效缓解了候选有效率衰减这一长期存在的难题。

工程落地方面，研发团队做了深度系统级优化。包括采用序列打包来降低内存消耗、设计异步调度模式消除GPU流水线卡顿，同时对主流CUDA硬件生态进行了兼容性保障。目前，DSpark已经率先部署在DeepSeek-V4-Flash与DeepSeek-V4-Pro的预览版服务引擎中。实测数据表明，无论采用哪种响应速度标准，系统整体吞吐量都实现了跨越式增长。

值得关注的是，深度求索已在GitHub项目中开源了DSpark、DFlash及Eagle3的全套训练代码、模型权重及评估工具。这意味着，行业高性能推理服务的部署成本将大幅降低，为大模型的低成本普及提供了一条切实可行的技术路径。

来源：https://news.aibase.com/zh/news/29212

DeepSeek

延伸阅读

补充最近整理过的热点入口。

北大与DeepSeek联合开源大模型推理框架DSpark 算力提速关键突破

相关热点

延伸阅读