北大与DeepSeek联合开源大模型正式发布_AI热点日报

北大与DeepSeek联合开源大模型正式发布

类型：热点整理2026-06-30

在当前大模型推理领域，最令人困扰的莫过于“效率瓶颈”问题。2025年6月28日，北京大学与深度求索联合推出了大模型推理加速框架DSpark，并将其正式开源。该框架专为解决大语言模型在高并发推理场景下，因频繁执行前向计算而导致的响应延迟与算力浪费问题而设计。在标准的自回归生成流程中，每输出一个词元，系

在当前大模型推理领域，最令人困扰的莫过于“效率瓶颈”问题。2025年6月28日，北京大学与深度求索联合推出了大模型推理加速框架DSpark，并将其正式开源。该框架专为解决大语言模型在高并发推理场景下，因频繁执行前向计算而导致的响应延迟与算力浪费问题而设计。

在标准的自回归生成流程中，每输出一个词元，系统都需要投入全部算力资源，这直接拖慢了对话的实时响应速度。尽管目前“推测解码”是主流的提速手段，但传统方案存在明显短板：简单模型串联生成耗时过长，而并行模型在处理长序列文本时，候选接受率容易下降，导致大量算力被白白浪费。

针对这些痛点，DSpark推出了双重优化机制。在候选生成阶段，它采用半自回归架构，通过并行主干网络一次性输出高质量的基础特征，再辅以轻量化模块优化文本逻辑。仅需两层Transformer结构，就能达到优于五层并行模型的表现，在速度与质量之间实现了巧妙的平衡。在验证调度层面，引入置信度调度验证机制，由硬件感知前缀调度器实时判断算力负载，优先处理可靠性高的文本片段，从而最大限度减少无效计算。

经过通义千问3、Gemma4等主流模型在代码编写、数学推理及日常对话等多项场景下的严格测试，DSpark表现十分亮眼。相比Eagle3和DFlash这两类行业主流基线模型，它在单轮有效生成长度上拥有显著优势，特别是在长序列生成任务中，有效缓解了候选有效率衰减的问题。

在工程化落地方面，研发团队进行了深度的系统级优化，包括采用序列打包降低内存消耗、设计异步调度模式消除GPU流水线卡顿，并确保对主流CUDA硬件生态的兼容。目前，DSpark已率先部署于DeepSeek-V4-Flash与DeepSeek-V4-Pro预览版的服务引擎中。实测数据显示，无论响应速度标准如何设定，系统整体吞吐量均实现了跨越式增长。

值得一提的是，深度求索已全面开源了DSpark、DFlash及Eagle3的全套训练代码、模型权重及评估工具。这一举措将大幅降低行业高性能推理服务的部署成本，为大模型低成本普及提供了一套切实可行的技术范式。

来源：https://caip.org.cn/news/detail?id=47211

DeepSeek

延伸阅读

补充最近整理过的热点入口。

北大与DeepSeek联合开源大模型正式发布

相关热点

延伸阅读