游乐游手机版
首页/AI热点日报/热点详情

北大与DeepSeek联合开源推理框架DSpark算力突破

类型:热点整理2026-07-03
北大与DeepSeek联合开源推理加速框架DSpark,采用半自回归结构和置信度驱动动态验证机制,解决长文本生成中重复前向计算导致的算力浪费与延迟。在通义千问3等模型上测试,有效抑制候选有效率衰减,实现吞吐能力阶跃式提升。

AI推理的“慢”与“堵”,终于有了新解法

先挑个重点说:大模型在推理阶段出现的“卡顿式”延迟,一直是困扰业界的顽固痛点。尤其在高并发请求下,模型每生成一个词元,都必须重新激活全部计算资源从头执行前向传播——这好比你说出一个字就要重启整个大脑,效率之低可想而知。

6月28日,北京大学与深度求索(DeepSeek)联合发布了一款名为DSpark的推理加速框架,目前已正式开源。它的核心目标非常明确:解决长文本生成过程中,“重复执行前向计算”所导致的算力浪费与响应延迟问题。

当前主流的加速方案是推测解码,但其缺陷同样突出:轻量模型串行生成候选序列,时间成本偏高;并行架构虽能提升吞吐量,但一旦遇到长文本场景,候选序列的接受率就会明显下降。简而言之,大量算力被浪费在无效候选上。

双轨协同:一次搞定质量与速度的矛盾

那么DSpark是如何实现突破的呢?它选择了一条“双轨协同”的优化路线。

在候选生成阶段,该框架采用了一种半自回归结构。通俗来说:由并行主干网络一次性提取高质量语义特征,再叠加一个轻量级的逻辑增强模块进行局部精修。结果令人惊喜——仅用两层Transformer,就能超越五层并行模型的生成质量。这在推理速度与输出精度之间,找到了一个相当理想的平衡点。

而在验证调度环节,系统引入了置信度驱动的动态验证机制。具体而言,一个硬件感知型前缀调度器会实时监测GPU的负载状态,优先验证那些高置信度的候选片段。如此一来,冗余计算量被大幅压缩,整体效率自然显著提升。

实测表现:长文本不再“越跑越慢”

该框架已在通义千问3、Gemma4等主流模型上完成了多维度测试,覆盖代码生成、数学推理、日常对话等典型任务。与Eagle3和DFlash这两个行业标杆基线方案相比,DSpark在单轮有效生成长度指标上展现出明显优势。尤其针对超长文本生成,它有效抑制了候选有效率随长度增加而快速衰减的现象——这在以往几乎无法避免。

工程落地:不是纸上谈兵

DSpark的可贵之处在于它并非仅停留在实验室。研发团队实施了大量底层系统级优化:序列打包技术压缩显存占用,异步调度引擎消除GPU流水线阻塞,并且全面适配主流CUDA硬件生态。

目前,DSpark已率先集成到DeepSeek-V4-Flash与DeepSeek-V4-Pro预览版服务引擎中。实测数据表明,无论以何种响应延迟阈值衡量,系统整体的吞吐能力都实现了阶跃式提升——这并非百分之几的改善,而是质变级的跨越。

开源才是硬道理

深度求索已在GitHub上的DeepSpec项目中同步开源了DSpark、DFlash及Eagle3的完整训练代码、模型权重与评估工具链。这意味着,高性能推理服务的部署门槛正在被实质性降低。对于希望实现大模型规模化、低成本落地的团队而言,这无疑是一套可直接复用的技术底座。

来源:https://www.php.cn/faq/2751330.html?uid=1246273

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。