首页 游戏 软件 资讯 排行榜 专题
首页
AI
DeepSeek下一代模型发布,北大实习生技术立大功

DeepSeek下一代模型发布,北大实习生技术立大功

热心网友
75
转载
2026-02-27

DeepSeek发布下一代技术!北大实习生立功

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

编译 | 陈骏达

DeepSeek又找到突破大模型推理瓶颈的新方法了!

智东西2月27日报道,昨天,DeepSeek发布了一项名为DualPath的全新推理系统方案,直指当前大语言模型在智能体应用场景下遭遇的短板——KV缓存存储I/O瓶颈。该方案通过引入双路径加载机制,显著提升系统吞吐量,基本消除了KV缓存的I/O开销。

DualPath的核心创新在于开辟了一条从存储直通解码引擎的新通道。KV缓存不再仅由预填充引擎加载,而是可以加载至解码引擎,再通过计算网络中的RDMA高效传输至预填充端。这一设计不仅缓解了存储端的压力,还避免了网络拥塞,确保延迟敏感型任务不受干扰。

与全局调度器协同后,DualPath实现了动态平衡两端负载,进一步提升资源利用率。在真实智能体工作负载测试中,DualPath将离线推理吞吐量提升最高达1.87倍,在线服务吞吐量平均提升1.96倍。

在大规模可扩展性方面,DualPath系统在最多1152张GPU上进行了验证。离线推理从2P4D扩展到48P96D实现近线性扩展,任务完成时间基本保持一致。

值得一提的是,与之前DeepSeek发表的许多研究论文类似,这篇论文的第一作者吴永彤同样是DeepSeek的实习生。吴永彤目前在北京大学攻读博士学位,师从金鑫教授,主要研究大模型基础设施相关课题,自2025年8月以来便在DeepSeek系统组工作,曾参与DeepSeek-V3.2的研究。

论文链接:

https://arxiv.org/pdf/2602.21548

一、智能体I/O瓶颈凸显,传统设计成本高昂

随着智能体应用普及,多轮推理已成常态。智能体通过工具与外部环境进行数十甚至数百轮交互,上下文跨轮累积到极长长度。由于多轮、短追加的特性,KV缓存命中率高达95%以上,加载效率取代计算成为性能主导因素。

现有系统采用分层预填充、预填充-解码分离和外部KV缓存存储架构。但问题在于:预填充引擎存储网卡带宽持续饱和,而解码引擎存储网卡带宽大量闲置。这种不平衡暴露了根本性低效——存储网络带宽利用不均,而单纯增加预填充端带宽成本高昂。

DeepSeek发布下一代技术!北大实习生立功

现有瓶颈与DualPath

DualPath的提出正是为了解决上述问题,其核心洞察在于打破“KV缓存加载必须以预填充为中心”的传统设计。

现有系统仅通过存储到预填充引擎的单一路径加载,导致预填充端带宽饱和而解码端带宽闲置。DualPath则增加了存储到解码路径,将KV缓存先加载至空闲的解码引擎,再通过RDMA高效传输给预填充引擎。

这一模式聚合了所有存储网卡带宽,重新分配网络负载,从根本上缓解预填充端的I/O瓶颈。

不过,该设计仍然面临两大挑战:首先,引入额外的加载路径会产生复杂的流量模式,并可能与模型执行中的集体通信原语产生潜在干扰,若管理不当会降低整体性能。

其次,系统必须在动态和异构的工作负载下在线决定使用哪条加载路径,并同时确保GPU和网卡之间的负载均衡。

二、三大核心组件打造DualPath,新组件并未引入瓶颈

那么,DeepSeek究竟是如何解决这些挑战的呢?DualPath使用了两项广泛使用的技术:

PD分离,将提示词和解码处理分开以提高效率。

分层预填充,避免了预填充引擎上的HBM瓶颈,并提高了GPU利用率。

而DualPath主要由三大核心组件构成。推理引擎是基础执行单元,每个引擎管理一个GPU,并明确区分为专司预填充计算的预填充引擎和负责解码生成的解码引擎。

流量管理器内嵌于每个引擎,统筹所有数据移动:包括主机与设备间的内存拷贝、预填充与解码引擎之间的KV缓存传输,以及通过存储网卡进行的KV缓存持久化读写。其采用以计算网卡为中心的流量管理策略,确保KV缓存流量不会干扰延迟敏感的模型集体通信。

请求调度器作为中央决策单元,接收客户端请求并智能分发给各引擎,同时动态决策每条请求采用传统存储到预填充路径还是新型存储到解码路径,实现双路径间的流量均衡与全局负载优化。

DeepSeek发布下一代技术!北大实习生立功

在具体实现上,DualPath在每个预填充引擎和解码引擎上预留少量DRAM作为缓冲区。对于预填充端读路径,命中token的KV缓存首先从存储读入预填充引擎缓冲区,然后按层流式传入预填充引擎的HBM,与未命中token的KV计算过程重叠执行。随后,完整的提示词KV会被传输至解码引擎缓冲区,供解码阶段使用。

对于解码端读路径,命中KV首先加载到解码引擎缓冲区,在预填充引擎执行预填充时逐层通过RDMA读取,同时与计算重叠。未命中KV计算完成后回传至解码引擎,与命中KV合并形成完整提示词缓存。

无论哪条路径,数据传输都采用分层流式方式,以缓解HBM容量压力并实现计算与通信的重叠。解码阶段开始前,解码引擎将完整KV从缓冲区传入HBM,完成主机到设备拷贝后释放CPU内存;在生成过程中,每当累积满一个固定大小的token块,就立即持久化到存储。

为了验证该架构不会引入新的瓶颈,论文对计算网卡带宽和DRAM带宽进行了系统性分析。通过建立每对预填充引擎—解码引擎之间的流量模型,并假设负载均衡与网络无拥塞,作者推导出在一定的P/D范围内,计算网卡、PCIe以及DRAM均不会成为瓶颈。

在典型配置下,可行的P/D区间覆盖大多数实际部署比例,说明系统能够在充分利用所有存储网卡带宽的同时,保持计算与内存资源的稳定运行。

三、系统落地仍面临三大挑战,采用计算网卡为中心的流量管理

然而,在真实系统中落地双路径架构仍面临三项核心挑战。首先是细粒度数据传输。分层执行缓解了HBM容量压力,但也将KV拆分为大量小块,需要在存储、主机DRAM和GPUHBM之间高效搬运,同时控制软件与硬件开销。

其次是流量隔离。新增的KV传输可能干扰模型执行中的延迟敏感型集体通信,若缺乏隔离机制,将直接推高端到端推理延迟。

最后是动态负载均衡。由于系统存在两条读取路径,调度器必须结合磁盘队列长度、GPU负载和请求特征动态决策,否则容易再次形成局部瓶颈。

为避免KV传输干扰模型通信,系统采用以计算网卡为中心的流量管理机制。所有进出GPU的流量,包括H2D/D2H拷贝,统一经由与GPU配对的计算网卡,并通过GPUDirectRDMA完成传输,使全部数据流汇聚到计算网络,从而利用硬件QoS能力进行优先级隔离。

在基于InfiniBand的部署中,模型推理通信被映射到高优先级虚拟通道,KV传输映射到低优先级通道,并通过加权轮询保障前者带宽。这样既保护了延迟敏感通信,又允许KV流量利用空闲带宽。实验还表明,在大量小块场景下,其更适合细粒度传输。

在调度层面,系统采用两级自适应机制。引擎间调度为请求选择预填充引擎—解码引擎对并确定读取路径,通过token数量与磁盘队列长度实现负载均衡;解码引擎调度分为跨组与组内两阶段,在平衡总token数的同时考虑HBM容量约束,避免资源过载。

引擎内调度主要作用于预填充引擎,通过估计注意力层计算量设定“计算配额”,以FIFO方式组批,必要时对请求分块,使各GPU计算时间趋于一致,减少同步等待。

总体而言,双路径加载聚合存储带宽,理论分析保证系统无新增瓶颈,计算网卡中心化设计实现严格流量隔离,自适应调度则维持负载均衡与低延迟,共同构成一个高吞吐、可扩展的推理架构。

四、实验证明KV缓存I/O开销已基本消除,在千卡集群上实现线性扩展

为验证DualPath带来的性能提升,DeepSeek在一个由InfiniBand互连的GPU服务器集群上进行实验,评估了三个模型的表现:DeepSeek V3.2 660B、DS 660B的27B缩小版本以及作为稠密模型代表的Qwen2.5-32B。

实验结果显示,DualPath在更大的批次规模和更长的最大有效上下文长度下获益更加显著。在DS 660B上,DualPath相较于DeepSeek内部的基线推理框架最高实现1.87倍加速,且性能接近假设零I/O开销的理论性能上限,说明KV缓存I/O开销已基本被消除。

DeepSeek发布下一代技术!北大实习生立功

在DS 27B上,DualPath相较于DeepSeek内部的基线推理框架最高提升1.78倍。

在改变追加长度和生成长度时,DualPath在短token场景下优势更明显。随着追加长度增加,GPU计算压力增大,而生成长度增加则因预填充间隔变长,降低了KV缓存加载压力。

图9显示,随着追加长度增长,未采用DualPath的推理引擎表现和DualPath的性能越发接近,表明系统瓶颈逐渐转向GPU计算。在不同追加规模下,DualPath相较于基线实现1.82至1.99倍加速,生成长度扩展趋势类似。

在不同预填充-解码比例下,DualPath均显著优于基线,平均实现1.64倍加速,最高达2.46倍。基线推理引擎只能使用预填充节点的存储带宽,而DualPath能够利用所有节点的带宽,验证了在智能体场景下存储带宽是主要瓶颈。

在在线服务评估中,DualPath在智能体请求到达速率上显著优于基线,在DS27B和DS660B上分别达到1.67倍和2.25倍提升。

DeepSeek发布下一代技术!北大实习生立功

在负载均衡方面,DualPath显著改善了存储网卡和注意力层执行时间的均衡性。相较于轮询调度,调度算法将存储网卡负载均衡指标从1.53优化至1.18。同时,在任务前5%执行阶段,将注意力层最大/平均执行时间比控制在1.06以内,减少了GPU空闲气泡。

在大规模可扩展性方面,DualPath系统在最多1152张GPU上进行了验证。离线推理从2P4D扩展到48P96D实现近线性扩展,任务完成时间基本保持一致。

DeepSeek发布下一代技术!北大实习生立功

在线服务中,44P88D配置在保持相似延迟的同时,将吞吐量提升22倍。所有实验中调度器CPU占用低于10核,表明其不是性能瓶颈。

大规模部署不仅减少资源碎片化,还为并行度和P/D比例调优提供更大灵活性,同时在突发在线请求场景下提供更多调度空间以缓解排队延迟。

结语:智能体推理迎来提效利器,未来或引入自适应机制

随着DualPath论文的发布,它有望为业界在处理大规模智能体推理任务时提供一个新的思路。对于正苦于KV缓存I/O压力的开发者与研究者而言,这或许是一个值得关注的方向。

不过,DeepSeek的研究团队也坦言,离线推理的工作负载高度动态,下一步需要研究更自适应和更灵活的并行度和P/D比例配置方法,例如模拟器或在线调整机制。

来源:https://tech.ifeng.com/c/8r5KhQVOzqO
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

阅文集团侯晓楠谈AI定位:助手、引擎与桥梁
科技数码
阅文集团侯晓楠谈AI定位:助手、引擎与桥梁

在近日召开的2025阅文IP盛典举办产业影响力论坛上,阅文集团CEO兼总裁侯晓楠谈到阅文对AI产业定位:“AI越强大,人类的原创就越珍贵。阅文对AI的定位就是三句话:在文字领域,AI是助手;在视觉领

热心网友
03.31
领益智造2026蓝图:加速AI终端、人形机器人等新赛道布局
科技数码
领益智造2026蓝图:加速AI终端、人形机器人等新赛道布局

3月30日,领益智造(002600 SZ)发布《致股东信》称,2025年,公司围绕“战略定力、固本培元”的方针,与科技同频共振、顺势而为,坚守实业初心、秉持长期主义,在行业变革与市场挑战中勇毅攻坚,

热心网友
03.30
AI for EDA提速25倍:论芯率如何以AI读懂芯片协议文档
AI
AI for EDA提速25倍:论芯率如何以AI读懂芯片协议文档

允中 发自 凹非寺量子位 | 公众号 QbitAI当所有人在讲AI for EDA的故事,论芯先跑进了产线芯片设计的复杂度每两年翻一番,但有一个环节的效率几乎没变过——读文档SoC验证工程师,在写下

热心网友
03.29
李强调Token非AI产品唯一标尺,腾讯对话揭示更多衡量维度
科技数码
李强调Token非AI产品唯一标尺,腾讯对话揭示更多衡量维度

要说最近火爆的“小龙虾”OpenClaw热潮从何时开始?或许要追溯到腾讯大厦门口“装龙虾”的长队。作为最早布局OpenClaw的互联网大厂之一,腾讯目前一口气推出了三款差异化龙虾产品;而龙虾的火爆和

热心网友
03.29
对标英伟达EgoScale:清华系星忆科技首轮融资突围
科技数码
对标英伟达EgoScale:清华系星忆科技首轮融资突围

文|任倩具身数据层的全球竞赛正在迅速升温。NVIDIA Research在2026年发布EgoScale数据与训练框架,在Ego-centric人类操作视频上训练VLA模型,用 20,854小时带动

热心网友
03.27

最新APP

你说我猜
你说我猜
休闲益智 03-31
史莱姆农场
史莱姆农场
休闲益智 03-31
凡人传说
凡人传说
角色扮演 03-30
恶魔秘境
恶魔秘境
角色扮演 03-29
猫和老鼠华为
猫和老鼠华为
休闲益智 03-29

热门推荐

14岁小S女儿反驳读书无用论:别把嫁豪门当退路
娱乐
14岁小S女儿反驳读书无用论:别把嫁豪门当退路

小S的三个女儿受人关注,一家人的一举一动都能引起大家的讨论与吐槽。尤其是她的三个漂亮女儿,大女儿许曦文20岁,在南加州读大学。二女儿许韶恩18岁,开始在贵圈发展,许老三许曦恩14岁,也开始频繁露面。

热心网友
03.31
华硕27吋QHD 180Hz IPS显示器PG27QFT2C/QFT1B选购指南
礼仪与书信
华硕27吋QHD 180Hz IPS显示器PG27QFT2C/QFT1B选购指南

IT之家 3 月 31 日消息,华擎 ASRock 现已推出两款幻影电竞系列显示器 PG27QFT2C 和 PG27QFT1B。两款型号拥有一致的核心规格,均采用 27 英寸 QHD (2560×1

热心网友
03.31
iPhone 20预测:1.1毫米极窄边框与四曲屏将成最大亮点
网络安全
iPhone 20预测:1.1毫米极窄边框与四曲屏将成最大亮点

3月31日消息,据报道,苹果20周年纪念版iPhone 20将采用1 1毫米极窄屏幕边框,搭配极致圆润的边缘处理与四曲面瀑布屏设计,整机视觉效果接近无缝玻璃面板。此次曝光的设计核心为真全面屏形态,为

热心网友
03.31
QQ邮箱官方登录入口与网页版最新地址
电脑教程
QQ邮箱官方登录入口与网页版最新地址

QQ邮箱网页版最新最新地址是https: mail qq com,支持多方式快捷验证、跨终端实时同步、大文件智能传输、智能地址分类管理及多重安全防护。QQ邮箱登录入口正式 QQ邮

热心网友
03.31
vivo X300系列正式发布:售价4999元起,专业影像旗舰
科技数码
vivo X300系列正式发布:售价4999元起,专业影像旗舰

2026年3月30日,vivo于云南丽江正式发布vivo X300系列全新旗舰手机——vivo X300 Ultra、vivo X300s,重塑移动影像新高度。打破拍照与摄像的设备鸿沟,带来手机中的

热心网友
03.31