首页 游戏 软件 资讯 排行榜 专题
首页
AI
DeepSeek新框架V4:用闲置网卡加速,提升智能体推理性能

DeepSeek新框架V4:用闲置网卡加速,提升智能体推理性能

热心网友
31
转载
2026-02-27

henry 发自 凹非寺
量子位 | 公众号 QbitAI

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

DeepSeek这小子最精了,当全世界都在盯着他的GitHub仓库,等待V4时——

他和北大、清华在ArXiv悄咪咪地上了一篇论文,发布了一个全新的针对智能体的推理框架:DualPath



而且就跟前几天曝出的算力话题相关。

DualPath的核心在于解决Agent长文本推理场景下的I/O瓶颈,通过优化从外部存储加载KV-Cache的速度,确保计算资源不被存储读取拖累。

它改变了传统的存储至预填充引擎(Storage-to-Prefill)单路径加载模式,引入了存储至解码引擎(Storage-to-Decode)的第二条路径。

通过利用解码引擎闲置的存储网卡(SNIC)带宽读取缓存,并配合高速计算网络(RDMA)将其传输至预填充引擎,DualPath实现了集群存储带宽的全局池化与动态负载均衡。

在660B规模的生产级模型的实测中,DualPath表现惊人:

离线推理吞吐量提高了1.87倍,在线服务吞吐量平均提升1.96倍



在高负载下,首字延迟(TTFT)大幅优化,而 Token间的生成速度(TPOT)几乎不受任何干扰。

接下来,我们一起来看。

双路径加载 (Dual-Path Loading)

总的来说,DualPath是一个专门为智能体系统设计的推理框架,它的核心洞见是——

KV-Cache的加载不必以预填充为中心

在以往的理解中,谁负责计算谁就去搬数据。但DualPath认为,缓存可以先加载到解码引擎中,再通过高性能RDMA网络传输至预填充引擎。

通过在两条路径间动态选择,DualPath重新分配了网络负载,缓解了预填充侧的带宽压力。

那么,为什么要费这么大劲去“绕路”?

之所以这样做,是因为在当前的智能体应用中,对话轮数多且上下文长,KV-Cache命中率通常高达95%以上。

这意味着,每一轮对话都要搬运海量的“旧记忆”,推理性能的瓶颈已经从“计算”转移到了“搬运”上



在现有的预填充-解码分离(PD-disaggregated)架构中,所有的加载任务都拥挤在预填充引擎(PE)的存储网卡上,导致带宽瞬间饱和;

与此同时,解码引擎(DE)的存储网卡却在闲置,造成了严重的资源错配。



更进一步的,当前GPU算力的增长远快于网络带宽和HBM容量的增长,也加剧了I/O限制。

正如英伟达首席科学家Bill Dally、谷歌架构师Jeff Dean等大佬反复强调的:计算是免费的,但数据移动是昂贵的。

针对这些问题,DualPath构建了创新的双路径模型:



路径 A(传统):存储→PE,缓存直接读入预填充引擎。路径 B(新增):存储→DE→PE,缓存先读入解码引擎的缓冲池,再通过RDMA传输给预填充引擎。

在架构组成上:

推理引擎: 每个引擎管理一块GPU,严格区分为预填充(PE)和解码(DE)。流量管理器: 负责H2D/D2H拷贝、引擎间传输以及SNIC存储读写。中央调度器: 担任“大脑”角色,实时决策每一条请求该走哪条路,从而实现全局带宽的最大化利用。

核心技术方案:存储至解码路径

如上所述,DualPath推理系统的核心在于打破了传统的“存储至预填充”单路径模式,创新性地引入了“存储至解码”路径

该设计允许KV-Cache先加载至解码引擎(DE),再通过高带宽计算网络(RDMA)无损传输给预填充引擎(PE)。

通过在两条路径间动态分配负载,系统将集群中原本闲置的解码侧存储网卡(SNIC)带宽彻底释放,构建起一个全局可调度的存储I/O资源池。

具体来说,为了支持层级流式处理,DualPath在PE和DE上均分配了少量DRAM缓冲区(PE/DE Buffer),并针对不同阶段设计了精细的数据流:

PE读取路径: 命中Token的KV-Cache从存储读入PE缓冲区。在每层计算前,该层缓存传输至PE HBM,与计算过程重叠执行。计算完成后,全量KV-Cache传回DE缓冲区以形成完整上下文。DE读取路径: KV-Cache直接进入DE缓冲区。在PE预填充期间,对应层的缓存跨节点传输至PE HBM(计算重叠)。计算结束后,PE仅需传回新生成的KV-Cache片段与DE原有缓存合并。解码与持久化: DE缓冲区接收完整KV-Cache后启动解码,执行H2D拷贝并随后释放CPU内存。虽然引入缓冲增加了DRAM压力,但能显著降低GPU显存占用并优化首字延迟(TTFT)。生成过程中,每累积满一个Block(如 64 Token)即触发异步持久化。

但就像前面提到的,“绕路”加载会带来新问题:比如搬运缓存的流量撞上了模型计算的通信,怎么办?

对此,DualPath给出了两套优化方案:

首先是以计算网卡(CNIC)为中心的流量管理,强制所有流量通过配对的CNIC走GPUDirect RDMA路径。

在InfiniBand或RoCE网络中,利用虚拟层(VL/TC)技术,将推理通信设为“最高优先级”并预留99%带宽,让缓存搬运只能在间隙中“蹭”带宽,确保互不干扰。

其次是自适应请求调度器: 调度器会盯着每个节点的磁盘队列长度和Token数。系统会优先将任务分配给I/O压力较小且计算负载较轻的节点,从根本上避免单侧网卡或单点计算资源的拥塞。

在实验阶段,DualPath在DeepSeek-V3、Qwen等模型上进行了测试,场景覆盖了离线Rollout和在线服务。

如开头所说,在离线推理中,DualPath 将端到端吞吐量提高了高达1.87倍,在线服务吞吐量平均提升1.96倍,显著降低了首字延迟(TTFT),且保持了极其稳定的Token间延迟(TBT)。

总的来说,DualPath 证明了通过重新思考数据加载路径可以有效突破当前大模型推理的I/O墙。

它成功利用了解码引擎原本被浪费的I/O带宽,配合自适应调度和严谨的流量隔离机制,在不增加硬件成本的前提下,大幅提升了智能体LLM推理系统的效率。

One more thing

这篇论文的第一作者吴永彤,是北京大学的博士生,师从金鑫教授。

他的研究方向聚焦于系统软件与大模型基础设施(LLM Infrastructure),尤其是推理系统的工程优化与规模化部署。



他目前在DeepSeek系统组,参与下一代模型的推理基础设施建设,负责大规模软件系统在多硬件平台上的性能优化。



此前,他还曾在腾讯、华盛顿大学,微软亚研院等机构实习。

[1]https://arxiv.org/pdf/2602.21548

[2]https://jokerwyt.github.io/

来源:https://www.163.com/dy/article/KMPMQMAL0511DSSR.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

Intel发布Wi-Fi与蓝牙新驱动:优化AX200/201稳定与性能
娱乐
Intel发布Wi-Fi与蓝牙新驱动:优化AX200/201稳定与性能

快科技3月26日消息,Intel发布了新版Wi-Fi和蓝牙驱动程序,版本号均为24 30 1,适用于64位Windows 10和Windows 11系统,主要提升网络连接稳定性与性能表现。Wi-Fi

热心网友
03.29
Intel Wi-Fi与蓝牙新驱动发布:AX200稳定性提升,移除问题支持
礼仪与书信
Intel Wi-Fi与蓝牙新驱动发布:AX200稳定性提升,移除问题支持

快科技3月26日消息,Intel发布了新版Wi-Fi和蓝牙驱动程序,版本号均为24 30 1,适用于64位Windows 10和Windows 11系统,主要提升网络连接稳定性与性能表现。Wi-Fi

热心网友
03.26
英伟达“最后一公里”破局:中科曙光技术路径深度解析
科技数码
英伟达“最后一公里”破局:中科曙光技术路径深度解析

2026 年 3 月 12 日,中科曙光正式发布首款全栈自研 400G 原生无损 RDMA 高速网络 - scaleFabric,填补国内大规模智算集群领域空白。据悉,该产品从底层 IP 到上层管

热心网友
03.12
国产RDMA网络新突破:中科曙光首发ScaleFabric,部分指标超英伟达方案
科技数码
国产RDMA网络新突破:中科曙光首发ScaleFabric,部分指标超英伟达方案

3月12日,中科曙光(603019 SH)宣布实现国产高端原生RDMA技术重大突破,正式发布首款全栈自研400G无损高速网络——scaleFabric。该产品基于原生RDMA架构,从底层的112G

热心网友
03.12
映泰H810MT-E 2.0主板发布:PCIe Gen5×16插槽性能解析
娱乐
映泰H810MT-E 2.0主板发布:PCIe Gen5×16插槽性能解析

IT之家 3 月 7 日消息,映泰 BIOSTAR 昨日宣布推出 H810MT-E 2 0 主板,这一型号面向日常计算工作负载,瞄准办公生产力、家庭娱乐等使用场景。H810MT-E 2 0 采用 2

热心网友
03.07

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

《全面战争:中世纪3》:只怀旧做不成好游戏经典需要现代化
游戏资讯
《全面战争:中世纪3》:只怀旧做不成好游戏经典需要现代化

《全面战争:中世纪3》:经典延续,如何平衡怀旧与创新? 近期,《全面战争:中世纪3》的项目负责人帕维尔·沃伊斯坦然指出,要打造一款真正优秀的续作,绝不能仅仅依赖对前作模式的简单复刻。这一观点引人深思——尽管《中世纪2:全面战争》至今仍在策略游戏爱好者心中占据着经典地位,但开发团队此次显然决心跳出“照

热心网友
04.02
雷鸟创新AWE斩获艾普兰创新奖 蝙蝠侠限定款国内首秀
科技数码
雷鸟创新AWE斩获艾普兰创新奖 蝙蝠侠限定款国内首秀

雷鸟X3 Pro斩获AWE艾普兰创新大奖,开启全民AR生活新篇章 在上海新国际博览中心隆重揭幕的2026年中国家电及消费电子博览会(AWE)上,前沿AI科技与未来生活愿景激情碰撞。全球消费级AR领导品牌雷鸟创新,以其里程碑式的表现,定义了行业发展的新方向。 通过“顶尖硬件科技+顶级文化IP”的双轨战

热心网友
04.02
AWE探展MOVA:31款创新产品集中亮相 重新定义智慧生活新体验
科技数码
AWE探展MOVA:31款创新产品集中亮相 重新定义智慧生活新体验

借力AWE2026“一展双区”,MOVA双区协同、震撼登场 备受瞩目的科技盛会——2026年中国家电及消费电子博览会(AWE),于3月12日至15日在上海盛大举办。本届AWE展会首次创新采用“一展双区”的展览模式,主会场位于上海新国际博览中心,分会场则设于上海东方枢纽国际商务合作区,两大展区高效联动

热心网友
04.02
DNF2026冰结技能数据是怎样的-2026DNF冰结技能数据详情
游戏攻略
DNF2026冰结技能数据是怎样的-2026DNF冰结技能数据详情

冰结师技能全解析 踏入2026年,《地下城与勇士》中的冰结师职业,其技能体系已构建得更为成熟与强大。无论是在副本中高效清理海量怪物,还是在决斗场与高手玩家周旋,这个职业都能凭借其独特的冰霜艺术掌控战局。刷图时,酷寒的范围法术可瞬间清屏;而在PVP竞技中,一套将冻结控制与瞬间爆发完美衔接的连招,往往让

热心网友
04.02
iPhone 18 Pro设计挤牙膏了 继续用前代模具
科技数码
iPhone 18 Pro设计挤牙膏了 继续用前代模具

iPhone 18 Pro系列模具不变,屏幕形态将与iPhone 17 Pro保持一致 备受期待的屏下Face ID组件小型化设计与灵动岛区域缩窄方案,预计将被推迟至后续迭代机型中正式应用。 近期,关于iPhone 18 Pro系列的技术传闻持续引发行业关注,尤其在显示与解锁设计领域传言甚多。多方消

热心网友
04.02