在业界对新旗舰模型DeepSeek-V4翘首以盼之际,DeepSeek团队却悄然公布了一篇全新的学术论文。

这篇由DeepSeek联合北大、清华共同撰写的论文,将研究方向瞄准了决定大模型实际应用落地的关键环节——推理速度,旨在为日益复杂的智能系统提供一套高效的底层解决方案。具体而言,新论文介绍了一个名为DualPath的创新推理系统,专门针对智能体工作负载下的大规模语言模型(LLM)进行性能优化。
通过引入“双路径读取KV-Cache”机制,重新分配存储网络负载,系统将离线推理吞吐量最高提升了1.87倍,在线服务的每秒智能体运行数平均提升了1.96倍。
论文在引言部分指出,大模型正从单轮对话机器人和独立推理模型,快速演变为智能体系统——它们能够自主规划、调用工具,并通过多轮交互解决实际任务。这种应用模式的转变,推动大模型推理工作负载发生重大变革:从传统的人机交互,转向人-机-环境交互,交互轮次可达数十甚至数百轮。
上下文会跨轮次累积,最终长度可能达到极限值。此时模型不需要大量计算,反而需要频繁从硬盘读取历史上下文的KV-Cache;在现有系统中,只有负责预处理的引擎会读取KV-Cache,其网卡带宽被占满,而负责生成内容的解码引擎,网卡带宽基本闲置,导致整个系统的速度受限于数据读取瓶颈。
因此,论文提出的DualPath系统,针对智能体工作负载,重新设计了现代推理架构中KV-Cache的加载逻辑。它解决了大模型执行智能体任务时,速度被“数据读取”拖慢的核心问题,更重要的是将闲置的带宽资源利用起来,相当于给数据读取“多开了一条高速通道”,实现了速度的大幅提升。
这一论文成果延续了DeepSeek一贯的风格,在工程化层面将性能优化推向极致。有从业者认为,DeepSeek做这类优化属于缺乏高端硬件的无奈之举,是“脏活累活”,大家更期待团队在模型架构上做出根本性创新。
但也有人认为,即便拥有足够算力,这类优化在降低运营成本、减少推理费用方面也极具价值。因为只有足够经济实惠,人工智能才能真正走向大规模普及应用。
相比这篇“务实”的论文,外界显然更关注DeepSeek新一代旗舰模型的真面目。关于DeepSeek-V4的发布时间,市场传闻已经几经更迭。从最初传闻的2月春节前后,到外媒最新报道的“最快下周”,再到业内资深人士预测的3月前后,传闻链条愈发扑朔迷离。
就在近日,有网友爆料称,DeepSeek正在测试V4-Lite模型,代号为“Sealion-lite”,上下文窗口为100万tokens,并原生支持多模态推理。另有消息提及,DeepSeek已在近期将重大更新版本V4向华为等国内厂商提供提前访问权限,以支持其优化处理器软件,确保模型在硬件上高效运行。然而,英伟达等厂商尚未获得类似权限。
面对传闻,DeepSeek依旧保持其一贯的沉默,目前未进行任何回应。但市场已进入“严阵以待”的状态,部分投资机构担忧,新一代模型的发布会如同去年的版本发布那样,引发市场的剧烈震荡。
