DeepSeek新论文发布：V4模型性能突破，即将全面上线！

时间：2026-02-27 17:07

在业界对新一代旗舰模型DeepSeek V4的翘首期盼中，DeepSeek团队却悄然放出了一篇新的学术论文。这篇论文由DeepSeek联合北大、清华共同撰写，将研究方向投向了决定大模型实际应用落地的

在业界对新旗舰模型DeepSeek-V4翘首以盼之际，DeepSeek团队却悄然公布了一篇全新的学术论文。

这篇由DeepSeek联合北大、清华共同撰写的论文，将研究方向瞄准了决定大模型实际应用落地的关键环节——推理速度，旨在为日益复杂的智能系统提供一套高效的底层解决方案。具体而言，新论文介绍了一个名为DualPath的创新推理系统，专门针对智能体工作负载下的大规模语言模型（LLM）进行性能优化。

通过引入“双路径读取KV-Cache”机制，重新分配存储网络负载，系统将离线推理吞吐量最高提升了1.87倍，在线服务的每秒智能体运行数平均提升了1.96倍。

论文在引言部分指出，大模型正从单轮对话机器人和独立推理模型，快速演变为智能体系统——它们能够自主规划、调用工具，并通过多轮交互解决实际任务。这种应用模式的转变，推动大模型推理工作负载发生重大变革：从传统的人机交互，转向人-机-环境交互，交互轮次可达数十甚至数百轮。

上下文会跨轮次累积，最终长度可能达到极限值。此时模型不需要大量计算，反而需要频繁从硬盘读取历史上下文的KV-Cache；在现有系统中，只有负责预处理的引擎会读取KV-Cache，其网卡带宽被占满，而负责生成内容的解码引擎，网卡带宽基本闲置，导致整个系统的速度受限于数据读取瓶颈。

因此，论文提出的DualPath系统，针对智能体工作负载，重新设计了现代推理架构中KV-Cache的加载逻辑。它解决了大模型执行智能体任务时，速度被“数据读取”拖慢的核心问题，更重要的是将闲置的带宽资源利用起来，相当于给数据读取“多开了一条高速通道”，实现了速度的大幅提升。

这一论文成果延续了DeepSeek一贯的风格，在工程化层面将性能优化推向极致。有从业者认为，DeepSeek做这类优化属于缺乏高端硬件的无奈之举，是“脏活累活”，大家更期待团队在模型架构上做出根本性创新。

但也有人认为，即便拥有足够算力，这类优化在降低运营成本、减少推理费用方面也极具价值。因为只有足够经济实惠，人工智能才能真正走向大规模普及应用。

相比这篇“务实”的论文，外界显然更关注DeepSeek新一代旗舰模型的真面目。关于DeepSeek-V4的发布时间，市场传闻已经几经更迭。从最初传闻的2月春节前后，到外媒最新报道的“最快下周”，再到业内资深人士预测的3月前后，传闻链条愈发扑朔迷离。

就在近日，有网友爆料称，DeepSeek正在测试V4-Lite模型，代号为“Sealion-lite”，上下文窗口为100万tokens，并原生支持多模态推理。另有消息提及，DeepSeek已在近期将重大更新版本V4向华为等国内厂商提供提前访问权限，以支持其优化处理器软件，确保模型在硬件上高效运行。然而，英伟达等厂商尚未获得类似权限。

面对传闻，DeepSeek依旧保持其一贯的沉默，目前未进行任何回应。但市场已进入“严阵以待”的状态，部分投资机构担忧，新一代模型的发布会如同去年的版本发布那样，引发市场的剧烈震荡。

来源：https://www.163.com/dy/article/KMPIO3A70519DDQ2.html