中国芯片，DeepSeek与Kimi的隐秘交点

时间：2026-04-22 16:36

代码、Agent，还有呢？在AI模型的竞技场上，代码能力向来是兵家必争之地，原因无他——这是最容易标准化评估的硬核指标之一。从K2到K2 5，再到如今的K2 6，Kimi保持着平均一个季度左右的迭代节奏。值得注意的是，这次版本号只是“点六”的小幅升级，这或许暗示着，团队手中还握有更重要的底牌。

代码、Agent，还有呢？

在AI模型的竞技场上，代码能力向来是兵家必争之地，原因无他——这是最容易标准化评估的硬核指标之一。

从K2到K2.5，再到如今的K2.6，Kimi保持着平均一个季度左右的迭代节奏。值得注意的是，这次版本号只是“点六”的小幅升级，这或许暗示着，团队手中还握有更重要的底牌。

那么，K2.6到底带来了什么？官方传播材料给出了明确答案：其长程编码能力获得了显著提升。在测试中，它能不间断编码13小时，编写或修改超过4000行代码。更关键的是，在Kimi内部那个涵盖了多种复杂端到端任务的严格评测基准——Kimi Code Bench上，K2.6的成绩比前代提升了约20%。

要知道，K2.5本身已经是个“能打”的选手，今年2月曾在OpenRouter榜单上霸榜。一位接近Kimi的知情人士曾贴出联合创始人张宇韬当时的朋友圈截图，字里行间透着对这个版本的满意。

通用Agent、编程和视觉Agent基准测试上，K2.6的表现

除了代码，Agent能力是另一个焦点。对于OpenClaw、Hermes这类主流Agent框架，K2.6的核心优化集中在两点：一是提升API调用的精准性，二是增强长时间运行的稳定性。前者关乎任务执行的成本，后者则直接影响任务执行的效率。

其实，Agent能力的进化在K2.5就已埋下伏笔。当时Kimi提出了“Agent集群”的概念，其思路是将一项复杂任务拆解成多个子项，自动分配给不同专长的Agent并行处理。这样做的好处显而易见：既能缩短整体处理时间，又能避免传统串行流程中，一个环节出错导致全盘崩溃的风险。

Kimi K2.6的Agent集群能力演示

到了K2.6，这个能力被进一步放大。新版本将广度搜索与深度调研、大规模文档分析与长篇撰写，以及多格式内容生成等功能进行了集成与并行化处理。其系统最多可支持300个子Agent协同工作，完成高达4000个协作步骤。

如果要用一句话概括K2.6的亮点，大致可以总结为：代码与长程任务能力进化、Agent集群能力增强，以及对主流Agent框架的适配优化。

若要在这些特性中挑出一个最具潜力的，Agent集群无疑值得重点关注。它直接将并行计算的爆炸性能力具象化了。毕竟，代码能力和任务稳定性的提升，是模型迭代的“必修课”。而在此基础之上，推动Agent工作方式、效率乃至交互范式的创新，才是真正改变生产力的关键。对用户而言，重要的不是模型“能做什么”的承诺，而是它能否驱动Agent实实在在地解决问题。

回顾K2.5上线时，就已有学界研究员将其用作科研助手，评价是“没有短板”。更有用户反馈称：“最新提供的多Agent确实有效，去年国产的Agent很多还只是玩具。”既然前代口碑已然不俗，那么在此基础上更进一步的K2.6，实际表现自然更令人期待。

Artifacial Analysis智能榜单，Kimi K2.6仅次于三家闭源模型，并领跑开源模型权重榜单

路线图里的“新故事”

Kimi这家公司，总习惯给行业带来一些新思路。早在今年3月的GTC演讲中，杨植麟就勾勒了其技术路线图，其中提到的MuonClip二阶优化器、Kimi Linear架构以及Attention Residuals等技术，都旨在突破现有Scaling的瓶颈。这些探索甚至得到了行业顶流的认可——当Kimi发布关于Attention Residuals的论文时，马斯克直接在社交媒体上称赞这是“令人印象深刻的突破”。

上周末，Kimi再次发布一篇新论文《Prefill-as-a-Service: KVCache of Next-Generation Models Could Go Cross-Datacenter》（预填充即服务，简称PrfaaS），将架构探索推向了一个新高度。论文核心讨论的，依然是PD分离（Prefill和Decode）这个经典命题。

PD分离并非新概念。模型推理的预填充阶段属于计算密集型任务，而解码阶段则更依赖显存带宽。将两者解耦，旨在提高算力利用率和系统吞吐量，最终实现降本增效。然而，这个架构有个关键卡点：它通常依赖于同机房内的RDMA高速网络。

Kimi这篇论文的创新之处在于，它基于其混合模型架构大幅缩减了KV缓存的体积，从而使得Prefill和Decode能够被彻底解耦到不同的、甚至异构的硬件集群中去。论文中展示的实验示例颇具说服力：专用预填充集群使用32张算力强劲的H200，而本地解码集群则使用64张通过RDMA互联的H20 GPU，两组集群通过VPC专线连接。实测结果显示，这种跨数据中心的方案，相比传统的同集群方案，吞吐量提升了54%，关键的用户响应延迟指标则大幅降低了64%。

不同上下文长度下，混合架构模型与稠密模型KV吞吐量对比

为了证明混合模型架构的带宽优势，论文还提供了一组对比数据：在32K上下文长度下，采用混合注意力的模型，其KV缓存传输需求被压缩到仅需4.66Gbps，而同等规模的稠密注意力模型则高达59.93Gbps。这直接证明，混合架构能将传输需求压降到普通以太网即可承载的范围。

“跨数据中心+异构硬件，解锁显著降低单token成本的潜力。”Kimi官方账号如是总结。关于Token降本，这已是行业共识的攻坚方向。正如上海财经大学胡延平教授曾指出的，降本不能只依赖单一模型或单一路径，它取决于算力供给的成本效率、模型素质的跨代提升、智能范式的持续进阶等多重因素的共同作用。从这个角度看，Kimi的PrfaaS无疑为行业讲述了一个关于降本增效的新故事。

中国模型召唤中国芯片

在PrfaaS这篇论文中，多数人的目光被“跨数据中心”这个宏大叙事所吸引，却容易忽略其中同样关键的“异构硬件”这一点。

需要特别注意，论文中使用的H200和H20虽然性能侧重不同，但同属英伟达Hopper架构。这里提到的“异构”，主要指算力与带宽特性的差异。但其揭示的路径具有更广泛的启示意义：完全可以用一部分算力强的国产芯片来做Prefill，再用带宽优势明显的国产芯片来做Decode，当然，也可以与海外芯片混合使用，以实现最优的成本效益。

可以说，这是Kimi为中国芯片打开的一扇通往大模型推理场景的大门。

然而，机会背后总有挑战。在一位国产算力领域的业内人士看来，要接住预填充即服务模式带来的这波流量，依然绕不开“生态”这个老生常谈的难题。过去几年，中国大模型确实因生态问题，在国产算力适配上面临较高门槛。

但市场环境正在发生微妙而深刻的变化。一个不容忽视的细节是：像H20这样的产品，断供已近一年。这意味着，在推理芯片的选项上，短期内的选择其实非常有限。随着推理需求的持续暴涨，供给问题将变得比生态挑战更为紧迫和首要。中国大模型对国产算力的态度，正从过去的“可用可不用”，悄然转变为“不得不用”。也正是基于这种判断，业内已有诸多预测认为，即将发布的DeepSeek V4正在积极适配国产算力。

适配国产算力这条路，对任何一家国产模型厂商而言都异常艰难，但从长远战略来看，这又是一项不得不做的工程。一件不得不做的事情，总需要有一个起点。或许，DeepSeek V4会成为那个起点。

而现在，在DeepSeek V4尚未露面之际，Kimi已经通过自己的工程实践，为“中国模型+中国芯片”的产业合体，探索出了一条具体可行的技术路径。模型厂商已经率先伸出了橄榄枝，现在，问题交给了国产芯片创业公司。

还记得在《the Dwarkesh Podcast》的最新访谈中，当被问及对华芯片禁售的影响时，黄仁勋的反应吗？他说，芯片又不是铀浓缩，禁售阻挡不了中国芯片的进步，他们完全可以通过国产芯片的暴力堆叠来开发模型。

他为什么敢这么说？DeepSeek和Kimi的下一步行动，就是最标准的答案。

来源：https://36kr.com/p/3777442862256642

DeepSeek