DeepSeek 模型更新解读 Tile Kernels 与 DeepEP V2 新特性

DeepSeek近期在GitHub上动作频频,技术开源步伐明显加快。继不久前低调更新Mega MoE和FP4 Indexer后,团队近日又重磅开源了全新的Tile Kernels代码库,并对DeepEP专家并行框架进行了重要版本迭代,发布了性能大幅提升的DeepEP V2。
Tile Kernels:逼近硬件极限的底层优化

新开源的Tile Kernels项目是一套为大语言模型(LLM)操作深度优化的GPU计算核心。它基于TileLang领域特定语言构建,该语言专为在Python环境中表达高性能GPU内核而设计,以其出色的可移植性、敏捷开发特性和自动优化能力闻名。
这套内核的性能表现极为亮眼。根据DeepSeek官方描述:“本项目中的大多数内核在计算强度和内存带宽利用率方面都已逼近硬件理论性能上限。”目前,部分内核已在内部的大模型训练与推理场景中得到实际部署验证。团队同时指出,这些实现尚处于持续优化阶段,代码质量与文档完善工作仍在进行中。
尽管代码库的说明文档较为精简,但其技术细节已清晰揭示了DeepSeek下一代模型架构的底层创新方向。Tile Kernels的核心功能特性主要包括:
- 门控机制:为混合专家模型(MoE)提供高效的Top-k专家选择与评分功能。
- MoE路由:实现Token到专家的精准映射,支持融合的扩展/归约操作及权重归一化处理。
- 量化支持:全面支持per-token、per-block、per-channel等多种粒度的FP8/FP4/E5M6量化转换,并能与SwiGLU激活函数进行算子融合。
- 转置操作:高效的批量矩阵转置运算内核。
- Engram内核:集成了RMSNorm、前向/反向传播以及权重梯度归约的融合门控计算单元。
- Manifold HyperConnection:包含Sinkhorn归一化及混合拆分与应用功能的超连接内核。
- 模型层封装:提供高层的torch.autograd.Function封装,将底层内核组合为可训练的网络层(如engram gate、mHC pipeline等)。
DeepEP V2:更快的专家并行,支持范围更广

在发布Tile Kernels的同日,DeepSeek同步推出了DeepEP框架的V2版本。此次重大更新显著提升了专家并行(Expert Parallelism)的执行效率,并扩展了对Engram、流水线并行以及上下文并行等训练策略的支持。
面对硬件、网络技术与模型架构的快速演进,DeepEP V1版本逐渐暴露出一些历史遗留的性能瓶颈。因此,V2版本对专家并行模块进行了彻底的重构与优化。相比前代,V2仅需消耗几分之一的流式多处理器资源,即可实现极致的性能输出,同时显著提升了单机与跨机扩展的规模上限。
此外,本次更新还引入了一系列实验性的“0 SM”优化方案,包括0 SM Engram、0 SM流水线并行以及0 SM上下文并行的All-gather算子。值得注意的是,其后端通信库已从NVSHMEM切换为更加轻量高效的NCCL Gin后端。
DeepEP V2版本的核心新特性与改进包括:
- 全时即时编译:提供全程JIT编译支持,优化运行时性能。
- NCCL Gin后端:采用仅包含头文件的极致轻量化设计,可复用现有NCCL通信器,降低部署复杂度。
- 统一接口设计:将高吞吐量与低延迟API整合为单一接口,并采用了全新的GEMM内存布局。
- 更大规模支持:专家并行扩展能力最高可支持至EP2048级别。
- 分析化计算:引入分析化的SM和QP资源计数计算,无需再进行耗时的自动调优过程。
- 多模式兼容:持续支持混合模式与直接模式两种运行方式。
- 资源利用优化:针对类似V3的旧版训练任务,SM占用从24个大幅降低至4-6个,同时保持同等甚至更优的训练性能。
- 实验性功能:新增支持0 SM Engram(配合RDMA)、0 SM PP(配合RDMA)以及0 SM CP(配合Copy Engine)等前沿优化技术。
性能表现:资源大减,效率反升

团队依据DeepSeek-V3模型的典型配置对新版本进行了基准测试。测试环境设置为每批次8K token、7168隐层维度、Top-8专家选择、FP8分发精度以及BF16混合精度计算。
测试结果展示的是逻辑带宽性能。例如在EP 8 x 2的配置下,90 GB/s的带宽数据已包含了本地显卡间的通信流量。与V1版本相比,V2实现了高达1.3倍的峰值性能提升,同时节省了多达4倍的SM计算资源占用。
DeepSeek这一系列密集且高质量的技术更新,充分展现了其在AI基础设施与大模型训练框架领域的深厚技术积累与持续创新能力。从逼近硬件理论极限的底层计算内核,到大幅优化资源利用率的分布式并行方案,每一步扎实的进展都为其下一代大模型的训练效率与最终性能奠定了坚实的技术基础。业界正密切关注,这些底层技术的重大突破,将如何推动其下一代模型“DeepSeek-V4”的正式发布与性能飞跃。
相关攻略
想要基于DeepSeek V4构建一个能够精准理解产品手册内容的智能问答系统?这个需求非常贴合企业知识管理的实际场景。直接对大模型进行微调不仅成本高昂、周期漫长,对于需要即时准确响应的内部知识库应用而言,采用检索增强生成(RAG)架构无疑是当前更高效、更实用的技术路径。 然而,DeepSeek V4
想用上DeepSeek最新的V4 Pro版本,体验它那更强的推理能力?你可能已经接入了API,或者在网页端、APP端看到了相关功能,但感觉效果和预期有差距。这很可能是因为你的会话还运行在默认的“快速模式”上。要真正激活那个拥有1 6T参数、采用MoE 4 0架构并具备R1推理增强的深度模型,你需要手
当您在Ollama中尝试运行DeepSeek V4模型时,如果遇到进程卡死、无响应或直接报错退出的问题,请不要急于归咎于您的硬件设备。这很可能源于一个关键原因:截至目前,DeepSeek V4模型尚未在Ollama的官方模型库中正式发布。更重要的是,其公开发布的原始权重格式(通常是Hugging F
将DeepSeek V4的原始PyTorch权重转换为AWQ格式,是在有限显存条件下实现低延迟、高精度推理的成熟方案。AWQ(激活感知权重量化)的核心原理非常巧妙:它并非对所有参数进行均等压缩,而是通过分析模型在前向传播中的激活分布,精准识别并保留对输出结果影响最显著的“关键权重”。这种方法使得模型
手头已经下载了DeepSeek V4的模型文件,但在llama cpp中直接加载却无法运行?这通常是因为模型尚未转换为llama cpp兼容的GGUF格式,或者没有针对您的硬件配置进行适当的量化优化。别担心,按照以下系统化的操作流程,您就能顺利解决这一问题。 一、确认模型原始格式并获取适配分支 目前
热门专题
热门推荐
科学家警告,过度依赖人工智能可能削弱创造力与批判性思维,类似GPS损害方向感。研究显示,AI替代需“认知摩擦”的思考过程,或导致认知能力衰退。专家建议应有意识使用AI,使其成为思维“扩音器”而非替代品,例如先自主判断、加深信息处理、主动创意构思,以保护并锻炼大脑独特能力。
谷歌推出云端AI驱动的安卓电脑,重塑PC形态。当前AIPC多依赖云端算力,本地硬件价值受质疑。云电脑与AI结合成为新方向,对网络延迟更宽容。谷歌联合硬件伙伴推进该方案,阿里等云服务商也已布局。传统芯片、终端厂商及微软、苹果正以不同策略应对AIPC趋势。未来竞争将聚焦云端能力、系统重构与生态协。
结论先行:在2026年的商业环境中,企业数字化转型方法的核心不再是单纯的IT系统堆砌,而是“业务流程自动化”与“AI智能化”的深度融合。成功的数字化转型方法论应遵循“小步快跑、场景切入、数据驱动”的原则,利用AI Agent(智能体)技术打通烟囱式系统,实现平滑升级,而非推倒重来。 一、 拒绝假大空
面对琳琅满目的产品设计软件,许多设计师和团队都在追问:究竟哪一款才是最好的选择?然而,真正的答案并非一个简单的软件名称,而是一套基于您具体工作流程的适配逻辑。本文将为您系统解析,如何跳出“最好”的迷思,找到最“对”的那款工具,从而最大化团队效率与产出价值。 核心决策逻辑 首先,我们必须确立一个核心原
跨境电商的售后环节,本质上是客户信任的二次考验。当问题出现时,初次交易建立的信任已然动摇,若处理不当,将直接导致客户永久流失。因此,构建一套真正高效的售后体系,必须实现三大核心目标:响应速度需如本地支付般即时;处理规则需预先设定,实现小额纠纷的自动化化解;最终,所有流程数据必须形成闭环,驱动供应链的





