华为昇腾全栈开源DeepSeek-V3.2推理方案，赋能开发者创新

首页

热心网友

转载

2025-09-30

9月29日消息，DeepSeek-V3.2-Exp模型于今日晚间正式发布并开源，创新性地采用了稀疏Attention架构。华为随即宣布昇腾AI已基于vLLM/SGLang等主流推理框架迅速完成适配部署，实现对该模型0day级别的全面支持，并向开发者开源了所有相关推理代码和算子实现。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

据介绍，昇腾AI在DeepSeek-V3.2-Exp发布的第一时间就实现了该模型BF16格式的高效部署，并在CANN计算平台上完成了针对性优化。部署方案延续了DeepSeek的大EP并行策略，同时针对稀疏DSA架构特性，创新性地实现了CP并行策略，在128K超长序列场景下仍能保持TTFT低于2秒、TPOT低于30毫秒的优异推理性能。

NPU DeepSeek-V3.2-Exp推理优化实践：

https://gitcode.com/cann/cann-recipes-infer/blob/master/docs/models/deepseek-v3.2-exp/deepseek_v3.2_exp_inference_guide.md

针对模型中全新引入的Lightning Indexer(LI)和Sparse Flash Attention(SFA)两大核心算子，昇腾团队创新性地优化了算子Tiling设计、Cube与Vector核间流水线调度等关键技术环节，现已开源相关模型和融合Kernel代码。

NPU DeepSeek-V3.2-Exp Ascend C融合算子优化：

https://gitcode.com/cann/cann-recipes-infer/blob/master/docs/models/deepseek-v3.2-exp/deepseek_v3.2_exp_ascendc_operator_guide.md

为降低开发者使用门槛，CANN首次推出PyPTO大融合算子编程框架，采用PTO(Parallel Tensor/Tile Operation)创新编程范式，以Tensor为基本数据单元构建计算图。目前该框架已成功应用于DeepSeek-V3.2-Exp模型中两个核心算子的开发，仅需数百行代码即可完成动态Shape算子编程。

基于PyPTO的Lightning Indexer和DeepSeek Indexer Attention算子开发实践：

https://gitcode.com/cann/cann-recipes-infer/blob/master/docs/models/deepseek-v3.2-exp/deepseek_v3.2_exp_pypto_operator_guide.md

除提供完整模型参考实践外，昇腾AI还全面支持vLLM和SGLang等主流推理框架，开发者可直接获取社区代码体验模型性能。未来将持续优化大模型在异构计算架构下的推理效率，重点提升算子融合、稀疏访存等核心能力。

大模型推理框架vLLM及昇腾实现：

https://github.com/vllm-project/vllm-ascend/tree/v0.9.1-dev/examples/deepseek.md

大模型推理框架SGLang及昇腾实现：

https://github.com/sgl-project/sglang/issues/11060

此外，昇腾与Tile-AI社区深度合作，基于其TileLang领域专用语言完成了Sparse Flash Attention等关键算子的NPU适配。后续将进一步完善NPU算子生态，持续提升计算性能。

NPU DeepSeek-V3.2-Exp TileLang算子开发实践：

https://gitcode.com/cann/cann-recipes-infer/blob/master/docs/models/deepseek-v3.2-exp/deepseek_v3.2_exp_tilelang_operator_guide.md

TileLang-Ascend开源社区：

https://github.com/tile-ai/tilelang-ascend

来源:https://www.ithome.com/0/886/722.htm

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：优必选人形机器人订单超3000万，总金额达4.3亿元下一篇：华为盘古718B大模型获开源排行榜第二

相关攻略

科技数码

华为昇腾平台验证：深圳AI算力加速139倍重大突破

2026年伊始，全球AI算力战场烽烟再起。英伟达依托CUDA生态形成了近乎垄断的技术壁垒，“缺芯少魂”仍是中国AI产业发展的现实挑战。在此背景下，深圳市大数据研究院持续深耕人工智能等前沿科技领域，并

热心网友

03.09

科技数码

四大国产GPU对比：华为昇腾、阿里平头哥等芯品解析

快科技3月8日消息，上海人工智能实验室（上海AI实验室）最新宣布，基于此前的DeepLink混训技术方案、跨千公里多智算中心长稳混训千亿参数大模型，正式推出DeepLink多元算力混合推理加速方案，

热心网友

03.08

科技数码

GLM-5大模型成功适配昇腾、寒武纪等主流国产芯片平台

2月12日，澎湃新闻记者获悉，智谱新发布的GLM-5已完成与华为昇腾、摩尔线程、寒武纪、昆仑芯、沐曦、燧原、海光等主流国产芯片平台的深度推理适配与算子级优化，能够在国产算力集群上实现高吞吐、低延迟的

热心网友

02.12

科技数码

揭秘华为昇腾突破性MoE无损显存优化技术，显存减半

IT之家 2 月 4 日消息，据“华为计算”今日消息，随着大语言模型迅猛发展，参数量已迈入千亿甚至万亿级别，MoE（IT之家注：混合专家）稀疏架构凭借兼顾模型容量与计算效率的优势，成为 AI 领域核

热心网友

02.04

华为昇腾AI开发者超400万，携手3000家伙伴共筑生态

1 月 9 日消息，华为今日公布了 2025 年昇腾 AI 生态的发展进展。截至 2025 年年底，昇腾 AI 生态开源项目 Star 数 35K+，开发者代码合入行数 26 万 +，开发者数量

热心网友

01.09

热门推荐

豆包上线视频通话功能：支持实时互动融合视觉语言输入能力

豆包上线视频通话功能：支持实时视频问答最近，豆包官方放出了一个大消息：App正式上线了实时视频通话功能。这可不是简单的功能叠加，它实实在在地将用户交互体验，带进了一个全新的维度。那么，这个新功能具体能做什么？简单来说，当你在豆包的电话界面开启视频画面，你面前的就不再是一个冷冰冰的聊天窗口了。豆包

热心网友

04.14

苹果即将向开发者开放其 AI 引擎，提升应用开发能力

苹果的AI新棋局：向开发者敞开设备端智能的大门科技圈最近有个消息传得挺热：苹果正计划在2025年的全球开发者大会（WWDC）上，向第三方开发者开放其设备端AI模型。这步棋的目的很明确，就是要激发一波应用创新，并扩展其智能生态的边界。具体来说，苹果正在开发一个软件开发工具包（SDK），这个工具包将允

热心网友

04.14

OpenAI联合创始人：AI智能体十年内难堪大用，“智能体之年”言过其实

OpenAI联合创始人：AI智能体十年内难堪大用，“智能体之年”言过其实最近，OpenAI的联合创始人安德烈·卡帕西（Andrej Karpathy）给出了一个颇为清醒的判断。他公开表示，我们今天谈论的AI智能体，距离真正意义上的“功能完善”，还有很长一段路要走。话说回来，他的观点非常直接：眼下

热心网友

04.14

游戏攻略

王者荣耀世界充值比例详解王者荣耀世界氪金机制与性价比分析

《王者荣耀世界》：付费机制革新，从“数值碾压”到“个性表达” 随着《王者荣耀世界》正式上线，其独特的付费设计理念引发了广泛关注。一个明确的趋势是，这款游戏并未延续传统网游依赖数值付费的陈旧模式。其核心设计逻辑，旨在构建一个以深度叙事与自由探索为核心的开放世界。在此框架下，付费机制的角色发生了本质性转

热心网友

04.14

系统平台

win10如何安装Redis数据库_win10Redis数据库的6种方式

Windows 10 安装 Redis 的六种方法详解在 Windows 10 操作系统上安装 Redis 数据库，许多开发者会遇到官方不再提供原生 Windows 版本支持的难题。常见问题包括命令无法识别、Windows 服务注册失败或配置文件加载错误。这些问题通常源于版本兼容性、系统环境变量配

热心网友

04.14