华为昇腾全栈开源DeepSeek-V3.2推理方案,赋能开发者创新
9月29日消息,DeepSeek-V3.2-Exp模型于今日晚间正式发布并开源,创新性地采用了稀疏Attention架构。华为随即宣布昇腾AI已基于vLLM/SGLang等主流推理框架迅速完成适配部署,实现对该模型0day级别的全面支持,并向开发者开源了所有相关推理代码和算子实现。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
据介绍,昇腾AI在DeepSeek-V3.2-Exp发布的第一时间就实现了该模型BF16格式的高效部署,并在CANN计算平台上完成了针对性优化。部署方案延续了DeepSeek的大EP并行策略,同时针对稀疏DSA架构特性,创新性地实现了CP并行策略,在128K超长序列场景下仍能保持TTFT低于2秒、TPOT低于30毫秒的优异推理性能。
NPU DeepSeek-V3.2-Exp推理优化实践:
https://gitcode.com/cann/cann-recipes-infer/blob/master/docs/models/deepseek-v3.2-exp/deepseek_v3.2_exp_inference_guide.md
针对模型中全新引入的Lightning Indexer(LI)和Sparse Flash Attention(SFA)两大核心算子,昇腾团队创新性地优化了算子Tiling设计、Cube与Vector核间流水线调度等关键技术环节,现已开源相关模型和融合Kernel代码。
NPU DeepSeek-V3.2-Exp Ascend C融合算子优化:
https://gitcode.com/cann/cann-recipes-infer/blob/master/docs/models/deepseek-v3.2-exp/deepseek_v3.2_exp_ascendc_operator_guide.md
为降低开发者使用门槛,CANN首次推出PyPTO大融合算子编程框架,采用PTO(Parallel Tensor/Tile Operation)创新编程范式,以Tensor为基本数据单元构建计算图。目前该框架已成功应用于DeepSeek-V3.2-Exp模型中两个核心算子的开发,仅需数百行代码即可完成动态Shape算子编程。
基于PyPTO的Lightning Indexer和DeepSeek Indexer Attention算子开发实践:
https://gitcode.com/cann/cann-recipes-infer/blob/master/docs/models/deepseek-v3.2-exp/deepseek_v3.2_exp_pypto_operator_guide.md
除提供完整模型参考实践外,昇腾AI还全面支持vLLM和SGLang等主流推理框架,开发者可直接获取社区代码体验模型性能。未来将持续优化大模型在异构计算架构下的推理效率,重点提升算子融合、稀疏访存等核心能力。
大模型推理框架vLLM及昇腾实现:
https://github.com/vllm-project/vllm-ascend/tree/v0.9.1-dev/examples/deepseek.md
大模型推理框架SGLang及昇腾实现:
https://github.com/sgl-project/sglang/issues/11060
此外,昇腾与Tile-AI社区深度合作,基于其TileLang领域专用语言完成了Sparse Flash Attention等关键算子的NPU适配。后续将进一步完善NPU算子生态,持续提升计算性能。
NPU DeepSeek-V3.2-Exp TileLang算子开发实践:
https://gitcode.com/cann/cann-recipes-infer/blob/master/docs/models/deepseek-v3.2-exp/deepseek_v3.2_exp_tilelang_operator_guide.md
TileLang-Ascend开源社区:
https://github.com/tile-ai/tilelang-ascend
相关攻略
2026年伊始,全球AI算力战场烽烟再起。英伟达依托CUDA生态形成了近乎垄断的技术壁垒,“缺芯少魂”仍是中国AI产业发展的现实挑战。在此背景下,深圳市大数据研究院持续深耕人工智能等前沿科技领域,并
快科技3月8日消息,上海人工智能实验室(上海AI实验室)最新宣布,基于此前的DeepLink混训技术方案、跨千公里多智算中心长稳混训千亿参数大模型,正式推出DeepLink多元算力混合推理加速方案,
2月12日,澎湃新闻记者获悉,智谱新发布的GLM-5已完成与华为昇腾、摩尔线程、寒武纪、昆仑芯、沐曦、燧原、海光等主流国产芯片平台的深度推理适配与算子级优化,能够在国产算力集群上实现高吞吐、低延迟的
IT之家 2 月 4 日消息,据“华为计算”今日消息,随着大语言模型迅猛发展,参数量已迈入千亿甚至万亿级别,MoE(IT之家注:混合专家)稀疏架构凭借兼顾模型容量与计算效率的优势,成为 AI 领域核
1 月 9 日消息,华为今日公布了 2025 年昇腾 AI 生态的发展进展。截至 2025 年年底,昇腾 AI 生态开源项目 Star 数 35K+,开发者代码合入行数 26 万 +,开发者数量
热门专题
热门推荐
豆包上线视频通话功能:支持实时视频问答 最近,豆包官方放出了一个大消息:App正式上线了实时视频通话功能。这可不是简单的功能叠加,它实实在在地将用户交互体验,带进了一个全新的维度。 那么,这个新功能具体能做什么?简单来说,当你在豆包的电话界面开启视频画面,你面前的就不再是一个冷冰冰的聊天窗口了。豆包
苹果的AI新棋局:向开发者敞开设备端智能的大门 科技圈最近有个消息传得挺热:苹果正计划在2025年的全球开发者大会(WWDC)上,向第三方开发者开放其设备端AI模型。这步棋的目的很明确,就是要激发一波应用创新,并扩展其智能生态的边界。具体来说,苹果正在开发一个软件开发工具包(SDK),这个工具包将允
OpenAI联合创始人:AI智能体十年内难堪大用,“智能体之年”言过其实 最近,OpenAI的联合创始人安德烈·卡帕西(Andrej Karpathy)给出了一个颇为清醒的判断。他公开表示,我们今天谈论的AI智能体,距离真正意义上的“功能完善”,还有很长一段路要走。 话说回来,他的观点非常直接:眼下
《王者荣耀世界》:付费机制革新,从“数值碾压”到“个性表达” 随着《王者荣耀世界》正式上线,其独特的付费设计理念引发了广泛关注。一个明确的趋势是,这款游戏并未延续传统网游依赖数值付费的陈旧模式。其核心设计逻辑,旨在构建一个以深度叙事与自由探索为核心的开放世界。在此框架下,付费机制的角色发生了本质性转
Windows 10 安装 Redis 的六种方法详解 在 Windows 10 操作系统上安装 Redis 数据库,许多开发者会遇到官方不再提供原生 Windows 版本支持的难题。常见问题包括命令无法识别、Windows 服务注册失败或配置文件加载错误。这些问题通常源于版本兼容性、系统环境变量配





