DeepSeek-V3.2-Exp 模型正式发布:革新稀疏注意力架构
2023年9月29日,AI领域迎来重要更新——DeepSeek-V3.2-Exp模型在Huggingface与ModelScope两大平台正式开源。该系统已在App端、网页平台及小程序实现同步升级,同时API调用费用实现超过50%的降幅。
技术架构升级
作为实验性版本,V3.2-Exp在V3.1-Terminus基础架构上,创新性地集成了DeepSeek Sparse Attention(DSA)机制。这项技术突破首次实现细粒度稀疏注意力处理,在保持模型输出质量的前提下,显著提升了长文本任务的处理效率。

技术生态支持
华为昇腾计算平台已迅速完成对vLLM/SGLang等主流推理框架的适配工作,为开发者提供零日支持。平台同步开源了完整的推理代码和算子实现方案。
开发工具革新
研发团队采用了创新型工具链组合:
- 使用高级语言TileLang实现快速原型开发
- 基于CUDA进行性能优化实现
- 开源包中同时包含两个版本实现方案
模型性能演进
研发团队提供了详细的版本迭代说明:
- 8月21日发布V3.1版:首次实现混合推理架构,提升Agent任务表现
- 9月22日推出Terminus版本:显著改善语言一致性和Agent稳定性
- 当前V3.2-Exp版本:重点突破长文本处理效率瓶颈
经过严格测试,在保持与Terminus版本相同训练配置的前提下,V3.2-Exp在各大公开评测集上展现出同等水平的性能表现。
