DeepSeek取得重大技术突破!全新架构演进迎来关键进展
智东西9月30日独家消息,人工智能领域再现重大突破。DeepSeek昨日正式宣布开源实验性版本DeepSeek-V3.2-Exp模型。这次发布的最大亮点在于首次引入"DeepSeek Sparse Attention"稀疏注意力机制,这项创新技术在不影响模型输出质量的前提下,显著提升了长文本训练和推理效率。官方将其定位为"实现新一代架构的重要里程碑"。

重要资源入口:
HuggingFace地址:
https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp
魔搭社区地址:
https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Exp
这项技术革新还带来了实际的商业利好。基于效率提升带来的成本降低,DeepSeek同步调整了API调用价格策略,降幅最高达50%。
最引人注目的是输出token的价格变化:新模型每百万token输出仅收费3元,相当于上代产品价格的25%。

产业界快速响应 多家巨头完成适配
截至9月30日早6点,包括华为云、PPIO派欧云、优刻得在内的云服务商已宣布支持新模型。华为、寒武纪、海光信息等芯片厂商也同步完成技术适配。
DeepSeek-V3.2-Exp基于上一代Terminus版本优化而来。在各项专业评测中,两代模型表现相近,但新版在完成任务时消耗的token数量大幅减少。

目前,DeepSeek全线产品已集成新模型,同时保留了上代模型的API接口以供对比验证。除模型外,DeepSeek还完整开源了技术报告和代码实现,并提供了多版本GPU算子支持。

技术报告下载地址:
https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf
产业巨头闪电行动 技术生态快速成型
华为技术团队仅用数小时便完成基于昇腾架构的适配,实现了128K长序列2秒内首token响应、30毫秒后续输出的优秀表现。

寒武纪更是创造了DeepSeek官宣后4分钟即完成适配的纪录,侧面印证了产业界的紧密协作。

技术突破背后的架构创新
DeepSeek-V3.2-Exp的核心创新在于其稀疏注意力机制(DSA)。该架构包含两大关键组件:闪电索引器和精细化token选择机制。

测试数据显示,新架构在H800 GPU上的长序列处理效率显著提升,证实了DSA技术的实战价值。

展望未来
从技术演进的角度来看,DeepSeek-V3.2-Exp的发布不仅是一次产品升级,更是通向下一代架构的重要探索。随着DSA机制的持续优化和产业协同的深入,人工智能技术有望迎来新的突破性发展。
