重磅!DeepSeek发布全新v3.2-Exp大模型
9月29日最新消息,DeepSeek于今日下午突然上线v3.2-Exp版本,距离上一代v3.1终结版发布仅相隔数日。这一时间节点的选择延续了该团队每逢重要节日前必发新品的传统。
值得注意的是,v3.2版本最大的特殊性在于其"Exp"后缀,明确表明这是一个重在测试新技术的实验性质产品。该版本首次实现了DSA(DeepSeek Sparse Attention)细粒度稀疏注意力机制,在保持模型输出质量的同时,显著提升了长文本处理的训练与推理效率。

近日社交媒体上活跃着一个声称掌握DeepSeek新品动态的账号"DeepSeek News Commentary"。该账号爆料v4版本将于10月亮相,预计带来100万token的上下文窗口、GRPO推理引擎等创新技术,特别是在数学和编程能力方面将有质的飞跃。但由于账号身份未经验证,这些消息仍需谨慎看待。
业内观察人士指出,v3.2版本的快速推出可能是在为即将到来的v4做技术储备。实际上,原定于今年春夏之交发布的v4版本已经多次推迟,期间不乏一些未经证实的负面传言。不过有理由相信,团队是在等待国产AI芯片生态更加成熟的关键时机。

值得关注的是,华为最新公布的昇腾950PR路线图显示,该芯片将于明年第一季度量产。其创新的FP8算法支持与高达1PFLOPS的算力表现,有望成为DeepSeek v4面世的重要催化剂。目前DeepSeek v3.2已同时支持CUDA和TileLang两种架构,为后续全面适配国产芯片埋下了伏笔。
可以预见的是,未来DeepSeek v4还将进一步拓展对寒武纪、海光等国产AI芯片的支持。这场AI技术与国产硬件的双向奔赴,正在勾勒出中国人工智能产业的新图景。

