比预期还要高60% DeepSeek V4参数量有望达到1.6万亿
4月下旬的脚步越来越近,整个AI圈的目光都聚焦在DeepSeek V4大模型的发布上。就在昨天,该公司研究人员突然更新了DeepGEMM算子库,这个动作被外界普遍视为V4发布前的关键信号。

有意思的是,官方显然预判了市场的反应。更新之后,他们特意附加了一条说明,强调这次更新只与DeepGEMM的开发相关,与内部模型的发布计划无关——言下之意很明确:大家先别急着联想,这可不代表V4马上就要来了。
但话说回来,越是这样的“澄清”,往往越会勾起大家的好奇心。原因很简单,这次DeepGEMM的更新亮点实在太多,要说跟V4大模型完全没关系,恐怕很难让人信服。
具体来看,除了新增对FP8_FP4混合算子的支持,以及优化了对NVIDIA Blackwell架构的适配,这次升级在架构层面的两大重点,是Mega MoE和HyperConnection。尤其是Mega MoE,它很可能意味着MoE架构将迎来一次重量级的进化。
Mega MoE的优势,技术社区已经讨论了不少。从Gemini的解析来看,V4激活的专家数量,很可能从V3的256个大幅跃升至数千个。这意味着什么?模型的性能将获得极大提升,同时又能保持灵活性,不会对算力和显存提出过于夸张的要求。
更关键的一点在于,DeepGEMM的这次更新,还隐约透露了V4大模型的参数量级。根据网友的推算,单层MoE的参数大约在253.7亿左右。如果保持60层的设计,那么V4大概率会是一个1.6万亿参数的庞然大物;即便保守估计,采用48层设计,参数量也能达到1.25万亿。
对比之前“V4将是万亿参数模型”的传闻,1.6万亿这个数字,意味着参数量比预期足足高出60%。如果成真,其性能表现绝对值得所有人拉高期待。
退一步讲,即便最终实现的是1.25万亿参数,那也已经是当前V3模型(6700亿参数)的近两倍。再加上Mega MoE技术带来的数千个激活专家,这无疑将是一次彻底的蜕变,很可能成为改变MoE架构大模型发展轨迹的里程碑事件。
