3月2日消息,今年春节以来,已有多个国产AI大模型相继亮相,不过DeepSeek-V4并未如期问世。好消息是,有迹象表明它很可能在下周正式发布。
这则消息最初由英国《金融时报》报道,援引了内部知情人士的说法。虽然无法确认这些人士是否确为内部员工,但考虑到下周将迎来全年最重要的两会开幕,同时这也是十五五规划的开局之年,因此DeepSeek-V4下周亮相的消息可信度较高。
回顾去年春节档发布的DeepSeek-R1,曾给美国AI行业带来了不小的震撼。当时英伟达股价暴跌17%,虽然不完全是DeepSeek的原因,但美国业界确实由此患上了“DeepSeek恐惧症”,生怕每次国产开源AI的发布都会对美式AI造成一波冲击。
那么,DeepSeek-V4这次会带来哪些冲击?目前谁也说不准。美国CNBC近期制作了一段长达40分钟的视频专题,标题直指“中国下一次AI冲击将来自硬件”,明确指出DeepSeek-V4发布后,很可能对美国硬件行业形成冲击。
实际上这并非新闻,DeepSeek之前的大模型训练还使用了英伟达的AI显卡,但到了V4这一代,显然会加大对国产AI芯片的支持力度,在国产芯片上完成训练和推理,并为多个国产AI芯片进行优化。目前可知的是,华为昇腾及寒武纪的思元系列都会有所涉及。
去年DeepSeek-V3.1发布时,官方曾明确提到UE8M0 FP8将是即将发布的下一代国产芯片设计。此前国产AI芯片普遍支持到FP16格式,部分可通过软件支持到FP8,但显然不如原生FP8。后者相比FP16在理论性能上可翻倍,对带宽的要求也大幅降低,有助于降低成本。毕竟此前传闻V4的成本只有对手的五十分之一。
国产AI芯片中,目前最强的仍是华为的昇腾系统,尤其是去年华为推出的超节点集群。路线图公布了昇腾Atlas 950 SuperPoD、Atlas 960 SuperPoD及Atlas 970 SuperPoD,今年问世的将是Atlas 950系列。
Atlas 950超节点支持8192张基于昇腾950DT的加速卡,是Atlas 900超节点的20多倍。
满配包含128个计算柜、32个互联柜,共由160个机柜组成,占地面积约1000平方米左右,柜间采用全光互联。
总算力大幅提升,其中FP8算力达到8E FLOPS,FP4算力达到16E FLOPS,互联带宽达16PB/s。这个数字意味着Atlas 950一个产品的总互联带宽,已经超过当今全球互联网峰值带宽的10倍有余。
对比英伟达计划今年下半年发布的NVL144,Atlas 950超节点卡的规模是其56.8倍,总算力约6.7倍,内存容量约15倍,达到1152TB;互联带宽约62倍,达16.3PB/s。
即便是与英伟达计划2027年上市的NVL576相比,Atlas 950超节点在各方面依然保持领先。
