3月12日消息,构建AI基础设施不仅需要高性能GPU等计算芯片,网络芯片同样占据核心地位。NVIDIA打造的AI技术壁垒中就包含了InfiniBand(简称IB)解决方案,而如今国产全栈自研的IB芯片也已问世。
今天中科曙光发布了国产InfiniBand原生无损RDMA高速网络scaleFabric,在AI大模型万卡集群训练中,能够显著提升典型AI训练任务的网络效率,大幅缩短模型训练周期。其性能对标国际顶尖IB产品,成本较市面IB方案降低约30%。
最新数据显示,scaleFabric端到端时延可降至0.9微秒,交换时延约260ns。与NVIDIA NDR相比,交换机端口密度提升25%,网卡最大QP数支持提升100%,单子网互联规模达传统IB方案的2.33倍,可轻松支持最大11.4万卡集群部署,同时网络总成本可降低30%。
中国工程院院士邬贺铨表示,scaleFabric是国内首款全栈自主研发的400G原生RDMA高速网络系统,性能对标国际主流产品,并经过规模化实践验证,补齐了国产高速网络的技术短板。
这套IB网络系统已在国家超算互联网郑州核心节点投入运行。今年初中科曙光的3套万卡超集群已在此上线试运行,累计为超万名用户提供算力服务。网络总体成本降低30%,未来集群规模可轻松扩展至10万卡以上。

