12月22日消息,在AI时代,我们不再单纯比拼单卡算力,关键在于如何高效堆叠足够多的加速卡,构建庞大的计算集群。
除了NVIDIA、AMD等国际巨头,国内厂商在这一领域也在全力突破,华为、摩尔线程、中科曙光等都是其中的杰出代表。
近日,中科曙光正式发布并展示了scaleX万卡超大规模集群,这也是国产万卡级AI集群的首次真机亮相。

与华为封闭式的全自研集群不同,中科曙光scaleX万卡超大规模集群旨在构建一个开放、兼容、高密度的超大规模算力基础设施。
它支持多品牌加速卡和主流计算生态,目前已适配优化超过400个主流大模型及世界级模型,适用于大模型训练、金融风控、地质能源勘探、科学智能等多种应用场景。
中科曙光scaleX万卡超大规模集群由多个scaleX640超节点(单机柜640卡)、scaleFabric高速网络互联而成,总计拥有10240块加速卡,总算力超过5EFlops(即每秒500亿亿次计算)。
其HBM内存总容量超过650TB,总带宽超过18PB/s;片间互连总带宽超过4.5PB/s,柜间互连总带宽超过500TB/s。
单个超节点的基本构成是千卡级计算单元,采用“一带二”的高密架构设计,实现了单机柜640卡的超高速一致性互连,双计算机柜则可组成1280卡的强大计算单元。

散热方面,该集群采用了超高速正交架构、超高密度刀片、浸没式相变液冷、高压直流供电等多技术融合创新设计,成为业界集成度极高的液冷超节点。
其全浸没式相变液冷技术,将服务器完全浸没在特制液体中,中间液体冷凝换热装置CDM的散热能力高达1.72兆瓦。
单机柜算力密度相比业界其他超节点最大提升20倍,PUE值低至1.04。
公开信息显示,中科曙光子公司曙光数创拥有139项液冷相关专利,是国内唯一实现大规模商业化液冷部署的企业。

网络层面,中科曙光自研的scaleFabric网络芯片可提供400Gb/s的超高带宽、低于1微秒的端侧通信延迟、260纳秒的交换芯片转发延时,超节点间的通信性能达到业内先进水平,相比传统的InfiniBand网络提升了2.33倍。
基于面向大规模组网优化的网络协议、超高交换容量的网络芯片及极致的链路可靠性优化,集群规模得以扩展到万卡以上,同时网络总体成本降低30%。

在优化方面,超级隧道设计实现了芯片级、系统级、应用级的三级协同优化,通过BurstBuffer、XDS等技术,大模型训练推理效率提升30-40%,GPU利用率最多提升55%,同时还具备AI应用亲和、AI数据加速等能力。

可靠性方面,一体化、智能化的集群管控,可大大提高MTBF(平均故障间隔时间)、降低MTTR(平均故障修复时间),集群长期可用性达到99.99%,平均每30天的不可用时间小于4分钟。


