12月18日,中科曙光正式发布了其全球领先的大规模智能计算系统——scaleX万卡超集群。这也是国产万卡级AI集群首次以真机形式对外亮相。
scaleX万卡超集群凝聚了曙光在大型计算系统领域多年的研制经验,专为应对万亿参数大模型训练、科学智能等复杂场景下的算力需求而打造,是国内领先的大规模智能算力基础设施。
中科曙光高级副总裁李斌表示,为满足人工智能基础设施对性能、效率与可靠性的极致要求,该系统在超节点架构、高速互连网络、存储性能及系统调度等多方面实现了关键突破。其部分技术能力已超越海外同类产品至2027年的规划节点。
该集群的核心技术优势主要体现在以下四个方面:
全球首创单机柜640卡超节点
scaleX万卡超集群由16个scaleX640超节点通过高速网络互连组成,可部署10240块AI加速卡,总算力规模超过5EFlops。作为全球首个单机柜集成640卡的超节点,scaleX640采用了超高密度刀片与浸没相变液冷技术,将单机柜算力密度提升了惊人的20倍,同时其PUE值也降至行业领先的1.04。
自主研发原生RDMA高速网络
该集群搭载了曙光自研的scaleFabric网络,其基于国内首款400G类InfiniBand原生RDMA网卡与交换芯片,实现了高达400Gb/s的超高带宽与低于1微秒的端侧通信延迟。该网络支持超节点间高性能通信,可轻松将集群规模扩展至十万卡以上,相比传统IB网络性能提升2.33倍,总体成本则降低了30%。
存算传紧耦合深度优化
通过“超级隧道”、AI数据加速等创新设计,实现了从芯片、系统到应用的三级数据传输协同优化。这高效支撑了大模型训练中万卡并发读写的带宽需求,提升了AI推理的响应速度与精度,并将AI加速卡资源利用率提高了55%。
超集群数字孪生与智能调度
依托物理集群数字孪生技术,实现了故障定位与修复的全流程可视化智能管理。智能化运维平台支持集群长期可用性达99.99%。调度引擎则可管理万级节点、服务十万级用户,支持每秒万级作业调度。
作为“AI计算开放架构”的最新成果,scaleX万卡超集群支持多品牌加速卡及主流计算生态,已完成对400余个主流大模型与世界模型的适配优化。该系统可广泛应用于大模型训练、金融风控、地质能源勘探及科学智能等多个前沿领域。
“AI计算开放架构”由中科曙光联合20余家AI产业链企业共同推进,旨在通过共性技术共享与系统工程方法,驱动智算集群的持续创新。scaleX万卡超集群的推出,将有助于降低AI企业的研发门槛,推动行业从技术“单点突破”迈向产业“生态共进”,真正实现开放、普惠的算力服务。

