迈向10万卡集群：摩尔线程128卡超节点参考设计解析

时间：2026-03-16 21:17

3月16日消息，传统服务器一般就是单机配2-8块加速卡，但是智算集群的规模正在急剧膨胀，百卡、千卡、万卡甚至十万卡一路不停，所以具备强互联能力的超节点架构正成为焦点。近日，依托OISA协同创新平台，

3月16日讯，传统服务器通常采用单机配置2到8张加速卡的方案，但智算集群的规模正以前所未有的速度扩张。从百卡、千卡到万卡，乃至十万卡级别，集群规模持续攀升，因此具备强大互联能力的超节点架构正成为行业关注的焦点。

近期，依托OISA协同创新平台，摩尔线程、中国移动研究院、之江实验室等伙伴携手合作，正式发布了《OISA高密超节点参考设计技术规范》。

该规范直面当前智算中心在互联瓶颈、供电压力及散热极限等方面的挑战，提出了一套全栈式解决方案，支持构建自主可控、性能卓越的高性能计算集群。

OISA高密超节点创新性地引入了大尺寸高密线缆方案，在主流32卡至64卡互联的基础上，实现了标准单宽机柜内128卡的全互联架构，并支持通过并柜扩展轻松部署256卡规模。

在核心协议层面，规范采用了基于OISA 2.0版本的原生内存语义支持，能够实现跨节点的无障碍数据高速访问。结合创新的报文重组技术，可将卡间通信带宽推向TB/s量级，时延则大幅缩短至数百纳秒。

如今，单颗GPU算力卡的功耗已攀升至700W甚至1000W以上，整机柜功率更是朝着350kW甚至更高水平迈进。

OISA参考设计对机柜级供电和散热管理两方面进行了重点革新。

在供电侧，方案引入了高压直流系统与柜内集中供电、盲插技术，减少了中间电力转换层级，显著降低了能源传输过程中的损耗。

在散热侧，液冷技术在该超节点架构中已从“可选项”转变为“原生标配”。针对单GPU超过2kW的散热需求进行深度优化，将PUE值从风冷时代的约1.4，显著降低至1.05到1.15之间。

再结合对流量、压力、温度进行全量监测的智能诊断系统，导热效率实现了数千倍的提升。

展望未来，OISA协同创新平台将继续融合Chiplet、光互联、内存池等前沿技术，不断探索高密度计算的性能极限。

迈向10万卡集群！摩尔线程等制定128卡高密超节点参考设计