3月16日讯,传统服务器通常采用单机配置2到8张加速卡的方案,但智算集群的规模正以前所未有的速度扩张。从百卡、千卡到万卡,乃至十万卡级别,集群规模持续攀升,因此具备强大互联能力的超节点架构正成为行业关注的焦点。
近期,依托OISA协同创新平台,摩尔线程、中国移动研究院、之江实验室等伙伴携手合作,正式发布了《OISA高密超节点参考设计技术规范》。
该规范直面当前智算中心在互联瓶颈、供电压力及散热极限等方面的挑战,提出了一套全栈式解决方案,支持构建自主可控、性能卓越的高性能计算集群。
OISA高密超节点创新性地引入了大尺寸高密线缆方案,在主流32卡至64卡互联的基础上,实现了标准单宽机柜内128卡的全互联架构,并支持通过并柜扩展轻松部署256卡规模。
在核心协议层面,规范采用了基于OISA 2.0版本的原生内存语义支持,能够实现跨节点的无障碍数据高速访问。结合创新的报文重组技术,可将卡间通信带宽推向TB/s量级,时延则大幅缩短至数百纳秒。
如今,单颗GPU算力卡的功耗已攀升至700W甚至1000W以上,整机柜功率更是朝着350kW甚至更高水平迈进。
OISA参考设计对机柜级供电和散热管理两方面进行了重点革新。
在供电侧,方案引入了高压直流系统与柜内集中供电、盲插技术,减少了中间电力转换层级,显著降低了能源传输过程中的损耗。
在散热侧,液冷技术在该超节点架构中已从“可选项”转变为“原生标配”。针对单GPU超过2kW的散热需求进行深度优化,将PUE值从风冷时代的约1.4,显著降低至1.05到1.15之间。
再结合对流量、压力、温度进行全量监测的智能诊断系统,导热效率实现了数千倍的提升。
展望未来,OISA协同创新平台将继续融合Chiplet、光互联、内存池等前沿技术,不断探索高密度计算的性能极限。

