12月20日,摩尔线程在首届MUSA开发者大会上,正式发布了全新一代GPU架构“花港”,并推出了首款基于该架构的云端AI加速GPU“华山”。

“华山”芯片能够应用于超十万卡规模的AI工厂。它搭载了新一代Scale-up系统,兼容MTLink 4.0及多种以太协议,可适配多种Scale-up交换机,并支持SHARP技术,其片间互联速率可达1314GB/s。
据介绍,以KUAE万卡群为代表的浮点运算能力可达10 Exa-FLOPS,其精度模型效果优于国际主流产品,大模型MFU利用率可达到60%。
此外,集群有效训练时长占比高达90%,零中断技术的理论可靠性能达到99%。万卡集群训练线性度表现优异,达到95%,其性价比更是达到HXX(H20)的1.5倍。
根据最新数据,在DeepSeek R1全量模型分布式推理性能方面,MTT S5000的PD分离-分布式集群方案表现出色:在DeepSeek Prefill Only任务中,单卡吞吐量达到H20的2.5倍;而在DeepSeek Decode任务中,单卡吞吐量也达到H20的1.3倍。


