12月20日,在摩尔线程MUSA开发者大会上,全新“花港”架构正式亮相。会议同时发布了MUSA 5.0全栈软件系统升级,并揭晓了基于该架构的两款芯片——“华山”与“庐山”,它们分别面向人工智能训练与推理融合场景,以及高性能图形渲染应用。
作为花港架构的首款芯片,“华山”聚焦于AI训推一体与智能融合,在浮点运算能力、内存访问带宽、存储容量以及高速互联带宽等方面实现了全面提升。芯片集成了新一代异步编程模型,支持高效的线程同步与线程束特化处理,从而优化并行计算效率。其配备的新型张量计算引擎支持TF32、FP16、INT8等多精度矩阵运算,并显著增强了FP6与FP4精度下的张量处理性能。新增的TCE-PAIR模式强化了内部数据复用机制,结合MTFP8/6/4混合低精度计算技术,能够兼容主流低精度浮点格式,有效提升能效比。
在系统级设计上,“华山”可扩展至十万卡规模的AI计算集群。它搭载了新一代Scale-up互联架构,支持MTLink 4.0及多种以太网协议,能够适配多样化的Scale-up交换设备。该方案还支持SHARP通信加速技术,芯片间互联带宽高达1314+ GB/s,足以满足大规模分布式训练的需求。
“庐山”作为花港架构的第二款芯片,专为高性能图形渲染打造。依托全新的指令集设计,其算力密度较前代提升50%,能效比提高达10倍之多。芯片集成第一代AI生成式渲染架构与第二代光线追踪硬件加速引擎,全面支持DirectX 12 Ultimate图形接口标准。其内置的AI计算加速单元,可与几何着色器、网格着色器、像素着色器及光追材质着色器深度协同,通过UNITE渲染架构实现任务调度优化、负载均衡与多阶段同步,从而提升整体渲染效率。
花港架构本身在光线追踪技术上也取得了突破,配备了全新的硬件加速引擎,支持对光线遍历全过程进行硬件加速,实现了全场景求交计算的高效处理。与早期的春晓架构相比,其光追性能提升高达50倍。
搭载“华山”与“庐山”芯片的新一代硬件产品将于明年正式推出,相关进展将持续更新。
