
2025年11月13日,有技术博客于昨日发布报告指出,在最新一轮的MLPerf人工智能训练基准测试中,基于Blackwell Ultra架构的GB300 NVL72平台在全部七项测试项目中均取得首位,展现出卓越的性能优势。
该报告提到,此次测试中最引人瞩目的成绩是,GB300 NVL72平台仅用10分钟便完成了对参数规模达4050亿的Llama 3.1大模型的训练任务。在其他关键测试中,其表现同样突出:完成Llama 2 70B模型的LoRA微调仅需0.4分钟,训练Llama 3.1 8B模型也仅耗时5.2分钟。
与前代产品相比,Blackwell Ultra架构实现了大幅提升。测试数据显示,在Llama 2 70B模型的微调任务中,使用8块GB300 GPU所达到的性能是相同数量H100 GPU的5倍。在Llama 3.1 405B模型的预训练任务中,GB300的性能超过H100的4倍,同时比同属Blackwell架构的GB200平台快接近2倍。
这一系列性能突破得益于软硬件协同优化的设计理念。硬件配置方面,GB300 NVL72系统搭载了传输速率达800GB/s的Quantum-X800 InfiniBand高速互联网络,每颗GPU配备279GB的HBM3e高带宽内存,整个系统的GPU与CPU总内存容量高达40TB。
在软件技术层面,全面启用FP4精度成为关键因素。通过在模型训练的每一层均采用FP4精度,计算效率相比FP8提升一倍,而Blackwell Ultra架构进一步将这一优势增强至3倍,显著加快了训练速度。
