时间:2025-08-30 作者:游乐小编
8月29日消息,NVIDIA近日公布了第二季度财报,业绩继续保持高速增长。在新一代AI显卡Blackwell系列中,性能最强的GB300预计将在今年第四季度正式上市。此外,下下代产品Rubin已有六款型号正在研发进程中。
关于GB300的详细规格可参考此前报道,而值得关注的是,在算法选择上国产AI技术与NVIDIA正出现分化。国产AI阵营倾向于采用UE8M0 FP8标准,而NVIDIA在Blackwell架构中重点强化的是其自研的NVFP4标准。
UE8M0 FP8近日在国产算力圈引发广泛讨论。这一标准由深度求索(Deepseek)在发布DS 3.1大模型时正式提出,宣称已全面适配即将面世的新一代国产AI芯片。
尽管未明确提及具体厂商,但包括华为昇腾、摩尔线程、砺算科技、芯原科技、海光信息在内的多家国内企业,其新一代算力芯片预计都将支持该标准。
相比此前国产AI芯片普遍采用的FP16+INT8架构,UE8M0 FP8带来显著提升:性能提高2-3倍,大幅缓解显存压力,同时有效降低功耗。具体表现还需看各厂商的实际落地效果。
而作为AI领域的领军者,NVIDIA近年来一直以芯片上游厂商的身份推动算法标准化,支持FP64、FP32、FP16、INT8、FP4等多种精度格式。在Blackwell架构中,NVIDIA同时支持FP4和MXFP4,但主打的是NVFP4标准。该格式虽与E2M1 FP4结构近似,却在精度上几乎无损。
NVFP4带来了哪些优势?首先在性能方面,GB300的稠密计算性能大幅提升50%,达到15 PFlops——值得注意的是,其架构与GB200相比并未发生根本性变化。
如果50%的性能提升还不够令人惊讶,不妨再看精度表现。
与FP8基准相比,NVFP4在DS 0528模型精度上几乎持平,多数指标差距不到1个百分点,在AIME 2024测试中甚至领先2个百分点。
在内存使用效率上,NVFP4相比FP16减少3.5倍占用,比FP8也降低1.8倍。GB300的HBM容量从GB200的186GB提升至288GB。在NVL72机柜配置下,系统总内存可达40TB,可支持3000亿参数的大模型训练。
能效方面同样突出:GB300在NVFP4支持下,每Token能耗仅0.2焦耳,相比GB200的0.4J和H100的10J,能效提升高达50倍。
简而言之,NVIDIA主导的NVFP4在性能上提升50%,精度几乎媲美FP8,内存占用减少2-3倍,能效更是实现50倍跨越。
考虑到NVIDIA的行业影响力,NVFP4很可能成为前沿大模型广泛采用的算法标准,国内大型科技公司预计也会大规模部署。
而在国产AI芯片领域,UE8M0 FP8也已确立为新一代标准。尽管目前仍难以超越NVIDIA的CUDA生态优势,但这无疑是国产软硬件协同发展的重要一步。未来或许真能闯出一片天地,甚至形成自有技术壁垒——一切皆有可能。
2021-11-05 11:52
手游攻略2021-11-19 18:38
手游攻略2021-10-31 23:18
手游攻略2022-06-03 14:46
游戏资讯2025-06-28 12:37
单机攻略