英伟达软件优化提升性能2.8倍无需更换GPU_AI热点日报

英伟达软件优化提升性能2.8倍无需更换GPU

类型：热点整理2026-05-18

混合专家模型（MoE）凭借其稀疏激活特性，在实现高效推理的同时，也长期面临着专家间通信瓶颈的挑战。如今，NVIDIA通过软件层面的深度优化，特别是程序化依赖启动与全对全通信革新等关键技术，在短短三个月内，将基于Blackwell架构的GB200平台的单GPU推理吞吐量提升了惊人的2 8倍，充分释放了

混合专家模型（MoE）凭借其稀疏激活特性，在实现高效推理的同时，也长期面临着专家间通信瓶颈的挑战。如今，NVIDIA通过软件层面的深度优化，特别是程序化依赖启动与全对全通信革新等关键技术，在短短三个月内，将基于Blackwell架构的GB200平台的单GPU推理吞吐量提升了惊人的2.8倍，充分释放了其硬件的澎湃性能潜力。

2026年1月，NVIDIA发布的最新性能数据，再次刷新了业界对AI推理效率的认知。通过对Blackwell架构推理软件栈的关键升级，混合专家模型（MoE）的推理性能实现了阶跃式突破——单GPU吞吐量大幅提升2.8倍，显著降低了大规模AI模型推理的运营成本。

GB200 NVL72：为MoE而生

为何仅通过软件优化就能带来如此巨大的性能飞跃？这需要从MoE模型的核心工作原理来理解。

以DeepSeek-R1这类大型稀疏MoE模型为例，其总参数量高达6710亿，但每次推理实际激活的参数仅约370亿。这种“稀疏激活”模式虽然节省了计算量，却带来了独特的挑战：动态路由机制导致专家模块间需要频繁进行数据交换，同时，预填充（计算密集型）与解码（内存密集型）两个阶段的计算负载特性差异巨大。传统硬件架构极易因此遭遇通信延迟或精度损失，从而形成“性能墙”。

NVIDIA的解决方案，是在其强大的Blackwell硬件基础之上，通过针对性的软件栈优化，彻底激发硬件潜能，攻克这些瓶颈。

图1：GB200 NVL72机柜

GB200 NVL72机架级平台是此次性能突破的物理核心。它通过第五代NVLink高速互连72块Blackwell GPU，提供了高达1800GB/s的双向带宽。这一设计专为优化稀疏MoE架构的通信而打造，如同为72个“专家”配备了超高速的神经网络，彻底消除了专家间数据交换的拥堵问题。

软件层面的首要革新是NVFP4四比特浮点格式。相较于传统FP4格式，NVFP4采用了NVIDIA自研的数值分布优化算法，在高效压缩模型数据量的同时，最大程度地保持了模型精度——这对于依赖精确路由的MoE模型至关重要，能有效避免因精度下降导致的推理错误。结合Blackwell架构中硬件集成的NVFP4加速单元，模型得以在更低精度下运行，同时获得比其他FP4实现更高的准确率。

图2：在 HGX B200 上，开启NVFP4与FP8时的吞吐量与交互性曲线对比

此外，“分解服务”（Disaggregated Serving）策略进一步挖掘了GB200平台的潜力。该策略将计算密集的预填充阶段与内存密集的解码阶段，智能地分配到不同的GPU组上执行，并利用NVLink Switch的灵活拓扑实现“计算”与“内存”资源的解耦，从而避免了单一资源类型成为整个推理流水线的瓶颈。

软件引擎：TensorRT-LLM三个月狂飙2.8倍吞吐

如果说硬件提供了坚实的基础，那么软件优化则扮演了精细调校的引擎角色。NVIDIA TensorRT-LLM开源推理库近期的关键更新，直接促使GB200 NVL72平台运行DeepSeek-R1模型时，单GPU吞吐量在三个月内实现了2.8倍的飙升。

具体而言，三大核心优化构成了“性能催化剂”：

1. 程序化依赖启动（PDL）：通过优化内核启动机制，显著减少了启动延迟，使GPU能够更长时间保持在“工作”状态。尤其在追求高吞吐、低交互延迟的场景下，大幅降低了GPU的闲置损耗。

2. 底层内核优化：针对Blackwell Tensor Core的微架构特性，深度重构了计算流水线，确保每一份计算资源都得到极致利用。

3. 全对全通信原语革新：优化了通信模式，消除了接收端的中间缓冲区需求，直接降低了数据传输的路径开销——这对于需要高频跨专家通信的MoE模型而言，意味着通信延迟的显著下降。

正是这三项软件创新协同作用，使得GB200平台运行DeepSeek-R1的性能，相比2025年10月的软件版本，获得了质的飞跃。

图3：软件更新给GB200带来的性能提升

随着AI应用从“可用”向“好用”演进，用户对交互响应速度的要求日益苛刻——无论是聊天机器人的“秒回”，还是代码助手的“实时补全”。吞吐量的跃升直接转化为更低的端到端延迟和更流畅的用户体验。

小机柜也适用：HGX B200也能高效运行DeepSeek

当然，并非所有应用场景都需要GB200 NVL72这样的超大规模平台。对于采用标准风冷部署的企业或云服务商，NVIDIA HGX B200（8卡Blackwell平台）同样展现了卓越的推理效率。其核心优化在于多token预测（MTP）技术与NVFP4格式的组合应用。

在传统自回归推理中，模型逐个生成token，每一步都必须等待前一步完成。而MTP技术通过一次性预测多个候选token序列，让GPU在一次计算中完成多个生成步骤，相当于在解码任务中实现了“批量处理”，达到“一次计算，多步输出”的效果。

图4：MTP及不同精度带来的性能提升

实际测试数据显示，在1K/1K、8K/1K、1K/8K等多种输入/输出序列长度组合下，MTP技术均能显著提升模型吞吐量。尤其在那些对交互性要求极高（即延迟要求极低）的场景中，性能收益更为明显。

当MTP与NVFP4四比特精度结合时，性能增益被进一步放大。NVFP4不仅通过4比特压缩有效缓解了内存带宽压力，更依托Blackwell张量核心实现了高效计算。结合TensorRT-LLM与TensorRT Model Optimizer的全栈支持，HGX B200平台在确保模型精度的前提下，其吞吐性能曲线随着MTP+NVFP4的启用持续向右上方移动——这意味着在相同的延迟要求下能够服务更多并发请求，或在相同的负载下提供响应更迅捷的体验。

对于广大企业用户与云服务提供商而言，现有的Blackwell GPU通过简单的软件升级即可获得高达2.8倍的吞吐量提升，这无异于一次“免费的硬件扩容”，极大地延长了现有计算基础设施的投资回报周期。对于AI模型开发者，TensorRT-LLM提供的高级API与对原生PyTorch架构的良好支持，在易用性和扩展性之间取得了平衡，降低了底层性能优化的技术门槛，让开发者能更专注于模型算法本身的创新。

这种“无需硬件更换即可实现性能飞跃”的能力，无疑进一步巩固了NVIDIA在专业AI计算领域的领先地位。Blackwell架构与TensorRT-LLM软件栈的深度结合，在解决大型MoE模型推理难题上，真正实现了“高精度、低延迟、高吞吐、低成本”四者之间的精妙平衡。这再次证明，NVIDIA的核心竞争力不仅在于顶尖的芯片设计，更在于其能够深度挖掘硬件潜能的、强大而成熟的软件生态系统。

来源：https://www.163.com/dy/article/KRI2M1J30511ABV6.html

摩尔定律

延伸阅读

补充最近整理过的热点入口。