6月30日消息,

随着人工智能从试点阶段迈向规模化生产的AI工厂,围绕基础设施的讨论发生了根本性转变。评判标准不再是芯片峰值规格或原始算力(FLOPS),而是每个令牌的成本——在特定延迟要求下,每消耗一美元、每瓦特电能,能产出多少个有价值的令牌。这已成为行业的新标杆。
英伟达的完整推理软件栈与其GPU、CPU、网络和系统深度协同,并从广阔的开源生态中汲取力量。结果是:无需修改任何芯片,硬件性能就在持续提升。以Blackwell平台为例,软件栈在一个月内就将DeepSeek V4的令牌成本降低了高达5倍。试想一下:仅凭软件优化就实现了五倍的性能飞跃。
领先企业和推理服务提供商已经开始感受到这种叠加效应。以下是他们的具体实践摘要:
- Baseten 借助NVIDIA TensorRT-LLM,在Blackwell上为DeepSeek V4 Pro提供推理服务,涵盖推理、编程和长上下文场景。通过专有运行时优化,他们每秒处理的令牌数提升了最多50%。
- Cognition 采用NVIDIA Dynamo推理框架来管理其推理GPU。这为团队提供了一条现成的规模化强化学习工作负载的路径,无需从零构建基础设施。
- Deep Infra 从第一天起就在Blackwell上使用NVIDIA推理软件栈为前沿开源模型(包括DeepSeek V4)提供服务。
- Together AI 将Blackwell上的NVIDIA TensorRT-LLM与Cursor的需求结合,加速了从模型优化到生产端点的实时编程交付流程。
为什么软件对推理经济学至关重要
传统的Web、搜索和SaaS工作负载相对可预测:用户加载页面、刷新信息流或更新记录。请求沿着相似的软件路径执行——从数据库读取或写入——扩展只需增加更多相同的服务器。而智能体AI则完全不同。
智能体需要推理、规划、调用工具、生成专业子智能体,并在多轮工作流中管理海量上下文。单个请求会演变为一个分布式计算难题:数百个子智能体、数千个任务、多个大语言模型,横跨GPU、CPU、DPU和存储系统运行。软件栈决定了这些复杂性是转化为浪费的资源,还是转化为更低的每令牌成本。
降低每令牌成本并非源于单一魔法,而是将各项优化转化为系统级性能。NVIDIA的推理软件栈通过连接三个层次实现这一目标:
- 生产运维层协调分布式服务、编排、自动扩缩容和内存管理,确保推理在合适的计算和存储资源上运行。
- 应用加速层以高性能运行模型,同时为开发者提供调优和定制的空间——利用计算与通信重叠、内核融合等运行时优化。
- 基础设施接入层开放NVIDIA GPU、网络、内存和系统能力,使开发者无需手动管理每条设备指令集或数据传输协议。
当这些层次作为一个系统协同工作时,单项优化将产生叠加效应。解耦服务、基于NVIDIA NVLink的大规模专家并行、NVFP4精度以及多令牌预测各自都能带来显著提升。综合起来,吞吐量可提升高达20倍。下面的图表展示了这一效果。要在生产环境中捕获这种增益相当复杂——需要协调整个推理栈,从生产运维和模型运行时到内核、通信库和硬件访问。NVIDIA的软件栈设计就是让这些层次协同工作,使每项优化都能相互增益。
开源生态放大全栈优势
同样的全栈基础通过开源生态得到进一步放大。当今许多最广泛使用的AI框架和推理项目都原生构建于NVIDIA CUDA之上。这意味着新的研究和软件优化从第一天起就能在NVIDIA GPU上以领先性能运行。PyTorch就是一个典型例子:它自2016年发布时就原生支持CUDA,与NVIDIA架构共同演进,让开发者通过熟悉的框架就能直接使用Tensor Core、Transformer Engine和NVFP4等创新技术。
当突破性成果出现时——比如DFlash推测解码(在现有硬件上吞吐量提升高达15倍),或FastVideo(在五秒内生成1080p视频)——它们都会落地在PyTorch中,并立即在NVIDIA上运行。这帮助AI工厂将研究进展转化为更低的令牌成本。
这种开源动力意味着,每当像DeepSeek V4这样的前沿模型发布时,领先的推理框架(如vLLM和SGLang)就会提供针对NVIDIA Blackwell架构的零日部署方案。模型随即能在数百万个Blackwell GPU上被访问。这也是为何DeepSeek V4在Blackwell上的性能在大约一个月内提升了高达5倍——在vLLM和SGLang中均如此——将令牌成本降至原先的五分之一左右。
这就是开源飞轮的运作方式:更多开发者优化CUDA原生推理路径,更多生产部署反馈到生态系统中,每次软件改进都增加实际输出的令牌量,同时持续降低每令牌成本。
