NVIDIA推理软件栈实现最低Token成本

时间：2026-07-01 12:25

6月30日消息，随着人工智能从试点阶段迈向规模化生产的AI工厂，围绕基础设施的讨论发生了根本性转变。评判标准不再是芯片峰值规格或原始算力（FLOPS），而是每个令牌的成本——在特定延迟要求下，每消耗一美元、每瓦特电能，能产出多少个有价值的令牌。这已成为行业的新标杆。英伟达的完整推理软件栈与其GP

6月30日消息，

How NVIDIA’s Inference Software Stack Powers the Lowest Token Cost

随着人工智能从试点阶段迈向规模化生产的AI工厂，围绕基础设施的讨论发生了根本性转变。评判标准不再是芯片峰值规格或原始算力（FLOPS），而是每个令牌的成本——在特定延迟要求下，每消耗一美元、每瓦特电能，能产出多少个有价值的令牌。这已成为行业的新标杆。

英伟达的完整推理软件栈与其GPU、CPU、网络和系统深度协同，并从广阔的开源生态中汲取力量。结果是：无需修改任何芯片，硬件性能就在持续提升。以Blackwell平台为例，软件栈在一个月内就将DeepSeek V4的令牌成本降低了高达5倍。试想一下：仅凭软件优化就实现了五倍的性能飞跃。

领先企业和推理服务提供商已经开始感受到这种叠加效应。以下是他们的具体实践摘要：

Baseten 借助NVIDIA TensorRT-LLM，在Blackwell上为DeepSeek V4 Pro提供推理服务，涵盖推理、编程和长上下文场景。通过专有运行时优化，他们每秒处理的令牌数提升了最多50%。
Cognition 采用NVIDIA Dynamo推理框架来管理其推理GPU。这为团队提供了一条现成的规模化强化学习工作负载的路径，无需从零构建基础设施。
Deep Infra 从第一天起就在Blackwell上使用NVIDIA推理软件栈为前沿开源模型（包括DeepSeek V4）提供服务。
Together AI 将Blackwell上的NVIDIA TensorRT-LLM与Cursor的需求结合，加速了从模型优化到生产端点的实时编程交付流程。

为什么软件对推理经济学至关重要

传统的Web、搜索和SaaS工作负载相对可预测：用户加载页面、刷新信息流或更新记录。请求沿着相似的软件路径执行——从数据库读取或写入——扩展只需增加更多相同的服务器。而智能体AI则完全不同。

智能体需要推理、规划、调用工具、生成专业子智能体，并在多轮工作流中管理海量上下文。单个请求会演变为一个分布式计算难题：数百个子智能体、数千个任务、多个大语言模型，横跨GPU、CPU、DPU和存储系统运行。软件栈决定了这些复杂性是转化为浪费的资源，还是转化为更低的每令牌成本。

降低每令牌成本并非源于单一魔法，而是将各项优化转化为系统级性能。NVIDIA的推理软件栈通过连接三个层次实现这一目标：

生产运维层协调分布式服务、编排、自动扩缩容和内存管理，确保推理在合适的计算和存储资源上运行。
应用加速层以高性能运行模型，同时为开发者提供调优和定制的空间——利用计算与通信重叠、内核融合等运行时优化。
基础设施接入层开放NVIDIA GPU、网络、内存和系统能力，使开发者无需手动管理每条设备指令集或数据传输协议。

当这些层次作为一个系统协同工作时，单项优化将产生叠加效应。解耦服务、基于NVIDIA NVLink的大规模专家并行、NVFP4精度以及多令牌预测各自都能带来显著提升。综合起来，吞吐量可提升高达20倍。下面的图表展示了这一效果。要在生产环境中捕获这种增益相当复杂——需要协调整个推理栈，从生产运维和模型运行时到内核、通信库和硬件访问。NVIDIA的软件栈设计就是让这些层次协同工作，使每项优化都能相互增益。

开源生态放大全栈优势

同样的全栈基础通过开源生态得到进一步放大。当今许多最广泛使用的AI框架和推理项目都原生构建于NVIDIA CUDA之上。这意味着新的研究和软件优化从第一天起就能在NVIDIA GPU上以领先性能运行。PyTorch就是一个典型例子：它自2016年发布时就原生支持CUDA，与NVIDIA架构共同演进，让开发者通过熟悉的框架就能直接使用Tensor Core、Transformer Engine和NVFP4等创新技术。

当突破性成果出现时——比如DFlash推测解码（在现有硬件上吞吐量提升高达15倍），或FastVideo（在五秒内生成1080p视频）——它们都会落地在PyTorch中，并立即在NVIDIA上运行。这帮助AI工厂将研究进展转化为更低的令牌成本。

这种开源动力意味着，每当像DeepSeek V4这样的前沿模型发布时，领先的推理框架（如vLLM和SGLang）就会提供针对NVIDIA Blackwell架构的零日部署方案。模型随即能在数百万个Blackwell GPU上被访问。这也是为何DeepSeek V4在Blackwell上的性能在大约一个月内提升了高达5倍——在vLLM和SGLang中均如此——将令牌成本降至原先的五分之一左右。

这就是开源飞轮的运作方式：更多开发者优化CUDA原生推理路径，更多生产部署反馈到生态系统中，每次软件改进都增加实际输出的令牌量，同时持续降低每令牌成本。

来源：https://www.ithome.com/0/970/781.htm

IDIA

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

业界动态 · 2026-07-01

诺基亚TA-1619入网：1400mAh电池双卡双待新机

诺基亚又有新动作了。7月1日消息，一款型号为TA-1619的诺基亚新机已经拿到了电信设备进网许可，不过证件照目前还没公布。从入网信息来看，这是一款TD-LTE数字移动电话机，支持TD-LTE网络，属于LTE单天线终端设备。双卡双待、VoLTE语音模式都支持，终端款式为直板。核心配置方面，电池额定容

业界动态 · 2026-07-01

芯佰微CBMRF900系列国产射频芯片突破海外壁垒

芯佰微电子发布CBMRF9002和CBMRF9009两款射频收发芯片，采用直接变频架构，覆盖10MHz至7250MHz频段，支持最大450MHz带宽及JESD204B高速接口，性能对标国际，满足5G基站与卫星通信等高端需求，突破海外技术壁垒。

业界动态 · 2026-07-01

月起私人充电桩可卖电每度净赚5毛

近期有一则重大利好消息，值得新能源车主们特别留意——车网互动价格机制改革已正式落地。自7月1日起，湖北武汉的新能源车主，可在家中的私人充电桩上通过“卖电”轻松赚钱。具体而言，就是借助峰谷电价差，实现低买高卖，每度电净收益约5毛钱。过去，车网互动（V2G）基本只局限于特定的公共充电站，受试点规模限制，

业界动态 · 2026-07-01

谷歌发布Nano Banana 2 Lite 4秒出图1元4张

先说几个关键信息：谷歌DeepMind又给图像生成赛道添了新选项。7月1日发布的消息，Nano Banana 2 Lite正式亮相。这个名字听起来像是水果命名系列大爆发，实际上它的技术代号是Gemini 3 1 Flash Lite Image，属于Gemini 3 1家族。最大的卖点就两个：快，便

业界动态 · 2026-07-01

技嘉专业电竞装备助力2025 CFS世界总决赛

2025CFS世界总决赛将于12月3日至14日在重庆举行，来自四大赛区的16支战队参赛。技嘉AORUS作为赛事设备合作伙伴，以主板、显示器等专业硬件保障比赛稳定流畅，并通过赛事反哺研发的闭环模式支持电竞发展。