快科技7月2日消息,英伟达正式宣布,其Blackwell平台通过全栈推理软件深度优化,使得DeepSeek V4模型的单Token成本在一个月内大幅削减至原先的五分之一。
随着企业从AI试验阶段迈向生产级AI工厂,基础设施的决策逻辑已发生根本性转型——评判标准不再单纯依赖芯片的峰值性能,而是聚焦于每元成本、每瓦功耗以及在目标延迟约束下,究竟能高效产出多少有实际价值的Token。

英伟达通过构建三层软件架构实现了Token成本的显著降低。生产运营层负责分布式服务的编排调度与自动扩缩容,应用加速层则借助计算与通信的重叠以及内核融合技术进行运行时优化,基础设施访问层直接与GPU、网络及系统底层能力交互。这相当于为AI推理流程装备了一条智能流水线——每一层各司其职,协同运作,形成合力。
多项创新技术叠加之后,Blackwell平台单GPU的Token吞吐量最高可提升20倍。背后所运用的关键技术包括分离式服务、基于NVLink的大规模专家并行策略、NVFP4精度格式,以及多Token预测机制。简而言之,这一方案几乎将硬件潜能压榨到了极致。
英伟达将单Token成本确立为衡量AI总拥有成本的核心指标,而Blackwell平台已成功将其降至行业最低水平。

多家推理服务商已从中收获显著效益。Baseten借助TensorRT-LLM开源库在Blackwell平台上部署DeepSeek V4 Pro,其每秒Token输出量直接提升了50%。
Cognition则利用Dynamo推理框架高效管理GPU资源,无需从零搭建即可轻松扩展强化学习工作负载。Together AI同样采用TensorRT-LLM,帮助Cursor加速从模型优化到生产部署的完整链路。

开源生态进一步放大了这一全栈架构的优势。PyTorch等主流深度学习框架均原生基于CUDA构建,这意味着最新的研究成果一旦发布,即可立即在NVIDIA GPU上获得运行支持。
DeepSeek V4发布之后,vLLM和SGLang等推理框架迅速为Blackwell平台提供了部署方案,在一个月内实现了高达5倍的性能提升。这正是生态力量的体现——无需等待官方优化,社区力量已自主完成性能加速。

