首页 游戏 软件 资讯 排行榜 专题
首页
AI
DeepSeek-R1发布一年,每token成本降至原价1/32

DeepSeek-R1发布一年,每token成本降至原价1/32

热心网友
86
转载
2026-01-09

编辑 | 杜伟、泽南

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

几天前,DeepSeek 毫无预兆地更新了 R1 论文,将原有的 22 页增加到了现在的 86 页。

新版本充实了更多细节内容,包括首次公开训练全路径,即从冷启动、训练导向 RL、拒绝采样与再微调到全场景对齐 RL 的四阶段 pipeline,以及「Aha Moment」的数据化验证等等。



DeepSeek-R1 是在 2025 年 1 月 20 日发布的开源推理大模型,它拥有 6710 亿参数、单 Token 激活参数为 370 亿,并采用了 MoE 架构,训练效率得到了显著提升。

R1 在去年的推出震动了全球 AI 领域,其高效率的模型架构、训练方法、工程优化和蒸馏方法在之后成为了全行业的趋势。

没想到在不到一年之后的今天,R1 模型的每 token 成本竟已降低了到了 1/32!

今天,英伟达发表了一篇长文博客,展示了其如何在 Blackwell GPU 上通过软硬协同对 DeepSeek-R1 进一步降本增效。



随着 AI 模型智能程度的不断提升,人们开始依托 AI 处理日益复杂的任务。从普通消费者到大型企业,用户与 AI 交互的频率显著增加,这也意味着需要生成的 Token 数量呈指数级增长。为了以最低成本提供这些 Token,AI 平台必须实现极高的每瓦特 Token 吞吐量。

通过在 GPU、CPU、网络、软件、供电及散热方案上的深度协同设计,英伟达持续提升每瓦特 Token 吞吐量,从而有效降低了每百万 Token 的成本。此外,英伟达不断优化其软件栈,从现有平台中挖掘更强的性能潜力。

那么,英伟达是怎样协同利用运行在 Blackwell 架构上的推理软件栈,以实现 DeepSeek-R1 在多种应用场景中的性能增益呢?我们接着往下看。

最新 NVIDIA TensorRT-LLM 软件大幅提升推理性能

NVIDIA GB200 NVL72 是一个多节点液冷机架级扩展系统,适用于高度密集型的工作负载。该系统通过第五代 NVIDIA NVLink 互连技术和 NVLink Switch 芯片连接了 72 个 NVIDIA Blackwell GPU,为机架内的所有芯片提供高达 1800 GB/s 的双向带宽。

这种大规模的「扩展域」(Scale-up Domain)专为稀疏 MoE 架构优化,此类模型在生成 Token 时需要专家之间频繁的数据交换。

Blackwell 架构还加入了对 NVFP4 数据格式的硬件加速。这是英伟达设计的一种 4 位浮点格式,相比其他 FP4 格式能更好地保持精度。此外,解耦服务(Disaggregated Serving)这类优化技术也充分利用了 NVL72 架构和 NVLink Switch 技术。简单来解释一下解耦服务,即在一组 GPU 上执行 Prefill(预填充)操作,在另一组 GPU 上执行 Decode(解码)操作。

这些架构创新使得 NVIDIA GB200 NVL72 在运行 DeepSeek-R1 时,能够提供行业领先的性能。

得益于最新 NVIDIA TensorRT-LLM 软件和 GB200 NVL72 的协同,DeepSeek-R1 在 8K/1K 输入 / 输出序列长度下的 Token 吞吐量大幅提升。



同样地,得益于最新 NVIDIA TensorRT-LLM 软件与 GB200 NVL72 的协同,在 1K/1K 序列长度下,DeepSeek-R1 Token 吞吐量同样大幅提升。



另外,在 8K/1K、1K/1K 两种输入 / 输出序列长度的吞吐量与交互性曲线上,GB200 NVL72 也展现出了领先的单 GPU 吞吐能力。

而 TensorRT-LLM 开源库(用于优化 LLM 推理)的最新增强功能,在同一平台上再次大幅增强了性能。在过去三个月中,每个 Blackwell GPU 的吞吐量提升高达 2.8 倍(这里指的是在 8k/1k 输入 / 输出序列长度下,去年 10 月到今年 1 月的 Token 吞吐量变化)。

这些优化背后的核心技术包括:

扩大 NVIDIA 程序化依赖启动 (PDL) 的应用:降低核函数启动延迟,有助于提升各种交互水平下的吞吐量;底层核函数优化:更高效地利用 NVIDIA Blackwell Tensor Core;优化的 All-to-all 通信原语:消除了接收端的额外中间缓冲区。

有业内人士对英伟达放出的一系列图表进行了直观的解读,用一组数据来总结就是,「通过软硬件的深度协同,自 2025 年 1 月以来,英伟达已经将 DeepSeek-R1 (671B) 的吞吐量提升了约 36 倍,这意味着单 Token 的推理成本降低到了约 1/32。」





利用多 token 预测和 NVFP4 技术加速 NVIDIA HGX B200 性能

NVIDIA HGX B200 平台由八个采用第五代 NVLink 互连和 NVLink Switch 连接的 Blackwell GPU 组成,在风冷环境下也能实现强大的 DeepSeek-R1 推理性能。

两项关键技术使 HGX B200 上的 DeepSeek-R1 推理性能大幅提升。第一项技术是使用多 token 预测 (MTP),它可以显著提高各种交互级别下的吞吐量。在所有三种测试的输入 / 输出序列组合中都观察到了这一现象。



在 HGX B200 平台上,使用 1K/1K 序列长度和聚合服务模式下,FP8(不带 MTP)、FP8(带 MTP)和 NVFP4(带 MTP)的吞吐量与交互性曲线对比。

第二种方法是使用 NVFP4,充分利用 Blackwell GPU 计算能力来提升性能,同时保持精度。



在 HGX B200 平台上,使用 8K/1K 序列长度和聚合服务模式下,FP8(不含 MTP)、FP8(含 MTP)和 NVFP4(含 MTP)的吞吐量与交互性曲线对比。

NVFP4 使用在完整的 NVIDIA 软件栈上(包括 TensorRT-LLM 和 NVIDIA TensorRT 模型优化器),以确保高性能并保持精度。这使得在给定交互级别下能够实现更高的吞吐量,并且在相同的 HGX B200 平台上,可以实现更高的交互级别。



在 HGX B200 平台上,FP8(无 MTP)、FP8(有 MTP)和 NVFP4(有 MTP)的吞吐量与交互性曲线,序列长度分别为 1K 和 8K,并采用聚合服务模式。

英伟达表示,其正在不断提升整个技术堆栈的性能,可以帮助用户基于现有硬件产品,持续提升大语言模型的工作负载效率,提升各种模型的 token 吞吐量。

博客地址:

https://developer.nvidia.com/blog/delivering-massive-performance-leaps-for-mixture-of-experts-inference-on-nvidia-blackwell/

来源:https://www.163.com/dy/article/KIRBP7N40511AQHO.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

黄仁勋为何停不下来?剖析英伟达的持续增长密码
科技数码
黄仁勋为何停不下来?剖析英伟达的持续增长密码

文 | 深流研究所,作者 | 绛枫2025年12月,黄仁勋做客Joe Rogan播客,承认自己一直处于焦虑状态。他说了一句用了三十多年的老话—— "英伟达离倒闭永远只有30天 ",然后补了一句很少有人注

热心网友
03.28
国产芯片错失联发科机遇:反思自主研发与生态协作
科技数码
国产芯片错失联发科机遇:反思自主研发与生态协作

    “500人的技术团队投入,换不来与谷歌、英伟达同台竞技的话语权。”  作者丨刘伊伦  编辑丨包永刚  “超节点互联协议生态的碎片化,正成为制约其规模化部署的核心瓶颈。”奇异摩尔CEO田陌晨说

热心网友
03.28
中兴AI新战略:不依赖GPU,如何显著降低推理成本
AI
中兴AI新战略:不依赖GPU,如何显著降低推理成本

新智元报道编辑:桃子【新智元导读】在万亿级大模型横行的时代,单纯靠「堆芯片」已经玩不动了。中兴交出了一份不一样的答卷:跳出单一芯片的性能内卷,靠「系统级协同」重构智算底座。当前AI大模型参数规模已突

热心网友
03.27
Arm芯片自研风波:CEO回应合作与竞争,直面英特尔AMD市场
科技数码
Arm芯片自研风波:CEO回应合作与竞争,直面英特尔AMD市场

芯东西(公众号:aichip001)编译 刘煜编辑 陈骏达芯东西3月27日消息,3月25日,《连线(Wired)》杂志发布了对Arm CEO Rene Haas的46分钟的采访报道。在本次采访中,H

热心网友
03.27
英伟达2026年GTC洞察:万亿订单背后的AI爆发与Token经济学
科技数码
英伟达2026年GTC洞察:万亿订单背后的AI爆发与Token经济学

文 | 硅谷1011万亿美元,这是接下来21个月,英伟达GPU订单的收入预期。刚过去的GTC大会,黄仁勋开始停止了讲芯片的故事。他开始瞄准更大的叙事:token经济,而这将是更有野心且更持久的市场蛋

热心网友
03.27

最新APP

暗黑之地
暗黑之地
角色扮演 03-28
你比我猜
你比我猜
休闲益智 03-26
锦绣商铺
锦绣商铺
模拟经营 03-26
儿童画画
儿童画画
休闲益智 03-25
疯狂猜词
疯狂猜词
休闲益智 03-25

热门推荐

明日方舟终末地主线后开启小陈剧情攻略
游戏攻略
明日方舟终末地主线后开启小陈剧情攻略

在明日方舟终末地中,小陈剧情的开启需要满足一定条件并完成特定任务。首先,要确保玩家已经达到一定的游戏进度。这包括推进主线剧情到一定阶段,解锁了相应的区域和功能。随着主线剧情的推进,

热心网友
03.28
逐玉与白日提灯对比解析:没有对比就没有伤害
娱乐
逐玉与白日提灯对比解析:没有对比就没有伤害

前言《逐玉》大结局落幕那晚,我盯着屏幕良久,胸口像压了块浸水的棉絮,沉闷得喘不过气。从首播时满怀热望地守在更新页面,到中期边看边叹气、反复暂停找逻辑漏洞,再到最后几集干脆调成倍速、只为“完成任务”式

热心网友
03.28
4月1日起俄罗斯拟禁汽油出口,全球油价或再迎上涨
业界动态
4月1日起俄罗斯拟禁汽油出口,全球油价或再迎上涨

3月28日消息 据新华社报道,俄罗斯政府日前宣布了一项重要的能源指令。俄副总理亚历山大·诺瓦克已指示能源部起草行政命令,计划从4月1日起全面禁止汽油出口。此举的核心目的是在中东战事引发全球能源市场动

热心网友
03.28
蓝海读书官方入口与在线阅读网址使用指南
电脑教程
蓝海读书官方入口与在线阅读网址使用指南

蓝海搜书最新可用网址是https: www lanhaizw com ,平台具备极简无广告界面、全球CDN加速、三类自适应阅读模式、四重语义检索、27个细分分类、跨设备同步及离线

热心网友
03.28
悟空浏览器网页正版入口在哪?下载与使用全指南
手机教程
悟空浏览器网页正版入口在哪?下载与使用全指南

在网络信息爆炸的时代,一款好用的浏览器能为我们带来便捷与丰富的体验。悟空浏览器网页版正式版入口,成为众多用户探索网络精彩的关键通道。悟空浏览器以其简洁界面和强大功能吸引着广大用户。

热心网友
03.28