首页 游戏 软件 资讯 排行榜 专题
首页
AI
英伟达GB200价格翻倍却抢购一空,AMD能否抓住机会?

英伟达GB200价格翻倍却抢购一空,AMD能否抓住机会?

热心网友
22
转载
2026-01-03


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

新智元报道

编辑:桃子

【新智元导读】AI推理游戏规则,正悄然改变。一份最新报告揭示了关键转折:如今决定胜负的,不再是单纯的芯片性能或GPU数量,而是 「每一美元能输出多少智能」。

AI推理,现已不只看算力硬指标了!

Signal65一份最新报告中,英伟达GB200 NVL72是AMD MI350X吞吐量28倍。

而且,在高交互场景在,DeepSeek R1每Token成本还能低到15倍。


GB200每小时单价大概是贵一倍左右,但这根本不重要。因为机柜级NVLink互联+软件调度能力,彻底改变了成本结构。

顶级投资人Ben Pouladian称,「目前的关键不再是算力或GPU数量,而是每一美元能买到多少智能输出」。


如今,英伟达仍是王者。其他竞争对手根本做不到这种交互水平,这就是护城河。


最关键的是,这还没有集成200亿刀买入Groq的推理能力。

这里,再mark下老黄至理名言——The more you buy, the more you save!


AI推理重心:一美元输出多少智能?

这篇万字报告,探索了从稠密模型(Dense)到混合专家模型(MoE)推理背后的一些本质现象。


传统的「稠密模型」架构要求:在生成每个Token时都激活模型里的全部参数。

这就意味着:模型越大,运行越慢、成本越高,同时还会带来相应的内存需求增长等问题。


MoE架构,正是为了释放更高水平的智能而生——在每个Token上只激活最相关的「专家」。

搂一眼Artificial Analysis排行榜即可发现,全球TOP 10开源LLM,全部都是MoE推理模型。

它们会在推理阶段额外「加算力」来提高准确性:

LLM不会立刻吐出答案,而是先生成中间的推理Token,再输出,相当于先把请求和解法「想一遍」。


前16名里有12个是MoE模型

这些推理Token往往远多于最终回复,而且可能完全不会展示出来。能否既快又便宜地生成Token,对推理部署来说就变得至关重要。

那么,MoE方法的主要约束在哪里?

一个核心限制在于「通信瓶颈」。

当不同专家分布在多块GPU上时,任何GPU之间通信的延迟,都会让GPU空闲等待数据。


OpenRouter一份近期报告,超50%的Token会被路由到推理模型上

这些「空转时间」(idle time)代表着被浪费的、低效的算力,并且会直接体现在服务提供商的成本底线上。

当评估AI基础设施的「经济性」时,一般会聚焦在三个方面:

性能(吞吐量与交互性)

能效(在既定功耗预算下,可生成的Token数)

总体拥有成本(通常以Token/每百万的成本衡量)

基于公开可用的基准测试数据,Signal65对不同LLM架构下AI基础设施方案进行了对比分析。

分析中,团队采用第三方基准测试所提供的性能数据,来估算相对的Token经济性。

具体来说,他们选取了B200、GB200 NVL72,以及AMD MI355X部分结果,用以对比它们在不同模型场景下的真实性能表现及相应的TCO估算。


结果显示,在稠密架构以及较小规模的MoE中,B200性能优于AMD MI355X。

当模型扩展到像DeepSeek-R1这样需跨越单节点的前沿级规模时,GB200 NVL72性能最高可达到MI355X的28倍。


在高交互性的推理工作负载中,NVL72的单位Token成本最低,可降至其他方案的约1/15。

尽管GB200 NVL72的单GPU小时价格几乎是这些竞争平台的2倍,但其机架级能力——从NVLink高速互连,到覆盖72块GPU的软件编排——共同推动了这种显著更优的单位经济性。

价值评估的重心,正在从单纯的原始FLOPs,转向「每一美元所获得的总体智能」。

这一结论非常明确:

随着MoE模型和推理工作负载带来的复杂性与规模持续上升,行业已无法仅依赖芯片层面的性能提升。

能够在系统层面实现峰值性能的端到端平台设计,已经成为实现低成本、高响应AI服务的关键杠杆。

「稠密模型」推理,英伟达领先

Signal65选择了Llama 3.3 70B作为稠密模型的性能基准,结果如下所示:

帕累托曲线清晰显示出,HGX B200-TRT方案在整个吞吐量与交互性区间内,都具备持续的性能优势。

具体到基线交互性水平,B200的性能大约是MI355X的1.8倍,这为交互式应用部署,以及更高的单GPU并发密度提供了显著余量。


再来看,当交互性提升至110 tokens/sec/user时,这一优势进一步被放大:B200吞吐量超过MI355X的6倍。

整体上,在Llama 3.3 70B测试中,AMD MI355X在单位成本性能方面确实具备一定吸引力。

但这种优势并不能代表更现代的推理技术栈,尤其是以MoE架构和高强度推理工作负载构建的系统。



MoE推理,英伟达领先

那么,在MoE架构上,英伟达和AMD表现又如何?

中等规模推理:gpt-oss-120B

Signal65认为,OpenAI gpt-oss-120B是理解MoE部署特性的一个理想「桥梁案例」。

它足够大,可以把MoE的复杂性暴露出来;

但规模又没有大到离谱,仍然是很多团队能现实部署并调优的范围。

它处在一个很有用的中间地带:介于稠密的70B级模型,与市场正在快速转向的、更前沿的推理型MoE架构之间。


在10月下旬数据里,当目标是100 tokens/sec/user时,B200大约比MI355X快1.4倍;

但当目标提高到250 tokens/sec/user时,差距会扩大到约3.5倍,说明越追求「更快的交互」,平台差异越容易被放大。

不过,12月上旬的数据则呈现出不同局面。

得益于软件优化,两边平台的绝对性能都明显提升:英伟达单GPU峰值吞吐从大约7,000 tokens/sec提升到超过14,000;AMD也从约6,000提升到大约8,500。



前沿推理:DeepSeek-R1

在DeepSeek-R1推理上,测试结果正如开篇所介绍那样,英伟达GB200 NVL72大幅领先。

更多数据如下图所示:


基准测试数据展示了一个被重塑的格局:

GB200 NVL72让「超过8块GPU的张量并行配置」也能进入帕累托前沿,达到单节点平台根本无法匹敌的性能。

在25 tokens/sec/user交互性目标下,GB200 NVL72单GPU性能大约是H200的10倍,并且超过MI325X单GPU性能的16倍。

这类性能差距,正是能为AI服务提供商带来「断崖式」TCO改善的那种差距。

当交互性目标提高到60 tokens/sec/user时,GB200 NVL72相比H200带来了超24倍的代际提升,同时也接近MI355X的11.5倍性能。

在同样25 tokens/sec/user下,GB200 NVL72单GPU性能大约是B200的2倍、是MI355X的5.9倍;

而到60 tokens/sec/user时,这些优势进一步扩大:相对单节点B200达到5.3倍、相对MI355X达到11.5倍。



GPU越贵,token成本越低

英伟达从Hopper过渡到Blackwell,并推出GB200 NVL72时,不仅提升了每GPU算力、内存带宽以及NVLink互连带宽,还对底层系统架构做了重新设计。

从8-GPU风冷HGX服务器转向全液冷的机架级系统,并把72块GPU连接在同一个域内,系统成本和复杂度显然都上升了。


据CoreWeave公布的目录价,按单GPU口径,GB200 NVL72价格大约比H200贵1.7倍。

不过,每一代新技术的目标之一,就是压低「每Token成本」。

对推理而言,具体就是:实际交付的Token吞吐提升幅度,要超过底层基础设施成本的提升幅度。

而从公开的性能数据来看,这正是GB200 NVL72相比Hopper所呈现出的结果。

Signal65把本次的tokenomics(Token经济学)分析,锚定在前文建立的DeepSeek-R1性能差距上:

在25 tokens/sec/user时,GB200 NVL72单GPU性能大约是H200的10倍;

在更高的交互点位上,这个差距会更大(24倍)。

下表总结了成本归一化,以及由此得到的「每美元性能」计算:

这些结果一开始可能有点反直觉:更「贵」的GPU反而更省钱——因为它带来的性能提升远大于价格差异,使得它能以更低成本生成Token。



与AMD相比,英伟达系统在推理token成本上的一些数据对比:


按单GPU口径,MI355X价格大约只有GB200 NVL72配置的一半;

但由于GB200 NVL72单GPU性能优势从低端接近6倍,到高交互性时高达28倍不等,英伟达仍然能提供最高15倍的每美元性能优势。

换句话说,英伟达能实现相对每Token成本仅为竞争对手的1/15。

结论

前沿AI模型的未来,会是更大、更复杂的MoE。

随着模型更深地走向MoE与推理架构,最终效果将不再只取决于原始GPU性能或内存容量。

平台级设计会成为决定性因素——包括互连与通信效率、多节点扩展特性、软件栈成熟度、生态支持与编排能力,以及在并发与混合负载下维持高利用率的能力。

从当前趋势看,来自OpenAI、Meta、Anthropic等前沿公司的旗舰模型,很可能会继续沿着MoE与推理方向演进。

如果这一轨迹成立,英伟达将维持关键的性能与经济性优势。

谷歌TPU这类架构也提供机架级方案,但它们对非自家模型的适用性与性能表现仍不明确。

来源:https://www.163.com/dy/article/KIBPKQAS0511ABV6.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

极夜Next 2迷你主机开售:R7 H255售2999元,支持独显与双网口
娱乐
极夜Next 2迷你主机开售:R7 H255售2999元,支持独显与双网口

IT之家 3 月 29 日消息,极夜(TOPFEEL)新推出了一款 Next 2 迷你主机,搭载 AMD R7 H255 处理器,相比一般的迷你主机最大亮点在于可安装独显。IT之家汇总价格如下:Ne

热心网友
03.29
DDR5内存价格本月首次探底,三大幕后原因解析
电脑教程
DDR5内存价格本月首次探底,三大幕后原因解析

39日消息,持续数月走高的DDR5内存价格,终于迎来了首次明显回落。据市场跟踪数据显示,本周美国多家零售商的DDR5内存出现大范围降价,单套最高降幅达100美元,不过此次优惠仅覆盖少数厂商,其中海盗

热心网友
03.29
骁龙8 Elite Gen6 Pro处理器首发支持LPDDR6内存方案
网络安全
骁龙8 Elite Gen6 Pro处理器首发支持LPDDR6内存方案

IT之家 3 月 29 日消息,下一代旗舰安卓智能手机预计将搭载高通移动端新一代旗舰芯片骁龙 8 Elite Gen6 Pro,近期相关爆料显示,该处理器将支持 LPDDR6 内存。IT之家注意到,

热心网友
03.29
内存涨价潮持续至下半年:手机入手时机分析与建议
网络安全
内存涨价潮持续至下半年:手机入手时机分析与建议

3月28日消息,市场研究机构Counterpoint Research发布的报告显示,受全球供需持续失衡的深度影响,DRAM及NAND闪存价格在2026年迎来了爆发式上涨。多款核心存储产品的价格环比

热心网友
03.28
内存下半年将迎更猛涨价潮:黄金价位买手机要趁早
网络安全
内存下半年将迎更猛涨价潮:黄金价位买手机要趁早

快科技3月28日消息,市场研究机构Counterpoint Research发布的报告显示,受全球供需持续失衡的深度影响,DRAM及NAND闪存价格在2026年迎来了爆发式上涨。多款核心存储产品的价

热心网友
03.28

最新APP

暗黑之地
暗黑之地
角色扮演 03-28
你比我猜
你比我猜
休闲益智 03-26
锦绣商铺
锦绣商铺
模拟经营 03-26
儿童画画
儿童画画
休闲益智 03-25
疯狂猜词
疯狂猜词
休闲益智 03-25

热门推荐

显示器颜色校正教程:5步解决偏色与颜色不准
电脑教程
显示器颜色校正教程:5步解决偏色与颜色不准

首先使用系统内置工具校准显示器颜色,调整伽马、亮度、对比度和色彩平衡;其次可借助专业校色仪进行硬件级校准并生成ICC配置文件;接着检查并更换高质量视频线缆以确保信号稳定;然后更新显

热心网友
03.29
萤石云监控删除录像教程:清理云端历史视频记录
手机教程
萤石云监控删除录像教程:清理云端历史视频记录

1、第一步,在手机中打开萤石云应用程序,然后单击萤石云智能相机设备进入,见下图,转到下面的步骤。2、第二步,执行完上面的操作之后,可以检查摄像机的实时监控屏幕,此时,单击右上角的三

热心网友
03.29
机械方方果实获取攻略:《洛克王国》世界任务指南
游戏攻略
机械方方果实获取攻略:《洛克王国》世界任务指南

《洛克王国:世界》是由腾讯IEG魔方工作室群开发的大世界精灵收集养成战斗游戏,在游戏中有许许多多不同的精灵,游戏中可以用果实来产生精灵,那么有不少小伙伴好奇机械方方果实怎么获得,下

热心网友
03.29
33岁男星泰国暴尸疑点披露:最新调查揭秘致命真相
娱乐
33岁男星泰国暴尸疑点披露:最新调查揭秘致命真相

近日,泰国普吉岛的一则噩耗引发全球关注——33岁的英国真人秀男明星乔丹·赖特,被发现溺亡于当地一处排水沟中。无独有偶,就在上个月,一名中国女子在泰国芭提雅参加泳池派对后失联,最终被警方发现其不幸遇害

热心网友
03.29
电脑CPU是核心:查看位置、功能与选购指南
电脑教程
电脑CPU是核心:查看位置、功能与选购指南

CPU位于主板中央偏上、散热器正下方的专用插槽中,可通过机箱目视、系统软件(如msinfo32、HWiNFO64)或主板说明书图示三步精准定位。如果您想定位电脑中负责核心运算与指令

热心网友
03.29