英伟达每美元性能是AMD15倍?成本解析帮你省更多
梦晨 发自 凹非寺量子位 | 公众号 QbitAI
为什么AI算力霸主永远是英伟达?
不算不知道,一算吓一跳:在英伟达平台每花一美元,获得的性能是AMD的15倍。
尽管英伟达卖的更贵,但只要买齐一套,就更省钱。

来自Signal65的一份最新详尽报告揭示了这个现实,一定条件下生成同样数量的token,英伟达的成本只有AMD的十五分之一。
这份报告基于SemiAnalysis Inference MAX的公开基准测试数据,时间跨度从2025年10月到12月,覆盖了从密集模型到前沿MoE推理模型的全场景测试。

黄仁勋的“买的越多,省的越多”原来是真的。

MoE时代:8卡系统撞上Scaling天花板
AI模型正在经历一场架构革命,打开Artificial Analysis排行榜就会发现,智能度排名前十的开源模型清一色都是MoE(Mixture of Experts,专家混合)推理模型。

另一项来自OpenRouter的数据显示,超过50%的token流量正在被路由到推理模型上。

MoE架构的核心思路是把模型参数拆分成多个专门化的“专家”子网络,每个token只激活其中一小部分。
以经典的DeepSeek-R1为例,它拥有6710亿总参数,但每个token只激活370亿——这让它能以更低的计算成本提供前沿级别的智能。

问题随之而来。当专家分布在多块GPU上时,GPU之间的通信延迟会导致计算单元空闲等待数据,这些空闲时间直接转化为服务商的成本。
报告指出,无论是英伟达B200还是AMD MI355X,所有8卡系统在超出单节点规模后都会撞上“扩展天花板”(scaling ceiling)。
英伟达GB200 NVL72的解法是把72块GPU通过NVLink连接成一个单一域,提供130 TB/s的互联带宽。
在软件层面,整个系统就像一块巨型GPU一样运作。配合英伟达Dynamo推理框架的分离式预填充-解码调度和动态KV缓存路由,这套架构能够有效突破8卡系统的通信瓶颈。
模型越复杂,英伟达的优势越明显
报告测试了三类典型模型:模型越复杂,英伟达的优势越明显。
在密集模型Llama 3.3 70B上,英伟达B200对比AMD MI355X的领先幅度相对温和。
在基线交互性(30 tokens/sec/user)下,B200的性能约为MI355X的1.8倍;当交互性要求提升到110 tokens/sec/user时,这一差距扩大到6倍以上。

中等规模的MoE模型GPT-OSS-120B开始让差距变得更加显著。
这款OpenAI开源模型拥有1170亿总参数,但每个token只激活约51亿参数。在2025年12月的测试数据中,100 tokens/sec/user交互性下B200的性能接近MI355X的3倍。
在更符合推理模型需求的250 tokens/sec/user条件下,差距扩大到6.6倍。

两个平台的绝对性能相比10月都有显著提升,英伟达的峰值吞吐从约7000 tokens/sec跃升至14000以上,AMD则从约6000提升到8500左右,但相对差距反而拉大了。

真正的分水岭出现在前沿推理模型DeepSeek-R1上。
这款模型集MoE路由、大参数规模和高强度推理生成于一身,对基础设施的要求极为苛刻。
测试结果显示:在25 tokens/sec/user交互性下,GB200 NVL72的每GPU性能是H200的10倍、MI325X的16倍;在60 tokens/sec/user下,相比H200的优势扩大到24倍,相比MI355X达到11.5倍;在75 tokens/sec/user下,GB200 NVL72的性能是B200单节点配置的6.5倍,是MI355X的28倍。

更关键的是,GB200 NVL72能够达到竞争平台根本无法企及的水平,在28卡配置下可以输出超过275 tokens/sec/user,而MI355X在相当吞吐水平下的峰值只有75 tokens/sec/user。
Token经济学:贵了1.86倍,便宜了15倍
直觉上,性能更强的平台应该更贵。事实也确实如此:根据Oracle Cloud的公开定价,GB200 NVL72的每GPU每小时价格为16美元,MI355X为8.60美元,前者是后者的1.86倍。
如果参照CoreWeave的定价,GB200 NVL72相比上一代H200的价格也贵了约1.67倍。

但报告的计算揭示了一个反直觉的结论:
在25 tokens/sec/user交互性下,GB200 NVL72的性能优势为5.85倍,除以1.86倍的价格溢价,每美元性能仍是MI355X的3.1倍。
在75 tokens/sec/user交互性下,28倍的性能优势除以1.86倍的价格,每美元性能达到MI355X的15倍,这意味着生成同等数量的token,英伟达平台的成本只有AMD的十五分之一。

与上一代产品的对比同样惊人。
报告估算在DeepSeek-R1的典型工作负载下,GB200 NVL72相比H200的性能提升约20倍。

而GB200 NVL72价格仅上涨1.67倍,换算下来每美元性能提升约12倍,单token成本降至H200的十二分之一。

MoE推理让网络成为推理成本的瓶颈,而机柜级的GB200 NVL72恰好解决了这个问题。价值的衡量标准正在从单纯的算力转向“每美元能产出多少智能”。
报告在结论中指出,AMD的竞争力并未被完全否定——在密集模型和容量驱动的场景下,MI325X和MI355X仍有用武之地。
AMD的机柜级解决方案Helios也在开发中,可能在未来12个月内缩小差距。
但就当前的前沿推理模型而言,从芯片到互联到软件的端到端平台设计,已经成为成本效益的决定性因素。
[1]https://signal65.com/research/ai/from-dense-to-mixture-of-experts-the-new-economics-of-ai-inference/
相关攻略
AMD首席执行官苏姿丰表示,中国内地市场贡献了公司约20%的营收,是至关重要的市场。她预测,随着AI推理等技术加速落地,未来五年CPU市场年增长率将超过35%。AMD在中国业务广泛,覆盖个人电脑、游戏及数据中心等领域,并在大中华区设有多个研发中心和AI卓越中心,以推动本地生态发展。
2026年4月18日,在“2026开放计算ROCm生态大会”上,上海精智实业股份有限公司宣布了一项重要生态合作:其旗下的工业AI核心平台——蓝沃AI,正式加入AMD ROCm Lab生态伙伴计划。这不仅是一次战略合作发布,更标志着上海精智在“AI+智能制造”领域的生态布局实现了关键闭环。继此前与西门
5月20日,行业消息显示,AMD正计划进一步丰富其AM5平台的产品阵容,或将推出一款全新的3D V-Cache处理器。知名爆料人@g01d3nm4ng0透露,这款可能命名为锐龙7 7700X3D的新品已进入发布流程。 根据泄露的规格参数,锐龙7 7700X3D在核心架构上与热门的锐龙7 7800X3
今年二月,AMD正式推出了专为边缘计算、电信基础设施及云存储等应用场景优化的EPYC(霄龙)8005系列“Sorano”服务器处理器,并公布了初步技术规格。随着更多详细信息的公开,这款致力于高密度与高能效设计的处理器产品细节已更为明确。 近期,AMD通过官方博客进一步揭示了“Sorano”系列处理器
近期发布的AMDMI355XAI显卡实测报告显示,其凭借288GB海量显存在长文本处理上优势显著。尽管芯片互联带宽不及NVIDIAB200,但通过创新的张量序列并行与树状注意力算法优化,有效弥补了硬件短板。在DeepSeek等大模型推理测试中,优化后的MI355X系统吞吐量已逼近B200,证明
热门专题
热门推荐
MiniCPM-o 4 5是什么 在探索更自然、更智能的人机交互道路上,我们始终在期待一个“全能型选手”的到来。如今,这个角色或许已经登场。面壁智能最新开源的MiniCPM-o 4 5,一个仅拥有90亿参数的全模态大模型,正致力于重新划定“智能对话”的边界。 它彻底颠覆了传统一问一答的“对讲机”式交
Binance币安 欧易OKX ️ Huobi火币️ 想在2025年安全获取欧易OKX的正版APP?其实秘诀就一个:认准官方网站,避开所有仿冒和可疑的下载渠道。要知道,欧易现已统一更名为欧易OKX,其核心业务始终围绕数字资产交易及相关服务展开。 确认官方网站地址 第一步,打开浏览器,手动输入欧易OK
SecondMe Book是什么 在AI社交这一前沿赛道,一款国产平台正带来独特的解决方案。SecondMe Book,本质上是一个能够让你构建个人AI数字分身的创新平台。它允许用户创建一个能够代表真实自我风格与思维的AI数字身份,并让这个“第二自我”在一个专属的AI社交网络中自主运行——包括主动发
在AI大模型技术快速发展的今天,如何在卓越性能与高效推理成本之间取得最佳平衡,已成为行业关注的核心焦点。近期,由阶跃星辰推出的开源模型Step 3 5 Flash引发了广泛热议。该模型专为智能体(AI Agent)应用场景深度优化,旨在顶尖能力与亲民部署成本之间,构建一个极具竞争力的技术支点。 简而
LongCat-Flash-Lite是什么 在探索大语言模型性能与效率的最佳平衡点时,美团近期推出的LongCat-Flash-Lite提供了一个极具创新性的解决方案。作为新一代高效大语言模型,它凭借其突破性的架构设计,在人工智能领域获得了广泛关注。 简而言之,该模型创新性地融合了“混合专家系统(M





