黄仁勋揭示边缘推理机遇：推理拐点到来，新窗口如何开拓？

时间：2026-03-26 17:07

上周，纽约时报报道了硅谷一个新风气叫 tokenmaxxing，Meta 和 OpenAI 的工程师在内部搞 token 消耗量排行榜，比谁烧得多。黄仁勋在 GTC 2026 上更激进，提议企业给工

上周，纽约时报报道了硅谷一个新风气叫 tokenmaxxing，Meta 和 OpenAI 的工程师在内部搞 token 消耗量排行榜，比谁烧得多。黄仁勋在 GTC 2026 上更激进，提议企业给工程师发 token 预算，作为工资之外的第二份薪酬。

OpenAI 的数据则显示，过去一年企业客户的推理 token 消耗量暴涨了约 320 倍。

需求侧在爆炸。供给侧呢？

黄仁勋在同一场 keynote 上搬出了 Tokenomics 这个概念，把它从加密货币的语境里拎出来，重新定义为 AI 推理的经济学。核心指标叫 Tokens per Watt，衡量每瓦特电力能产出多少 token。他说推理拐点已经到了，NVIDIA 预计 Blackwell 和 Vera Rubin 芯片订单量到 2027 年将达到 1 万亿美元。

国内大模型厂商一直在讲类似的事情，只是换了说法叫“推理成本”或者“token 单价”。不管哪种说法，指向的问题是一样的，当 token 变成 AI 时代的水电煤，谁来建发电厂和电网？

过去三年，行业给出的答案是，建更大的数据中心，塞更多的 GPU。这在训练时代完全成立。但推理和训练的逻辑不同。训练一个模型是一次性工程，推理要做几十亿次，而且对延迟极度敏感。当推理请求像洪水一样涌来，把所有 GPU 集中在几个超大数据中心里，可能恰恰成了瓶颈。

瓶颈不在算力，在物理。具体来说，在光速。

推理时代撞上“光速墙”

在今年 GTC 上，有一家公司对这个问题给出了非常系统的回答。

Akamai，国内读者可能不太熟悉这个名字，但在海外，它是 CDN 概念的开创者，也是目前全球最大的分布式计算平台，拥有业内最庞大的边缘节点网络。1998 年成立，全球前十的视频流媒体平台、游戏公司、银行基本都是它的客户。全球拥有超过 4400 个边缘入网点，覆盖 130 多个国家，承载全球近三分之一的互联网流量。

这家公司在近三十年里经历了三次转型，从 CDN 到安全，再到云计算和 AI。今年 GTC 上，它带来了两个 session，核心主题只有一个，为什么 AI 推理必须走向分布式。

Akamai CTO Office 的 SVP Andy Champagne 在 session 上描述了一个“个人 AI 导播”的场景，非常有画面感。一场 F1 比赛有 20 多个 4K 机位同时在拍，传统做法是导播间一个人切镜头，几百万观众看到的画面一模一样。但如果每个观众都能看到根据自己偏好定制的直播流，喜欢的车手、偏爱的镜头角度，那就需要在边缘实时合成个性化的视频。几百万路不同的 4K 视频流，不可能从一个数据中心统一往外推。

类似的逻辑出现在越来越多的实时场景里。

游戏 NPC 需要在 50 毫秒内响应，超过这个阈值玩家体感明显卡顿。Akamai 产品管理 VP Shawn Michels 在另一个 session 举了实时广告插入的例子，从扫描视频、识别广告位、竞价、生成个性化广告到拼回视频流，整条链路的预算只有 100 毫秒。这恰恰是 Akamai 的先天优势所在，它在全球已有超过 4400 个边缘节点，这种“就近处理”的能力不是纯云厂商从零搭建能轻易追上的。

同样的延迟压力还存在于 AI 语音助手、电商推荐引擎、智能试衣间、自动驾驶传感器处理和工业产线质检等场景中。AI 一旦嵌入实时应用，就必须继承那个应用原本的延迟要求。

物理定律不会因为 GPU 更快就网开一面。光在光纤中每秒约跑 20 万公里，从伦敦到美东数据中心单程延迟约 28 毫秒，往返就是 56 毫秒。从东京出发更远，往返约 134 毫秒。这还没算任何计算时间。

回头看上面那些场景的延迟要求，不难理解为什么把推理全部扔到少数几个集中式数据中心里是行不通的。

延迟之外还有带宽。Andy 在 session 里算了一笔账，同样 1GW 的算力，如果集中在一个数据中心用 Blackwell 做视频推理，出口带宽需求是 75 Tbit/s。分布到 20 个区域节点，每个只需 3.75 Tbit/s。集中式的出口流量是分布式的 20 倍，背后的网络成本差距不言而喻。

如果换成下一代 Vera Rubin，集中式的出口带宽更是飙到 135 Tbit/s。芯片越快，集中式架构的出口瓶颈反而越严重。

在同一个 session 上，Comcast负责 AI 与边缘计算方向的嘉宾从排队论的角度做了更严谨的分析。在相同 GPU、相同模型的条件下，集中式和分布式部署之间仅仅 14 毫秒的往返延迟差异，就导致了约 30% 的 GPU 利用率差距。

他的原话是，“这是物理定律层面的优势，没法靠 batching 或者提高 tokens/s 来弥补。”

一个近三十年的伏笔

Andy 在 session 上做了一个很有意思的类比，把 AI 的发展时间线和互联网做对齐来看。互联网的普及率已经超过 95%，AI 目前大约只有 7%。他的判断是，AI 现在大概处于互联网的 MySpace 时代。

想想 MySpace 之后又诞生了多少公司、多少市值、多少技术突破。AI 的好戏才刚刚开始。

这个类比其实点出了 Akamai 做分布式推理的底层逻辑。近三十年前这家公司解决的问题和今天面对的问题，结构上是一样的，把集中的东西变成分布的。当年分发的是网页和视频，现在分发的是 AI 推理。方法论一脉相承。

他在 session 结尾说了两句话，颇能概括这种逻辑，“AI 工厂创造智能，AI Grid 分发智能”，以及“没有分布式推理的 AI，就像没有 CDN 的互联网”。

GTC 期间，NVIDIA 最新将 Akamai Cloud 和 AWS 一起列为首批提供 RTX PRO Blackwell Server Edition 实例的云服务商。黄仁勋 keynote 展示的合作伙伴 logo 墙上，Akamai 赫然在列。NVIDIA 电信业务全球副总裁 Chris Penrose 评价说，Akamai 通过运营 AI Grid，正在为生成式 AI、AI Agent 和物理 AI 构建连接组织，将智能直接推送到数据所在的地方。

Akamai 也在 GTC 上正式发布了业界首个全球规模落地 NVIDIA AI Grid 参考架构的方案，将 NVIDIA AI 基础设施深度集成到自身的分布式网络中。这不是一个松散的合作。Akamai 是首家将 AI Grid 从概念推到运营级别的厂商，底层跑的是 NVIDIA AI Enterprise 软件栈、Blackwell 架构 GPU 和 BlueField DPU 加速网络的完整技术栈。

推理基础设施的几个现实问题

回到地面，对于正在考虑推理部署的 AI 团队，有几个绕不开的现实问题。

不是所有推理都需要 H100。这个认知正在被越来越多团队接受。H100 为训练和大规模推理而生，但如果跑的是 8B 参数的模型、做的是语音交互或者视频分析，用 H100 就像开卡车送外卖。

Akamai 目前部署的 RTX PRO 6000 Blackwell Server Edition 是一个值得关注的选项。直接看 Token 经济，$2.50/小时全包价，每美元 Token 产出是同类方案的 2.1 倍。

性能层面，这张卡配了 96GB GDDR7 显存和 4,000 TOPS FP4 算力，在 NVFP4 精度下推理吞吐量比 H100 高出 60% 以上，对比上一代 RTX 4000 Ada 提升达 19 倍。另一个容易被忽略的差异是视频处理能力，RTX PRO 6000 原生支持 112 到 132 路视频编解码，如果做的是视觉 AI 相关的产品，这个能力是定位于训练和超算的 H100 不具备的。

再加上风冷设计，在边缘机房有限的空间和功耗条件下部署门槛低得多。Shawn Michels 在 GTC session 里的观点说的是未来的推理基础设施一定是混合架构，不同 GPU 匹配不同的工作负载，没有万能卡。

Egress 费用是隐性杀手。很多团队做预算时只看 GPU 租用价格，忽略了数据出站费。AI 产品服务全球用户，视频和模型响应产生的出站流量成本可能比 GPU 本身还贵。

边缘部署的经济逻辑之一正在于此，推理结果在本地生成、本地交付，不用跨大半个地球回传。Akamai 的 egress 价格是 $0.005/GB，和三大云厂商的差距非常明显。

调度比算力更难。 GPU 散到全球各地只是第一步，更难的是让每个请求找到最合适的那台机器。Akamai 在 GTC 上展示了他们的 AI 编排器（Orchestrator），这不是传统的根据延迟和负载来分配流量的负载均衡。

它会考虑模型亲和性（哪台机器已经加载了需要的模型）、GPU 显存占用、KV Cache 状态等 AI 场景特有的因素来做实时路由决策。现场 demo 中，推理请求从巴黎节点实时切换到加州节点，用户侧完全无感知。这背后是 Akamai 做了近三十年流量调度的老本行，在 AI 场景上的自然延续。

目前 Akamai 的 Blackwell GPU 节点已覆盖欧洲、亚太和美洲共 19 个节点，配合 4400 多个边缘入网点协同工作。对于出海的 AI 团队来说，东京、新加坡、孟买、雅加达这些亚太节点尤其值得留意。

出海 AI 创业者的第三种选择

Akamai 从 CDN 到安全，再到云计算和 AI 推理的转型路径，本身就是互联网基础设施演进的一个切面。它在这条赛道上的差异化在于，不是从零建数据中心，而是把已经运行了近三十年的全球分布式网络变成了 AI 推理的底座。

这步棋能走多远，取决于它能不能跟上 AI 硬件更新的速度，也取决于边缘推理的市场需求能否如预期般爆发。

但对中国出海 AI 创业者来说，一件事正在变得越来越清楚，全球化部署推理能力正在从“以后再说”变成“现在就得解决”。

合规（数据主权、不出境）、延迟（用户体验的硬门槛）、成本（egress 和 GPU 租用的真实账单），这是出海时最现实的三座山。Akamai 的边缘推理平台提供了一种此前不太存在的选择，不必自建全球基础设施，也不必把鸡蛋全放在几家超大规模云上，而是可以借助一张已经覆盖 130 多个国家的分布式网络，把推理跑到离用户最近的地方去。

来源：https://www.163.com/dy/article/KOV7SDG50511N33R.html

推理边缘黄仁勋 gpu 新模型 nvidia

上一篇充电桩营收占比较低，新能车业务如何发力 下一篇微信“对方正在输入”反复出现，背后意味着什么？

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。