首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
黄仁勋揭示边缘推理机遇:推理拐点到来,新窗口如何开拓?

黄仁勋揭示边缘推理机遇:推理拐点到来,新窗口如何开拓?

热心网友
46
转载
2026-03-26

上周,纽约时报报道了硅谷一个新风气叫 tokenmaxxing,Meta 和 OpenAI 的工程师在内部搞 token 消耗量排行榜,比谁烧得多。黄仁勋在 GTC 2026 上更激进,提议企业给工程师发 token 预算,作为工资之外的第二份薪酬。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

OpenAI 的数据则显示,过去一年企业客户的推理 token 消耗量暴涨了约 320 倍。

需求侧在爆炸。供给侧呢?

黄仁勋在同一场 keynote 上搬出了 Tokenomics 这个概念,把它从加密货币的语境里拎出来,重新定义为 AI 推理的经济学。核心指标叫 Tokens per Watt,衡量每瓦特电力能产出多少 token。他说推理拐点已经到了,NVIDIA 预计 Blackwell 和 Vera Rubin 芯片订单量到 2027 年将达到 1 万亿美元。

国内大模型厂商一直在讲类似的事情,只是换了说法叫“推理成本”或者“token 单价”。不管哪种说法,指向的问题是一样的,当 token 变成 AI 时代的水电煤,谁来建发电厂和电网?

过去三年,行业给出的答案是,建更大的数据中心,塞更多的 GPU。这在训练时代完全成立。但推理和训练的逻辑不同。训练一个模型是一次性工程,推理要做几十亿次,而且对延迟极度敏感。当推理请求像洪水一样涌来,把所有 GPU 集中在几个超大数据中心里,可能恰恰成了瓶颈。

瓶颈不在算力,在物理。具体来说,在光速。

推理时代撞上“光速墙”

在今年 GTC 上,有一家公司对这个问题给出了非常系统的回答。

Akamai,国内读者可能不太熟悉这个名字,但在海外,它是 CDN 概念的开创者,也是目前全球最大的分布式计算平台,拥有业内最庞大的边缘节点网络。1998 年成立,全球前十的视频流媒体平台、游戏公司、银行基本都是它的客户。全球拥有超过 4400 个边缘入网点,覆盖 130 多个国家,承载全球近三分之一的互联网流量。

这家公司在近三十年里经历了三次转型,从 CDN 到安全,再到云计算和 AI。今年 GTC 上,它带来了两个 session,核心主题只有一个,为什么 AI 推理必须走向分布式。

Akamai CTO Office 的 SVP Andy Champagne 在 session 上描述了一个“个人 AI 导播”的场景,非常有画面感。一场 F1 比赛有 20 多个 4K 机位同时在拍,传统做法是导播间一个人切镜头,几百万观众看到的画面一模一样。但如果每个观众都能看到根据自己偏好定制的直播流,喜欢的车手、偏爱的镜头角度,那就需要在边缘实时合成个性化的视频。几百万路不同的 4K 视频流,不可能从一个数据中心统一往外推。



类似的逻辑出现在越来越多的实时场景里。

游戏 NPC 需要在 50 毫秒内响应,超过这个阈值玩家体感明显卡顿。Akamai 产品管理 VP Shawn Michels 在另一个 session 举了实时广告插入的例子,从扫描视频、识别广告位、竞价、生成个性化广告到拼回视频流,整条链路的预算只有 100 毫秒。这恰恰是 Akamai 的先天优势所在,它在全球已有超过 4400 个边缘节点,这种“就近处理”的能力不是纯云厂商从零搭建能轻易追上的。

同样的延迟压力还存在于 AI 语音助手、电商推荐引擎、智能试衣间、自动驾驶传感器处理和工业产线质检等场景中。AI 一旦嵌入实时应用,就必须继承那个应用原本的延迟要求。

物理定律不会因为 GPU 更快就网开一面。光在光纤中每秒约跑 20 万公里,从伦敦到美东数据中心单程延迟约 28 毫秒,往返就是 56 毫秒。从东京出发更远,往返约 134 毫秒。这还没算任何计算时间。

回头看上面那些场景的延迟要求,不难理解为什么把推理全部扔到少数几个集中式数据中心里是行不通的。

延迟之外还有带宽。Andy 在 session 里算了一笔账,同样 1GW 的算力,如果集中在一个数据中心用 Blackwell 做视频推理,出口带宽需求是 75 Tbit/s。分布到 20 个区域节点,每个只需 3.75 Tbit/s。集中式的出口流量是分布式的 20 倍,背后的网络成本差距不言而喻。

如果换成下一代 Vera Rubin,集中式的出口带宽更是飙到 135 Tbit/s。芯片越快,集中式架构的出口瓶颈反而越严重。

在同一个 session 上,Comcast负责 AI 与边缘计算方向的嘉宾从排队论的角度做了更严谨的分析。在相同 GPU、相同模型的条件下,集中式和分布式部署之间仅仅 14 毫秒的往返延迟差异,就导致了约 30% 的 GPU 利用率差距。

他的原话是,“这是物理定律层面的优势,没法靠 batching 或者提高 tokens/s 来弥补。”



一个近三十年的伏笔

Andy 在 session 上做了一个很有意思的类比,把 AI 的发展时间线和互联网做对齐来看。互联网的普及率已经超过 95%,AI 目前大约只有 7%。他的判断是,AI 现在大概处于互联网的 MySpace 时代。

想想 MySpace 之后又诞生了多少公司、多少市值、多少技术突破。AI 的好戏才刚刚开始。

这个类比其实点出了 Akamai 做分布式推理的底层逻辑。近三十年前这家公司解决的问题和今天面对的问题,结构上是一样的,把集中的东西变成分布的。当年分发的是网页和视频,现在分发的是 AI 推理。方法论一脉相承。

他在 session 结尾说了两句话,颇能概括这种逻辑,“AI 工厂创造智能,AI Grid 分发智能”,以及“没有分布式推理的 AI,就像没有 CDN 的互联网”。



GTC 期间,NVIDIA 最新将 Akamai Cloud 和 AWS 一起列为首批提供 RTX PRO Blackwell Server Edition 实例的云服务商。黄仁勋 keynote 展示的合作伙伴 logo 墙上,Akamai 赫然在列。NVIDIA 电信业务全球副总裁 Chris Penrose 评价说,Akamai 通过运营 AI Grid,正在为生成式 AI、AI Agent 和物理 AI 构建连接组织,将智能直接推送到数据所在的地方。

Akamai 也在 GTC 上正式发布了业界首个全球规模落地 NVIDIA AI Grid 参考架构的方案,将 NVIDIA AI 基础设施深度集成到自身的分布式网络中。这不是一个松散的合作。Akamai 是首家将 AI Grid 从概念推到运营级别的厂商,底层跑的是 NVIDIA AI Enterprise 软件栈、Blackwell 架构 GPU 和 BlueField DPU 加速网络的完整技术栈。

推理基础设施的几个现实问题

回到地面,对于正在考虑推理部署的 AI 团队,有几个绕不开的现实问题。

不是所有推理都需要 H100。 这个认知正在被越来越多团队接受。H100 为训练和大规模推理而生,但如果跑的是 8B 参数的模型、做的是语音交互或者视频分析,用 H100 就像开卡车送外卖。

Akamai 目前部署的 RTX PRO 6000 Blackwell Server Edition 是一个值得关注的选项。直接看 Token 经济,$2.50/小时全包价,每美元 Token 产出是同类方案的 2.1 倍。

性能层面,这张卡配了 96GB GDDR7 显存和 4,000 TOPS FP4 算力,在 NVFP4 精度下推理吞吐量比 H100 高出 60% 以上,对比上一代 RTX 4000 Ada 提升达 19 倍。另一个容易被忽略的差异是视频处理能力,RTX PRO 6000 原生支持 112 到 132 路视频编解码,如果做的是视觉 AI 相关的产品,这个能力是定位于训练和超算的 H100 不具备的。

再加上风冷设计,在边缘机房有限的空间和功耗条件下部署门槛低得多。Shawn Michels 在 GTC session 里的观点说的是未来的推理基础设施一定是混合架构,不同 GPU 匹配不同的工作负载,没有万能卡。

Egress 费用是隐性杀手。 很多团队做预算时只看 GPU 租用价格,忽略了数据出站费。AI 产品服务全球用户,视频和模型响应产生的出站流量成本可能比 GPU 本身还贵。

边缘部署的经济逻辑之一正在于此,推理结果在本地生成、本地交付,不用跨大半个地球回传。Akamai 的 egress 价格是 $0.005/GB,和三大云厂商的差距非常明显。

调度比算力更难。 GPU 散到全球各地只是第一步,更难的是让每个请求找到最合适的那台机器。Akamai 在 GTC 上展示了他们的 AI 编排器(Orchestrator),这不是传统的根据延迟和负载来分配流量的负载均衡。

它会考虑模型亲和性(哪台机器已经加载了需要的模型)、GPU 显存占用、KV Cache 状态等 AI 场景特有的因素来做实时路由决策。现场 demo 中,推理请求从巴黎节点实时切换到加州节点,用户侧完全无感知。这背后是 Akamai 做了近三十年流量调度的老本行,在 AI 场景上的自然延续。

目前 Akamai 的 Blackwell GPU 节点已覆盖欧洲、亚太和美洲共 19 个节点,配合 4400 多个边缘入网点协同工作。对于出海的 AI 团队来说,东京、新加坡、孟买、雅加达这些亚太节点尤其值得留意。



出海 AI 创业者的第三种选择

Akamai 从 CDN 到安全,再到云计算和 AI 推理的转型路径,本身就是互联网基础设施演进的一个切面。它在这条赛道上的差异化在于,不是从零建数据中心,而是把已经运行了近三十年的全球分布式网络变成了 AI 推理的底座。

这步棋能走多远,取决于它能不能跟上 AI 硬件更新的速度,也取决于边缘推理的市场需求能否如预期般爆发。

但对中国出海 AI 创业者来说,一件事正在变得越来越清楚,全球化部署推理能力正在从“以后再说”变成“现在就得解决”。

合规(数据主权、不出境)、延迟(用户体验的硬门槛)、成本(egress 和 GPU 租用的真实账单),这是出海时最现实的三座山。Akamai 的边缘推理平台提供了一种此前不太存在的选择,不必自建全球基础设施,也不必把鸡蛋全放在几家超大规模云上,而是可以借助一张已经覆盖 130 多个国家的分布式网络,把推理跑到离用户最近的地方去。

来源:https://www.163.com/dy/article/KOV7SDG50511N33R.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

EPFL等机构发现大语言模型的内部思维与人类创造性大脑高度同步
科技数码
EPFL等机构发现大语言模型的内部思维与人类创造性大脑高度同步

这项由瑞士洛桑联邦理工学院(EPFL)、意大利卢加诺大学(USI)、韦斯利安大学、巴黎脑研究所(ICM)以及宾夕法尼亚州立大学联合开展的研究,以预印本形式发布于2026年4月,论文编号为arXiv:2604 03480。对这一交叉领域感兴趣的读者,可以通过该编号在arXiv平台上查阅完整原文。 一、

热心网友
04.22
摩尔线程完成智谱GLM-5.1适配
科技数码
摩尔线程完成智谱GLM-5.1适配

北京商报讯(记者 陶凤 王天逸) 人工智能领域又传来一条振奋人心的消息。4月8日,摩尔线程正式宣布,其旗舰级AI训推一体全功能GPU——MTT S5000,已经成功完成了对智谱新一代旗舰模型GLM-5 1的Day-0极速适配。这意味着,推理部署与训练复现的全部流程,现在都能在这条国产算力路径上获得支

热心网友
04.15
如何利用SQL进行推理
数据库
如何利用SQL进行推理

如何用SQL求解逻辑推理题:经典楼层分配谜题实战 今天我们来探讨一个非常有趣的技术应用:使用SQL来求解逻辑推理题。这听起来或许有些大材小用,但正是这种跨界应用,充分展现了SQL语言的强大灵活性以及开发者分析问题的思维能力。我们将以一个经典的五人楼层分配谜题作为案例,逐步拆解如何用纯粹的SQL找到答

热心网友
04.14
AI看图能力真伪探秘:它是否真是编出来的?
科技数码
AI看图能力真伪探秘:它是否真是编出来的?

一个学生忽视了一行代码,结果发现了一件很不对劲的事:在一个多模态医学AI项目中,这行代码原本负责让模型读取图像数据。但因为这次疏忽,模型实际上完全没有看到任何图片。按理说系统应该报错,或者至少拒绝回

热心网友
04.01
智谱CEO张鹏:追求推理极限,推动长效AI发展
科技数码
智谱CEO张鹏:追求推理极限,推动长效AI发展

雷递网 乐天 3月31日智谱CEO张鹏今日在智谱2025年年报沟通会上表示,智谱曾经历过质疑,经历过挫折,但无数事实反复验证了一个判断——智能上界的提升,是大模型AGI时代唯一的 "第一性 "。张鹏说,

热心网友
04.01

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

红米Note11 Pro更新系统需连WiFi吗?
电脑教程
红米Note11 Pro更新系统需连WiFi吗?

红米Note 11 Pro系统升级,为何坚持要求连接Wi-Fi? 当红米Note 11 Pro收到MIUI或澎湃OS的系统更新推送时,官方总会明确提示:整个过程请在Wi-Fi网络环境下完成。这项要求并非随意设定,而是基于清晰的技术与体验考量。一次完整的系统升级包,其大小通常在2GB至4GB之间。如果

热心网友
05.05
小米13ultra有nfc功能吗
电脑教程
小米13ultra有nfc功能吗

小米13 Ultra的NFC功能深度解析:它如何重新定义“全场景智能交互”? 在旗舰手机领域,NFC功能看似已成为标配,但体验却千差万别。小米13 Ultra所搭载的全功能NFC方案,在“全能”与“好用”两个维度上树立了新的标杆。它不仅无缝集成了公交卡模拟、门禁卡复制、数字车钥匙等核心生活服务,更全

热心网友
05.05
嵌入式消毒柜电源插座位置必须外露吗?
电脑教程
嵌入式消毒柜电源插座位置必须外露吗?

嵌入式消毒柜电源插座安装指南:隐蔽式布局提升安全与美观 在规划嵌入式消毒柜的安装方案时,电源插座的布局方式直接影响到最终的整体效果与安全性。正确的做法是避免插座外露,采用隐蔽式安装。根据国家《住宅厨房设计规范》及主流厨电品牌的安装标准,推荐将插座预留在消毒柜后方或侧方的墙体内部,安装高度宜控制在距地

热心网友
05.05
魔音耳机操作说明包含充电指示吗?
电脑教程
魔音耳机操作说明包含充电指示吗?

是的,魔音(Beats)耳机充电状态一目了然,指示灯明确显示 当你为Beats头戴式耳机充电时,如何判断它是否已经充满?答案就藏在机身自带的五段式LED电量指示灯里。在充电过程中,这排指示灯会持续闪烁,实时反馈充电进度。一旦所有五个指示灯全部转为稳定常亮、不再闪烁,即代表电池已完全充满。整个充电周期

热心网友
05.05
博朗剃须刀如何识别型号?
电脑教程
博朗剃须刀如何识别型号?

博朗剃须刀型号全解析:从编码规则到选购技巧的终极指南 面对博朗剃须刀复杂的字母数字组合感到困惑?实际上,其型号命名体系逻辑严谨,是用户选购的核心依据。简单来说,型号首位的数字(1、3、5、7、9)直接代表产品系列,数字越大,通常意味着技术越先进、功能越全面、定位越高端。例如,顶级的9系旗舰机型普遍搭

热心网友
05.05