英伟达押注AI推理:计算变革迎来重大突破

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
图1:黄仁勋开始发力推理芯片
北京时间3月17日,《华尔街日报》报道称,AI领域正在经历一场重大变革,这对大大小小的科技公司都影响深远。
过去五年间,AI领域的主要焦点一直是大语言模型的训练。这是一个成本高昂的过程,需要数万块芯片、消耗巨大的能源,且在偏远的大型数据中心进行。这一训练过程需要使用数千个专业微处理器芯片组成的集群,将数百亿条信息输入模型。芯片集群每周7天、每天24小时运行,持续数周甚至数月之久。
从训练到推理
如今,随着越来越多的公司部署AI智能体,并试图将基于大语言模型构建的新工具商业化,焦点已转向推理:这种计算方式能让训练好的AI模型响应用户的查询。
根据研究机构Gartner的数据,今年全球在推理基础设施上的资本支出,预计将首次超过训练资本支出。到2029年,企业在推理上的投入将达到720亿美元,是训练投入370亿美元的近两倍。

推理支出将超过训练
这一转变意味着,科技公司购买的芯片类型将发生重大变化。英伟达之所以成为全球市值最高的公司,靠的是销售名为GPU的芯片,这类芯片具备模型训练所需的原始处理能力。但乔治城大学研究AI的学者雅各布·菲尔德戈伊斯表示,那些预期将进行更多推理工作的公司,可以通过使用专门为推理任务优化的芯片来获得性能提升。
专门生产推理芯片的制造商包括谷歌、Cerebras Systems、SambaNova等,他们正以越来越快的速度签下价值数十亿美元的订单。英伟达则准备推出自己的推理专用处理器,此前该公司于去年12月斥资200亿美元,获得了定制推理芯片公司Groq的技术授权并吸纳其顶尖人才。
那么,究竟什么是推理计算?它与训练所需的计算有何不同?为什么需求如此迅速转向推理?这对市场又意味着什么?
推理计算的原理
你可以把AI想象成一家餐厅。模型就是那位厨师。在经过一段时间的密集培训,学习了数百乃至数十亿个食谱和烹饪技巧后,它就可以开始接单了。
推理就是这家餐厅的日常运营。食客下单,厨师备餐。

推理的原理
推理包含两个阶段,即预填充和解码。当用户输入提示词时,预填充阶段开始,模型通过处理其中的每个单词、符号或图像来解读用户的查询。
解码则是模型运用其在训练中学到的一切,生成查询响应的过程。
推理的这两个阶段对芯片有着不同的要求:预填充阶段需要更强的处理能力,而解码阶段则需要更大的内存,部分原因在于它必须调动所积累的全部知识,才能为用户呈上新鲜出炉的"词元"。
什么是词元?
词元是用于处理查询并生成响应的基本数据单位。
虽然不同类型的数据对应的换算范围有所不同,但通常认为一个词元大约相当于四分之三个英文单词。以"今天天气怎么样?"这样简单的聊天机器人查询为例,模型会将其解析为六到八个词元。

词元
模型通常逐次生成一个词元,并且必须按正确的顺序输出每个词元,这样才能保证回答通顺合理。
目前,那些试图将AI工具变现的公司,从会计软件、旅行预订服务到图像生成器,都痴迷于诸如"每瓦每秒生成的词元数"或"每美元每秒生成的词元数"这类成本指标。
芯片制造商格芯的CEO蒂姆·布林表示,这使得推理芯片高效输出结果的能力变得尤为重要,"如今,降低推理成本才是关键所在"。
训练与推理芯片的区别
由于训练需要在长时间内处理海量数据,所采用的芯片必须具备强大的处理能力,且芯片所在的数据中心必须能够获得充足的能源以及用于冷却芯片的水。训练同样需要内存,但如果GPU内存不足,可以将部分处理任务分派给其他芯片,或者等待现有内存释放。
相比之下,推理过程是按需进行的,耗时以秒计,而非数周。"超过十秒钟,用户就已经开始用大拇指敲手机屏幕,准备去做下一件事了。"芯片设计公司SambaNova的CEO罗德里戈·梁表示。
因此,推理芯片必须配备更大容量的高带宽内存,且其所在的数据中心必须邻近用户聚集区以降低延迟。像Ayar Labs这样的芯片创业公司也越来越多地采用光纤连接组件,光纤的数据传输速度比铜缆更快,且所需冷却更少。
Ayar Labs CEO马克·韦德表示:"如今,一切都围绕着推理规模化展开。"
更多一手新闻,欢迎下载凤凰新闻客户端订阅科技。想看深度报道,请微信搜索"科技"。
相关攻略
IT之家 4 月 1 日消息,昨日(3 月 31 日)接受 TechRadar 采访时,苹果平台架构副总裁蒂姆 · 米勒特(Tim Millet)和音频产品营销总监埃里克 · 特雷斯(Eric Tr
IT之家 4 月 1 日消息,昨日接受 TechRadar 采访时,苹果平台架构副总裁蒂姆 · 米勒特和音频产品营销总监埃里克 · 特雷斯揭秘苹果 AirPods Max 2 核心升级,称 H2 芯
台积电正式确认,计划2028年在日本生产3纳米芯片。3月31日周二,根据台积电文件披露,台积电日本第二厂将采用3纳米先进制程技术,月产能规划为1 5万片12英寸晶圆。这一计划在今年2月已由台积电CE
【CNMO科技消息】4月1日,数码博主“数码闲聊站”爆料称,一款可能搭载天玑9500的REDMI K90系列性能机已经入网,型号为2604FRK1EC,支持100W闪充。据网友猜测这款新机可能是
3月27日下午,位于合肥综合保税区的汇成股份总部迎来了一批特殊的客人。“科创中国——新质生产力调研行”活动在此举行,来自中信银行、招商银行、华安证券等机构的投资者走进这家科创综指成分股企业,实地探访
热门专题
热门推荐
三星电子计划在2030年前开发基于 forksheet 结构的 1nm SF1 0 工艺 近日,半导体制造领域传出重要技术进展。据《韩国经济日报》3月31日援引行业内部人士消息,三星电子晶圆代工厂已经制定了一项直至2030年的详细技术路线图。该计划的核心目标是,在2030年之前完成1纳米(1nm)级
4月1日消息,OPPO于今日在线上正式发布了新一代机型K15 Pro。该系列手机最受瞩目的核心卖点在于全系搭载了性能强劲的疾风散热引擎,通过主动散热技术大幅提升了手机在高负载状态下的性能表现。为了从
4月1日消息,为了有效应对全球存储市场的短缺危机,韩国两大芯片巨头三星电子与SK海力士不约而同地选择了加大对中国工厂的投入。据韩国媒体最新披露,这两大巨头已确定在2025年继续扩大在华投资规模。这一
4月1日消息,4月1日,界面新闻独家获悉,原特斯拉中国区总经理孔艳双已入职小米,将接替原小米汽车总监李晓锐负责汽车销售方面工作。孔艳双于3月初入职,处于工作交接期,目前小米内部并未正式发文通告其正式
笔记本电脑电池不耐用?酷睿 Ultra 三代轻薄本彻底解决续航难题 移动办公时,笔记本电脑续航时间短是许多用户的核心痛点。如今,搭载新一代处理器的轻薄本带来了突破性解决方案:华硕无畏 Pro16 2026 酷睿版。这款产品内置英特尔酷睿 Ultra7 356H 处理器,并配备高达 80Wh 的大容量





