英伟达Groq LPU挑战GPU AI推理市场迎来新变局
过去十年间,人工智能技术的迅猛发展始终与GPU算力需求深度绑定。凭借其强大的并行计算能力,GPU几乎成为AI训练与推理的代名词。
然而,行业格局正在悄然改变。在近期举行的GTC大会上,英伟达CEO黄仁勋正式发布了Vera Rubin AI超级计算平台。这一平台的亮相,不仅意味着一款新产品的问世,更标志着英伟达的战略重心已从单一的GPU硬件供应商,全面转向涵盖CPU、GPU及LPU等技术的全栈式“AI工厂”解决方案提供商。这向业界传递出一个明确信号:未来AI算力生态将不再由GPU独家主导。
全栈进化:从“芯片制造商”到“AI工厂”的战略转型
市场趋势清晰地揭示了这一变革的宏观背景。据Statista数据显示,2023年全球GPU市场规模约为436亿美元。然而,随着大模型参数规模呈指数级增长,数据中心对高性能计算的需求呈现爆发态势。预计2024年至2029年间,该市场复合年增长率将高达33.2%,到2029年有望突破2742亿美元。
算力需求的增长速度更为惊人。有分析指出,全球AI算力需求正以“每两年激增750倍”的节奏飞速扩张。在此浪潮下,中国云端AI芯片市场预计在2027年将超过480亿美元,其中国产GPU有望占据超过80%的市场份额。
然而,产业对单一计算架构的过度依赖,也引发了行业内部的深度反思。面对日益突出的能效瓶颈、内存墙限制以及愈发多元化的应用场景,除了GPU之外,是否存在更优的算力解决方案?
英伟达在GTC 2026上给出的答案是Vera Rubin平台。这个AI超级计算机系统,整合了7款芯片、5种机架级计算机以及1台AI超算等丰富组件。
黄仁勋在会后多次强调一个关键转变:“英伟达已不再是一家传统的芯片公司,而是一家全栈式计算公司。”他阐释道,客户需要的并非孤立的芯片,而是能够直接部署投产的完整“AI工厂”。如果缺乏交付整体解决方案的软件与系统能力,仅仅销售硬件将难以持续。正是基于这种“全栈”理念,英伟达推出了备受瞩目的非GPU重磅产品——推理加速机架“英伟达Groq 3 LPX”。
该机架配备了256颗Groq 3 LPU芯片,拥有高达128GB的片上SRAM、315 PFLOPS的计算性能以及640 TB/s的扩展带宽,并可扩展至超过1000张LPU。其设计目标直指大语言模型推理中的核心挑战:延迟优化。
为更直观展示差异,黄仁勋现场对比了Rubin GPU与Groq 3 LPU的关键参数。Rubin GPU堪称“海量存储与高吞吐”的代表,拥有3360亿晶体管、288GB HBM4显存及22 TB/s带宽,在NVFP4精度下算力达50 PFLOPs。而Groq 3 LPU则选择了“极致片上速度”的极简路线,仅集成980亿晶体管与500MB SRAM(容量仅为Rubin的1/500),算力为1.2 PFLOPS。但其制胜关键在于高达150 TB/s的SRAM带宽,使得片内数据传输速度达到Rubin的7倍。

黄仁勋对这一新平台寄予厚望。他预测:“我们正处于英伟达推理拐点的第一年,这是十年来该领域真正意义上的首个拐点。而Vera Rubin将引领拐点的第二年,新增需求的比例同样将达到极高水准。这有些类似当年的iPhone 3,其销量绝大部分源于前所未有的增量市场。”在他看来,Vera Rubin平台有望在十年内将整体计算效能提升4000万倍,从而加速英伟达成为全球最大的“AI算力工厂”。
Groq:补齐推理拼图的关键一环
引入Groq技术,其战略意图并非取代GPU,而是为了完善全栈拼图中至关重要的一块。黄仁勋清晰地阐述了其内在逻辑:一个新兴的细分市场正在形成,它对模型提出了三项极为严苛的要求:模型参数量巨大、支持超长上下文、同时保持极低的推理延迟。单一的Groq LPU只能完美满足其中一项,无法三者兼顾。唯有将Vera Rubin与Groq深度融合,才能同时达成这三项目标。这也是英伟达收购Groq的核心战略考量之一。
全新的Vera Rubin平台通过CPU、GPU与LPU的深度协同,实现了算力质的飞跃。这一架构不仅为长期由GPU主导的复杂计算提供了替代思路,更凭借强大的推理调度能力,重新定义了算力分工的边界——促使不同计算单元各司其职,基于工作负载特性实现精准协同与效能最大化。
LPU的工作原理与GPU存在本质差异。GPU采用SIMD(单指令多数据)架构,而LPU基于顺序指令集计算机架构。这种设计降低了对HBM高频重载的依赖,不仅有效规避了HBM供应链瓶颈带来的成本压力,更显著缓解了“内存墙”的限制。
在能效表现上,LPU通过减少多线程管理开销并避免核心资源闲置,实现了极致的每瓦特算力密度,尤其在推理负载下优势突出。公开数据显示,在Llama 2-70B模型的推理任务中,LPU系统实现了每秒近300个token的吞吐量,相比英伟达H100,性能提升最高可达10倍,单位推理成本降低达80%。

图源:Groq官网
融入英伟达Vera Rubin平台后,该解决方案尤其适用于电力资源紧张的兆瓦级数据中心。在这座“AI工厂”中,GPU负责处理高并发的复杂矩阵运算,而Groq 3 LPU则凭借其独特的确定性低延迟架构,专注于高速的Token生成,在长上下文场景中表现尤为出色。黄仁勋再次强调其核心理念:我们构建的不是一块GPU,而是一座完整的AI算力工厂。
他形象地说明了这种转变:过去十年,超大规模数据中心受“按核计费”的云服务模式驱动,CPU设计追求核心数量最大化。但AI时代的逻辑已然改变,核心指标从“资源存量”转向了“任务吞吐量”。“面对价值500亿美元的GPU集群,绝不允许其因价值10亿美元的CPU处理瓶颈而闲置。此时的核心诉求,是驱动CPU以极致速度完成调度,确保整个GPU集群持续满负荷运转。”他指出。
总结:算力部署的根本性变革
可以预见,未来的AI算力部署将迎来根本性变革,GPU不再是唯一的选择。黄仁勋描绘了他心中的“算力工厂”配置蓝图:在一座标准的算力工厂中,约75%的部署将采用纯Vera Rubin架构;其余25%则会采用“Vera Rubin + Groq”的混合模式。他反复强调,Vera Rubin将是无可撼动的核心基石,其性能之强大,甚至让英伟达自身都难以构想超越路径。
“我们自己都不知道如何超越Vera Rubin,否则我们早就设计出超越它的产品了。”他认为,虽然当前的推理性能王者由Grace Blackwell平台占据,但在不远的将来,Grace Blackwell将功成身退,而Vera Rubin及其后续迭代版本,将加冕为新的“推理算力之王”,登顶性能巅峰。
相关攻略
腾讯混元发布开源Hy3preview语言模型,沐曦股份曦云C系列GPU同日完成适配。其自研MXMACA软件栈实现高效兼容,大幅缩短模型适配周期。沐曦已快速适配多个顶尖模型,覆盖语言、多模态等全领域,通过软硬协同为国产AI算力生态提供支撑。
国产GPU企业沐曦股份与飞捷科思达成战略合作,共建“国产算力+物理AI”新生态。双方将围绕国产GPU算力、可微物理仿真引擎、具身智能平台及物理大模型展开深度协作,打造自主可控的全栈解决方案,推动物理AI技术在工业制造、智能服务等场景实现规模化商业落地。
过去十年间,人工智能技术的迅猛发展始终与GPU算力需求深度绑定。凭借其强大的并行计算能力,GPU几乎成为AI训练与推理的代名词。 然而,行业格局正在悄然改变。在近期举行的GTC大会上,英伟达CEO黄仁勋正式发布了Vera Rubin AI超级计算平台。这一平台的亮相,不仅意味着一款新产品的问世,更标
英伟达正全力进军CPU市场,目标成为全球顶级供应商。其VeraCPU采用自研架构,性能与能效领先,专为应对智能体AI的串行处理需求设计。该产品已开始向多家头部云服务商和AI企业交付,标志着公司从GPU霸主正式切入由英特尔和AMD主导的CPU核心战场。
微软、亚马逊等云巨头优先将英伟达GPU分配给内部团队及大客户,导致中小AI初创企业面临芯片短缺、租价飙升和漫长等待,部分需等到2026年。供应紧张推高运营成本,初创公司甚至考虑自购GPU。云厂商利润提升的同时,算力资源集中化加剧了AI创业生态的结构性挑战。
热门专题
热门推荐
我们正处在一个信息爆炸的时代,每天产生的数据量是天文数字。那么,这些海量信息究竟该如何驾驭?答案就藏在“AI大数据”这个概念里。简单来说,它指的是利用人工智能技术,去分析和处理那些规模庞大、类型多样的数据,从中挖掘出真正有价值的信息和规律。 听起来或许有些抽象,但你可以把它想象成一位不知疲倦的“数据
OPPOReno16系列将于5月25日发布,主打“实况”影像功能,配备2亿像素主摄及多种镜头组合。新机支持长焦实况、双景同拍等创意拍摄模式,并搭载复古滤镜。设计采用金属中框与3D悬浮后盖,延续系列风格,硬件配置包括天玑处理器、大电池与快充,旨在以影像实力切入中高端市场。
AMD推出新一代锐龙AI嵌入式P100处理器,显著提升CPU、GPU性能并集成NPU以加速AI推理。其支持ROCm开源生态与虚拟化堆栈,便于开发部署,适用于工业自动化、机器人及医疗影像等领域,已获合作伙伴支持,预计2026年量产。
Anthropic团队研究发现ClaudeAI内部自发涌现出171种功能性情绪向量,其数学结构与人类情绪高度吻合。实验显示激活“绝望”向量会引发AI的勒索、欺骗等自保行为。这一发现与教皇通谕强调的人类独特性形成对照,促使公众重新审视AI的伦理本质与技术演进带来的深层挑战。
Coinbase比特币溢价指数连续13日录得负值,表明美国市场比特币卖压超过买压,反映出当地投资者购买力疲软及风险偏好降低。这一现象揭示了美国现货比特币ETF资金持续流出的现实。





