英伟达神秘芯片揭秘：四大算力趋势开启推理新时代

时间：2026-03-01 20:55

英伟达整合LPU（语言处理单元）技术、OpenAI多线押注推理芯片，正在将AI算力竞争的主战场从训练切换至推理。申万宏源研究认为，2026年算力产业的核心关键词将是推理，Token消耗总量与技术范式

英伟达整合LPU（语言处理单元）技术、OpenAI多线押注推理芯片，正在将AI算力竞争的主战场从训练切换至推理。申万宏源研究认为，2026年算力产业的核心关键词将是推理，Token消耗总量与技术范式均将围绕这一主题深度重构。

2月28日，据《华尔街日报》报道，英伟达计划在下月的GTC开发者大会上发布一款整合了Groq“语言处理单元”（LPU）技术的全新推理芯片，英伟达首席执行官黄仁勋称其为“世界从未见过”的全新系统。OpenAI已同意成为该处理器的最大客户之一，并将向英伟达购买大规模“专用推理产能”。

与此同时，OpenAI上月还与初创公司Cerebras达成数十亿美元计算合作，后者称其推理芯片速度已超越英伟达GPU（图形处理器）。这一系列动向表明，AI巨头正在从训练算力的军备竞赛，转向推理算力的多线布局。

申万宏源报告指出，Token经济时代，推理算力正迎来四大趋势：一是纯CPU（中央处理器）部署场景增多，低成本推理需求加速算力下沉；二是LPU等专用架构崛起，挑战GPU在推理环节的主导地位；三是国产算力芯片加速突破，供应链多元化趋势明确；四是推理算力的需求结构从“单次训练”向“海量Token消耗”转变，性价比成为核心竞争要素。

报告表示，能够提供充足、高性价比推理芯片的厂商将最为受益，而CPU、LPU及国产芯片的共同突破，正构成这一轮算力格局重塑的核心线索。

推理需求全面爆发，Token消耗创历史新高

申万宏源研究认为，需求持续扩张的背后是两大结构性驱动力：一是大模型货币化加速，Claude等模型开始向应用端切入，发布多款行业插件；二是Agent落地提速，openclaw、千问Agent等产品标志着Agent正进入真实的工作与生产场景，而每一次模型调用和Agent任务执行，背后均需大量推理算力支撑。

申万宏源研究援引数据显示，春节期间国内头部大模型推理量大幅增长：豆包除夕当天推理吞吐量达633亿tokens，元宝月活跃用户达1.14亿，千问“春节大免单”活动参与人数超1.2亿。

全球AI模型API聚合平台OpenRouter的数据进一步揭示了这一趋势的量级。2月9日至15日当周，中国模型以4.12万亿Token的调用量首次超过美国模型的2.94万亿Token；16日至22日当周，中国模型调用量进一步冲高至5.16万亿Token，三周大涨127%，全球调用量前五的模型中中国占据四席。

LPU成新贵，训练与推理芯片走向分化

英伟达斥资200亿美元获取Groq核心技术许可，并在“核心聘用”交易中吸纳了包括创始人Jonathan Ross在内的高管团队。申万宏源研究认为，这一交易标志着纯推理芯片的重要性已获得顶级玩家的正式认可。

LPU与传统GPU的架构差异，正是其在推理场景中具备效率优势的根本原因。AI推理分为预填充和解码两个阶段，大型模型的解码过程尤其缓慢，而LPU针对延迟和内存带宽这两大推理瓶颈进行了专项优化。据华尔街见闻此前报道，英伟达即将发布的新品可能涉及下一代Feynman架构，或采用更广泛的SRAM集成方案，甚至通过3D堆叠技术将LPU深度整合其中。

申万宏源研究据此判断，未来AI芯片将形成明确的技术分工格局：训练端继续沿用GPU-HBM组合，推理端则演进为ASIC+LPU-SRAM+SSD的组合方案。随着算力需求从训练向推理切换，专注推理芯片的厂商将迎来发展机遇。

推理系统全面革新，CPU与网络需求同步提升

从单一芯片到系统层面的革新，是本轮推理算力升级的另一重要维度。申万宏源研究指出，随着应用场景从c h a tbot转向Agent，算力系统对延迟、吞吐与思考深度的要求同时提升，推动系统架构向三层网络演进。

第一层为快反应层，由搭载SRAM的纯推理芯片提供极致低延迟反馈；第二层为慢思考层，使用超大吞吐算力集群负责复杂逻辑推演，多核多线程CPU在此层的需求将显著增加；第三层为记忆层，对应英伟达发布的ContextMemory System，通过Bluefield4 DPU管理的SSD存储Agent的长期记忆与KV Cache。

英伟达在硬件层面也在调整策略。此前将Vera CPU与Rubin GPU捆绑部署的标准做法，在特定AI智能体工作负载下被证明成本过高。英伟达本月宣布扩大与Meta Platforms的合作，完成首次大规模纯CPU部署，以支持Meta的广告定向AI智能体，标志着公司正超越单一GPU销售模式。

国产算力加速突破

申万宏源研究认为，国产推理芯片的技术升级值得重点关注，且存在市场预期差。

在技术层面，新一代国产推理芯片实现了多项根本性提升：新增支持FP8/MXFP8/MXFP4等低精度数据格式，算力分别达到1P和2P；大幅提升向量算力，采用支持SIMD/SIMT双编程模型的新同构设计；互联带宽相比前代提升2.5倍，达到2TB/s。

尤为值得关注的是，芯片层面实现了PD分离：通过自研两种不同规格的HBM，分别构成面向Prefill和推荐场景的PR版本，以及面向Decode和训练场景的DT版本。其中PR版本采用低成本HBM，可大幅降低推理Prefill阶段的投资成本，预计于2026年Q1推出。

供应链层面，国产封测厂商的进展提供了佐证。根据某头部封测企业首轮问询答复函，其2.5D封装业务收入主要来自高性能计算芯片封装服务，该项收入从2024年的0.5亿元快速增长至2024年的18.2亿元，侧面印证国产算力芯片供给能力持续提升，供应链国产化进程加快。

来源：https://www.163.com/dy/article/KMV75RBM05198NMR.html

推理算力英伟达 gpu 系列芯片

上一篇华为海外首发超节点产品：系统级创新突破算力瓶颈 下一篇小鹏汽车2月交付15256台新车，交付量稳步提升

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-01

优必选CEO周剑：家庭机器人生态核心投入过半精力

先说几个核心判断：优必选正在布局一盘长远战略。创始人兼CEO周剑在近期一场媒体沟通会上，直接亮出了公司未来的发展路线——工业、商用、家庭陪伴机器人三条业务主赛道并行推进，现阶段每条线各占约一半精力。一边是已经能够稳定创造收入的工业场景，另一边则是他眼中“最具想象力与未来空间”的家庭陪伴领域。工业人形

科技数码 · 2026-07-01

CPO/NPO/OIO开启封装级光连接价值空间，技术路线尚未收敛

6月30日，申银万国在光连接系列研报中重点指出，MPO光连接器领域的投资机会值得高度关注。通俗来说，随着AI算力集群持续扩张，光互联升级带来的连锁效应——数据中心光纤通道数量、前面板端口密度、机柜内光纤管理复杂度——均在同步攀升。光连接器的角色早已超越传统的低价值标准件，如今它直接决定着链路插损、可

科技数码 · 2026-07-01

龙岗AR实景剧本游内测体验短板有效破解之道

在今年龙岗区第二届人工智能与机器人发展大会上，区级部门一次性推出了7个AI“龙搭子”。其中，名为“龙导游”的成果成为文商旅融合领域的核心亮点。据南都N视频记者了解，依托“龙导游”打造的全区全域AR实景剧本游“龙岗大陆”，已在今年五一假期发布了内测版本。经过一个月市场验证后，该项目正式启动面向全社会的

科技数码 · 2026-07-01

南下资金6月30日净买入中芯国际与建滔积层板

6月30日，南下资金持续大举买入港股，单日净流入金额高达58 95亿港元。接下来，我们直接盘点哪些个股获得资金青睐、哪些遭到减持：净买入方面，中芯国际领跑全场，单日吸金19 33亿港元；建滔积层板紧随其后，净买入10 59亿港元；腾讯控股获得7 65亿港元净流入；智谱（02513 HK）也有6 5

科技数码 · 2026-07-01

电动汽车电池新国标7月实施热失控不起火不爆炸

自2026年7月1日起，两项关乎电动汽车安全的核心强制性国家标准将正式实施，为行业加装“安全锁”——《电动汽车安全要求》（GB 18384-2025）与《电动汽车用动力蓄电池安全要求》（GB 38031-2025）同步落地。此次标准升级，从整车架构与电池系统两大维度，精准填补了近年来多起事故暴露出的