英伟达神秘芯片揭秘:四大算力趋势开启推理新时代
英伟达整合LPU(语言处理单元)技术、OpenAI多线押注推理芯片,正在将AI算力竞争的主战场从训练切换至推理。申万宏源研究认为,2026年算力产业的核心关键词将是推理,Token消耗总量与技术范式均将围绕这一主题深度重构。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
2月28日,据《华尔街日报》报道,英伟达计划在下月的GTC开发者大会上发布一款整合了Groq“语言处理单元”(LPU)技术的全新推理芯片,英伟达首席执行官黄仁勋称其为“世界从未见过”的全新系统。OpenAI已同意成为该处理器的最大客户之一,并将向英伟达购买大规模“专用推理产能”。
与此同时,OpenAI上月还与初创公司Cerebras达成数十亿美元计算合作,后者称其推理芯片速度已超越英伟达GPU(图形处理器)。这一系列动向表明,AI巨头正在从训练算力的军备竞赛,转向推理算力的多线布局。
申万宏源报告指出,Token经济时代,推理算力正迎来四大趋势:一是纯CPU(中央处理器)部署场景增多,低成本推理需求加速算力下沉;二是LPU等专用架构崛起,挑战GPU在推理环节的主导地位;三是国产算力芯片加速突破,供应链多元化趋势明确;四是推理算力的需求结构从“单次训练”向“海量Token消耗”转变,性价比成为核心竞争要素。
报告表示,能够提供充足、高性价比推理芯片的厂商将最为受益,而CPU、LPU及国产芯片的共同突破,正构成这一轮算力格局重塑的核心线索。
推理需求全面爆发,Token消耗创历史新高
申万宏源研究认为,需求持续扩张的背后是两大结构性驱动力:一是大模型货币化加速,Claude等模型开始向应用端切入,发布多款行业插件;二是Agent落地提速,openclaw、千问Agent等产品标志着Agent正进入真实的工作与生产场景,而每一次模型调用和Agent任务执行,背后均需大量推理算力支撑。
申万宏源研究援引数据显示,春节期间国内头部大模型推理量大幅增长:豆包除夕当天推理吞吐量达633亿tokens,元宝月活跃用户达1.14亿,千问“春节大免单”活动参与人数超1.2亿。
全球AI模型API聚合平台OpenRouter的数据进一步揭示了这一趋势的量级。2月9日至15日当周,中国模型以4.12万亿Token的调用量首次超过美国模型的2.94万亿Token;16日至22日当周,中国模型调用量进一步冲高至5.16万亿Token,三周大涨127%,全球调用量前五的模型中中国占据四席。

LPU成新贵,训练与推理芯片走向分化
英伟达斥资200亿美元获取Groq核心技术许可,并在“核心聘用”交易中吸纳了包括创始人Jonathan Ross在内的高管团队。申万宏源研究认为,这一交易标志着纯推理芯片的重要性已获得顶级玩家的正式认可。
LPU与传统GPU的架构差异,正是其在推理场景中具备效率优势的根本原因。AI推理分为预填充和解码两个阶段,大型模型的解码过程尤其缓慢,而LPU针对延迟和内存带宽这两大推理瓶颈进行了专项优化。据华尔街见闻此前报道,英伟达即将发布的新品可能涉及下一代Feynman架构,或采用更广泛的SRAM集成方案,甚至通过3D堆叠技术将LPU深度整合其中。
申万宏源研究据此判断,未来AI芯片将形成明确的技术分工格局:训练端继续沿用GPU-HBM组合,推理端则演进为ASIC+LPU-SRAM+SSD的组合方案。随着算力需求从训练向推理切换,专注推理芯片的厂商将迎来发展机遇。
推理系统全面革新,CPU与网络需求同步提升
从单一芯片到系统层面的革新,是本轮推理算力升级的另一重要维度。申万宏源研究指出,随着应用场景从c h a tbot转向Agent,算力系统对延迟、吞吐与思考深度的要求同时提升,推动系统架构向三层网络演进。
第一层为快反应层,由搭载SRAM的纯推理芯片提供极致低延迟反馈;第二层为慢思考层,使用超大吞吐算力集群负责复杂逻辑推演,多核多线程CPU在此层的需求将显著增加;第三层为记忆层,对应英伟达发布的ContextMemory System,通过Bluefield4 DPU管理的SSD存储Agent的长期记忆与KV Cache。
英伟达在硬件层面也在调整策略。此前将Vera CPU与Rubin GPU捆绑部署的标准做法,在特定AI智能体工作负载下被证明成本过高。英伟达本月宣布扩大与Meta Platforms的合作,完成首次大规模纯CPU部署,以支持Meta的广告定向AI智能体,标志着公司正超越单一GPU销售模式。

国产算力加速突破
申万宏源研究认为,国产推理芯片的技术升级值得重点关注,且存在市场预期差。
在技术层面,新一代国产推理芯片实现了多项根本性提升:新增支持FP8/MXFP8/MXFP4等低精度数据格式,算力分别达到1P和2P;大幅提升向量算力,采用支持SIMD/SIMT双编程模型的新同构设计;互联带宽相比前代提升2.5倍,达到2TB/s。
尤为值得关注的是,芯片层面实现了PD分离:通过自研两种不同规格的HBM,分别构成面向Prefill和推荐场景的PR版本,以及面向Decode和训练场景的DT版本。其中PR版本采用低成本HBM,可大幅降低推理Prefill阶段的投资成本,预计于2026年Q1推出。
供应链层面,国产封测厂商的进展提供了佐证。根据某头部封测企业首轮问询答复函,其2.5D封装业务收入主要来自高性能计算芯片封装服务,该项收入从2024年的0.5亿元快速增长至2024年的18.2亿元,侧面印证国产算力芯片供给能力持续提升,供应链国产化进程加快。
相关攻略
一个学生忽视了一行代码,结果发现了一件很不对劲的事:在一个多模态医学AI项目中,这行代码原本负责让模型读取图像数据。但因为这次疏忽,模型实际上完全没有看到任何图片。按理说系统应该报错,或者至少拒绝回
雷递网 乐天 3月31日智谱CEO张鹏今日在智谱2025年年报沟通会上表示,智谱曾经历过质疑,经历过挫折,但无数事实反复验证了一个判断——智能上界的提升,是大模型AGI时代唯一的 "第一性 "。张鹏说,
快科技3月31日消息,近日,比利时布鲁塞尔自由大学(VUB)数据分析实验室发布重磅研究成果,证实商用大型语言模型已具备独立生成原创数学证明的能力。OpenAI旗下ChatGPT-5 2(Thinki
这项由谷歌智能范式团队联合芝加哥大学、圣塔菲研究所等多家机构完成的突破性研究发表于2026年3月,研究编号为arXiv:2603 20639v1。有兴趣深入了解的读者可以通过这个编号查询完整论文。这
这项由高通AI研究院领导的突破性研究发表于2026年3月的预印本论文,论文编号为arXiv:2603 08462v1。有兴趣深入了解的读者可以通过该编号查询完整论文。这项研究解决了一个让所有AI研究
热门专题
热门推荐
《全面战争:中世纪3》:经典延续,如何平衡怀旧与创新? 近期,《全面战争:中世纪3》的项目负责人帕维尔·沃伊斯坦然指出,要打造一款真正优秀的续作,绝不能仅仅依赖对前作模式的简单复刻。这一观点引人深思——尽管《中世纪2:全面战争》至今仍在策略游戏爱好者心中占据着经典地位,但开发团队此次显然决心跳出“照
雷鸟X3 Pro斩获AWE艾普兰创新大奖,开启全民AR生活新篇章 在上海新国际博览中心隆重揭幕的2026年中国家电及消费电子博览会(AWE)上,前沿AI科技与未来生活愿景激情碰撞。全球消费级AR领导品牌雷鸟创新,以其里程碑式的表现,定义了行业发展的新方向。 通过“顶尖硬件科技+顶级文化IP”的双轨战
借力AWE2026“一展双区”,MOVA双区协同、震撼登场 备受瞩目的科技盛会——2026年中国家电及消费电子博览会(AWE),于3月12日至15日在上海盛大举办。本届AWE展会首次创新采用“一展双区”的展览模式,主会场位于上海新国际博览中心,分会场则设于上海东方枢纽国际商务合作区,两大展区高效联动
冰结师技能全解析 踏入2026年,《地下城与勇士》中的冰结师职业,其技能体系已构建得更为成熟与强大。无论是在副本中高效清理海量怪物,还是在决斗场与高手玩家周旋,这个职业都能凭借其独特的冰霜艺术掌控战局。刷图时,酷寒的范围法术可瞬间清屏;而在PVP竞技中,一套将冻结控制与瞬间爆发完美衔接的连招,往往让
iPhone 18 Pro系列模具不变,屏幕形态将与iPhone 17 Pro保持一致 备受期待的屏下Face ID组件小型化设计与灵动岛区域缩窄方案,预计将被推迟至后续迭代机型中正式应用。 近期,关于iPhone 18 Pro系列的技术传闻持续引发行业关注,尤其在显示与解锁设计领域传言甚多。多方消





