英伟达拟发布推理芯片新架构，揭秘“神秘芯片”设计

首页

科技数码

热心网友

转载

2026-03-11

21世纪经济报道邓浩孙燕

今年三月中旬，英伟达将在加州圣何塞召开GTC大会。这场盛会，无疑是AI领域最受瞩目的行业风向标之一。就在不久前，黄仁勋宣布，公司将推出一款“前所未见”的全新芯片。

消息一出，资本市场热议四起。目前的主流观点是，计划于GTC大会上发布的这款芯片，最有可能的形态是融入Groq LPU设计理念的全新推理产品。

业内专家分析，这款芯片不太可能是“加速插件”。云岫资本AI/智能制造组董事庄昌磊对记者表示，“如果作为现有GPU的插件，其数据传输仍需经过PCIe或NVLink等外部接口，这本身就会引入新的延迟，部分抵消SRAM低延迟的优势。”

他进一步补充道，“更理想的方案，或许是像Cerebras那样，打造一个专为推理设计、以SRAM为核心的崭新计算架构。”

推理时代来临

随着以小冰“小龙虾”为代表的新一代智能体应用走红，全球算力需求结构正经历显著转变，市场重心也从训练转向推理。

根据德勤《2026科技、传媒和电信行业预测》，到2026年，“推理”将占据全部AI计算能力的三分之二。并且，未来还将出现价值数十亿美元的推理专用优化芯片，它们将被部署在数据中心和企业服务器中。部分芯片的功耗将与通用AI芯片相当甚至更高。

近日，记者获悉，对于此次大会，业界预测的最大亮点，除了预计英伟达将正式揭晓Rubin及下一代Feynman架构GPU的核心技术细节外，还普遍认为其极有可能会推出一款整合了LPU技术的全新推理芯片。

作为整合了Groq团队LPU技术的全新推理芯片系统，这或将是英伟达首次在其核心AI算力产品线中大规模引入外部架构。

中信证券称，此前英伟达推出Rubin CPX针对Prefill环节降本需求，而在完成对Groq相关技术的吸收整合后，本次或许会推出LPU或“类LPU”芯片来实现Decode环节的提效。

在推理过程中，模型一般需经历两个阶段。首先，在pre-fill阶段处理用户输入；其次，在decode阶段，逐个生成输出结果。

实际影响用户体验的关键，在于decode阶段的生成速度与延迟。在基于GPU的推理架构中，由于大量模型参数存放在HBM中，计算核心与HBM之间需要进行频繁的数据搬运，这会影响模型decode阶段的时效性。

而Groq的LPU专为推理加速设计，它采用离计算核心更近的存储单元SRAM来存储模型参数。例如，约230MB的片上SRAM可提供高达80TB/s的内存带宽，数据处理速度远超GPU架构。

不过，从物理设计来看，用SRAM完全取代HBM并不可行。

庄昌磊解释道，面对当前动辄千亿、万亿参数的大模型，纯SRAM方案在容量上完全无法胜任。那么，英伟达可能会如何进行创新？

答案很可能不是“替代”，而是“叠加”。庄昌磊表示，“根据产业消息，英伟达可能采用类似AMD 3D V-Cache的技术，通过台积电的SoIC混合键合技术，将专为推理加速设计的、包含大量SRAM的LPU单元，直接3D堆叠在GPU核心晶圆之上。”

供应链或生变

对于3D堆叠方案，AMD等头部厂商已有布局。2024年AMD公布了3D垂直缓存技术，可将额外的7nm SRAM缓存垂直堆叠在Ryzen计算小芯片顶部，大幅增加L3缓存数量。2024年7月，富士通介绍旗下MONAKA处理器采用3D SRAM技术，计划2027年出货。

这一方案会否走向主流？

“片上SRAM存在工艺缩放比逻辑电路慢等问题，导致在单枚芯片上SRAM占用的面积较大、成本提升。基于此，部分投资者认为SRAM架构难以成为AI芯片内存的主要方案。”东方证券则认为，SRAM 3D堆叠方案可通过垂直堆叠存储单元的方法来提升密度，规避传统SRAM容量受面积密度限制的问题。若AI推理中需要实现更高容量的SRAM，3D堆叠方案有望拓展应用。

中信证券也认为，未来的GPU与NPU都有可能采用3D堆叠SRAM的方式，实现访存带宽的飞跃，吸收LPU的优势，同时保持原有的软件生态无需变动，保留GPU和NPU的原有优势。

庄昌磊指出，复杂的AI芯片可能需要两者兼顾：先用SoIC叠堆LPU和GPU核心，再把这个堆叠好的立方体通过CoWoS与HBM封装在一起。对于一些特定的、不需要HBM容量的纯推理芯片，确实可以完全依赖3D堆叠SRAM来构建，从而绕开CoWoS，“但这部分芯片面向的是细分市场，量级难以撼动HBM+CoWoS的主流地位。”

而SRAM 3D堆叠需要在晶圆制造阶段就进行精确的晶圆对晶圆键合，技术和工艺与前段制造深度耦合。这将进一步把价值量从后道封装前移。

一方面，先进制程的价值被进一步放大。庄昌磊指出，为了在垂直堆叠中获得最高的互联密度和能效，最底层的计算晶圆必须采用最先进的工艺，这加剧了行业对尖端制程的依赖。

“另一方面，如果高端芯片的价值不断向前道制造和与之绑定的先进封装集中，本土封测厂可能面临被‘挤出’高端市场的风险。”庄昌磊认为，这也为本土封测厂带来了差异化竞争机遇，例如为不需要最尖端工艺的芯片提供成熟且高性价比的3D堆叠方案，或是在3D堆叠芯片的测试、散热、可靠性分析等后端环节建立新的技术壁垒。

来源:https://www.163.com/dy/article/KNOBH87Q05199NPP.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：亚马逊起诉Perplexity：AI助手的首场法律战下一篇：Omdia：2030年智能手机卫星直连收入将突破1200亿美元

相关攻略

科技数码

英伟达谷歌推进液冷服务器市场需求强劲拉动股价

液冷服务器板块市场行情火热，关注度与投资热情持续走高。同飞股份、申菱环境盘中涨幅均超14%，川润股份、宏盛股份、银轮股份等个股早盘已强势涨停，英维克、大元泵业、飞龙股份、依米康等相关概念股也同步跟涨。此番上涨行情背后，拥有坚实的行业数据作为支撑。TrendForce集邦咨询最新研究报告指出，在AI

热心网友

05.20

AI资讯

英伟达揭示AI成本真相：为何每Token成本才是关键指标

传统数据中心的核心任务，曾是数据的存储、检索与处理。然而，进入生成式AI与袋里式AI时代，这些设施的定位已悄然转变——它们正演变为一座座“AI Token工厂”。当AI推理成为核心工作负载，其核心产出便不再是原始数据，而是以Token为载体的智能本身。这一根本性的转变，要求我们对AI基础设施的经济

热心网友

05.20

AI资讯

美股芯片股普遍下跌英伟达微跌台积电股价下滑

美股芯片板块近期表现不佳，呈现普遍走低态势。其中，英伟达股价微跌0 04%，台积电股价下跌0 93%，应用材料跌幅较大为3 21%，阿斯麦也下跌0 59%。仅有美光科技保持上涨，但涨幅收窄至1 27%。市场分析指出，这反映了投资者对半导体行业短期走势的审慎情绪，以及对宏观经济和行业周期因素的担忧。个

热心网友

05.19