英伟达押注LPU或存变数 3D-CIM技术才是AI芯片终极方向
这两年,消费电子领域要是没带上“AI”两个字,发布会都不好意思开。根据IDC最新的一季度数据,全球AI手机的出货量占比已经突破45%,同比翻了两倍还不止;AI PC到年底的渗透率更是要冲击60%。然而,剥开厂商们华丽的营销话术,真实的用户体验堪称冰火两重天。

你以为手机上的“端侧AI”是真在本地运行大模型?实际情况是,十台里有八台,都是把你的提问悄悄传到云端,算完了再把结果发回来。这样一来,用户隐私就全系于厂商的“良心”之上。更躲不开的是未来的Token付费模式——眼下免费,不过是厂商烧钱抢市场的策略,等这波野蛮生长过去,一个月花在AI对话上的钱恐怕比话费还贵,这几乎是板上钉钉的事。
而那些号称“真本地AI”的AI PC,处境则更为尴尬。身边就有同事冲着长续航办公,刚买了新款联想AI PC,结果开会用电池半天就没电了。一查才发现,是后台的AI Agent在偷偷跑推理,疯狂吞噬功耗。关掉这个功能,续航立刻翻倍。目前市面上能本地跑7B大模型的AI PC,一开AI功能功耗就直接拉满,所谓的移动生产力,最后还得插着电源才能实现。
你看,一边是云端的隐私焦虑和未来付费压力,另一边则是本地的功耗噩梦和续航崩盘。端侧AI似乎始终卡在“鱼和熊掌不可兼得”的死局里。无论是端、边还是云,全场景的AI推理,都被困在“高性能、低功耗、低成本”这个不可能三角中。就在整个行业苦苦寻找答案之际,英伟达甩出200亿美元全资收购Groq,一夜之间,所有人都在高喊:GPU时代过去了,LPU才是AI推理的未来。
但,LPU真的是终局吗?或者说,有没有一种技术,比LPU走得更彻底,能从根源上破解这个不可能三角?
1. 英伟达200亿押注的LPU,到底解决了什么?又没解决什么?
先打个通俗的比方。大模型推理就像开餐馆炒菜。在传统的冯・诺依曼架构里,计算单元是灶台,存储单元则是10公里外的食材仓库。炒一道菜,80%的时间和油钱都花在了来回跑腿上,灶台真正开火的时间连20%都不到——这就是GPU做推理最大的病根。它天生适合批量“炒菜”的训练场景,但面对一个字一个字“蹦”的串行推理,完全有劲使不出,还得为漫长的“跑腿”付出巨大的功耗和延迟代价。
Groq的LPU,就是把“跑腿”这个问题优化到了极致。它依靠超大片上的SRAM,相当于把仓库搬到了厨房隔壁;再用确定性的数据流,把食材运输路线焊成了专用高铁;最后靠静态调度,把炒菜的时序提前安排得明明白白。最终实现了比顶级GPU快几十倍的推理速度,功耗却只有几分之一。难怪英伟达愿意花200亿买单。
但很遗憾,LPU终究没有跳出冯・诺依曼架构的框框:仓库还是仓库,厨房还是厨房,计算和存储依然是分开的,只是跑腿的路变短了而已。面对动辄十几B、几十B参数的大模型,片上SRAM容量终究有限,大部分参数还是要放在外部DRAM里。该跑的长途一趟没少,存储墙这堵墙,终究还是没被砸开。包括三星的3D DRAM、HBM-PIM等技术,本质也只是在仓库门口加了个小切配台,始终没解决“在仓库里直接炒菜”这个核心问题。
2. 碘伏性的三维存算一体(3D-CIM™)架构,一家中国公司给出的答案
面对这个行业死局,杭州微纳核芯给出了一个不一样的答案:三维存算一体,也就是3D-CIM™。
如果说LPU是把仓库搬到了厨房隔壁,那3D-CIM™就是直接把灶台建在了仓库的每一层货架旁。厨师伸手拿到食材,转身就能开炒,彻底把“数据搬运”这个最耗能、最费时的动作从根上抹掉了。从技术层面看,它并非简单地把存储和计算芯片摞在一起,而是通过三维键合技术,将SRAM存算一体计算内核与DRAM存储单元进行垂直堆叠融合,真正在存储器内部完成AI计算,同时还能凭借超大容量的DRAM装下大模型的海量参数。
很多人会问,这么厉害的技术,为什么英伟达、三星不抢着做?原因在于,它需要跨越三道地狱级的门槛:架构设计上,要把计算和存储从根源上揉为一体,没有任何成熟经验可循;三维键合属于半导体顶尖工艺,纳米级的对准稍有不慎,一次流片几千万就打了水漂;而非冯・诺依曼架构的生态适配,更是难住了全球无数厂商。
也正因如此,3D-CIM™长期停留在实验室的概念里。而微纳核芯的团队,早在2018年就一头扎进了这条无人区。那时候ChatGPT还没影子,大模型热潮未起,全行业的目光都聚焦在GPU和先进制程上,没人觉得存算一体能成。这支从北大信息技术高等研究院走出来的团队,一扎就是7年,连续6年在芯片设计领域的“奥林匹克”ISSCC上发表十余项破世界纪录的成果,还拿下了中国企业首个ISSCC最佳技术论文奖,最终在2024年将全球首创的3D-CIM™架构成功落地。
3. 三维存算一体(3D-CIM™)的核心是什么?为什么能成为大模型AI推理的终极方案?
全球巨头都没走通的路,微纳核芯凭什么做成了?答案很简单:他们实现的不是单点技术突破,而是把从架构创新到产业落地的全链条彻底走通了。依靠三根核心支柱,他们破解了行业的不可能三角。
第一根支柱,是SRAM存算一体核心架构,从根源上破解了算力密度与能效瓶颈。直接在存储单元里完成计算,彻底抹去了数据搬运的功耗开销。这意味着,它无需依赖3nm、2nm等昂贵的先进制程,在成熟工艺上就能实现远超传统架构的能效比。同等算力下,芯片面积只有GPU的1/2到1/3,用更经济的工艺做出了更卓越的效果。
第二根支柱,是三维键合技术,彻底打通了大模型推理的带宽与容量任督二脉。在大模型推理的生成阶段,最大的瓶颈从来不是算力,而是带宽。三维堆叠让单芯片能够承载数十GB的参数,内核与DRAM之间的互连带宽提升了数十倍,完美破解了带宽卡脖子的问题,让大模型在端侧本地流畅运行从理论变成了触手可及的现实。
第三根支柱,是基于RISC-V的RV-CIM™异构融合架构,兼顾了AI计算完备性与全栈生态易用性。行业里绝大多数存算一体芯片,都要求开发者重新学习一套复杂的工具链。而微纳核芯自研的全栈软件工具链,能自动完成从主流大模型到芯片指令的映射,开发者无需学习任何新知识就能零门槛调用算力,彻底摆脱了对CUDA闭源生态的依赖。也正是凭借这套完整的体系,他们被工信部任命为RISC-V存算一体应用组组长单位,牵头制定全球首个RV-CIM™行业标准。
七年深耕,他们打通了从指令集到算法适配的全链条,布局了120余项核心专利。其推出的两款核心芯片,以不到4W的功耗就能让7B大模型跑出150 tokens/s的速度,不到2W功耗即可流畅运行3B大模型,完美命中了端侧AI的核心痛点。目前,公司已拿下国内头部存储厂商和终端龙头的深度合作,并获得了红杉中国、小米、联想等顶级机构的投资认可。
结尾:换一条赛道,才能跑在前面
AI大模型的爆发,将全球半导体行业推到了一个全新的十字路口。摩尔定律逼近物理极限,依靠制程升级来堆砌算力的老路已经走不通了。下一代AI芯片的竞争,核心早已转变为架构创新。
英伟达豪掷200亿美元收购Groq,恰恰证明了传统GPU架构难以支撑起AI推理的未来。而微纳核芯的3D-CIM™,比LPU走得更远、更彻底,无疑是更接近终局的解决方案。
过去几十年,我们大多在海外巨头建立的体系内跟随。而在存算一体这条全新的赛道上,中国企业已经跑在了前面。3D-CIM™这条路才刚刚开始,但可以确定的是,端侧AI真正普惠的时代,必将因这项技术而加速到来。在这场后摩尔时代的算力革命中,也必将有中国公司,站在全球舞台的最中央。
相关攻略
过去一年,科技行业的权力格局正在悄然重塑。曾经在人工智能浪潮中略显被动的谷歌母公司Alphabet,如今已强势转身,成为几乎在AI技术各个层面都握有重要筹码的巨头。而现在,它正将目光投向一个更具象征意义的王座——超越芯片霸主英伟达,问鼎全球市值第一的宝座。 行情数据揭示了这场竞赛的激烈程度。截至上周
芯片巨头英伟达正从一家纯粹的芯片制造商,全面转型为AI生态的深度投资者。自2026年以来,其公开承诺的股权投资金额已突破400亿美元,覆盖了从基础设施到模型应用的AI全产业链。然而,这一激进的资本扩张策略也引发了市场的广泛讨论,有观点质疑,英伟达是否正在用自身的资产负债表,支撑起整个AI产业的非自然
英伟达CEO黄仁勋近日被拍到在北京蜜雪冰城门店购买饮品,品尝后竖起大拇指。随后,蜜雪冰城CEO疑似在朋友圈隔空回应,以“最顶级的显卡需要最纯粹的散热方式”幽默玩梗。品牌官方微博也迅速跟进,发布融合显卡、皮衣元素的海报进行互动,确认了“黄仁勋同款”饮品。这一系列趣味联动,展现了消费品牌与科技热点结合的
瑞银报告指出,英特尔EMIB-T先进封装技术有望凭借其成本与设计灵活性优势,进入英伟达下一代RubinUltraAI芯片供应链。该技术通过在基板嵌入硅桥连接芯片,无需昂贵中介层,适合大规模集成。分析认为,4芯片版本的RubinUltra可能采用此方案,但最终落地仍取决于英伟达的决策以及基板产能
据外媒Tweak Town最新报道,英特尔CEO已公开确认,与英伟达的深度合作仍在积极推进。这无疑是自双方约八个月前宣布战略合作以来,最明确、最受关注的官方进展信号。 回顾此前公布的合作蓝图,双方的合作主要锚定在数据中心与消费级PC两大核心战场。具体来看,英特尔将为英伟达的AI基础设施定制x86至强
热门专题
热门推荐
在《燕云十六声》的天工地窟中,“身如飞燕”宝箱的获取是一场对玩家综合探索能力的深度考验。想要成功开启它,不仅需要耐心与观察力,更需掌握系统性的探索策略。 掌握地窟地形与核心布局 进入天工地窟后,首要任务是进行全方位的地形勘察。建议玩家先熟悉主要通道、分支岔路以及所有可能被忽略的角落,建立完整的地图认
装修这件事,说多了都是泪。找施工队像开盲盒,预算表永远在“动态调整”,设计图看得眼花缭乱……投入大量时间和精力,最后的效果可能还是差强人意。说到底,信息不对称和过程不透明,是大多数装修烦恼的根源。 好在,如今有不少专业的数字化工具,能帮我们把控关键环节。今天就来聊聊五款定位清晰、实用性强的装修类应用
在《燕云十六声》的宏大江湖中,“不见山洞”无疑是一处引人入胜的秘境。这里不仅栖息着珍奇异兽、埋藏着稀世珍宝,更交织着无数待玩家发掘的隐秘故事与特殊事件。若想彻底揭开此地的所有秘密,掌握以下探索技巧至关重要。 进入不见山洞后,首要任务是保持专注,对环境进行细致勘察。洞内的景象暗藏玄机,绝非一目了然。一
在《骷髅传奇》中,神盾系统是决定角色战力的核心模块,远非一件普通装备可比。它更像是一位能够深度定制、伴随你征战四方的忠实伙伴。本文将为你全面解析神盾系统的获取、培养与实战运用,助你将其从基础配置打造为真正的战力引擎,在游戏中脱颖而出。 获取你的第一面神盾是旅程的起点。游戏内提供了多样化的获取途径:完
天成孙悟空这款限定皮肤,以其独特的视觉设计在战场上脱颖而出。它将中国古典神话中齐天大圣的经典形象,与游戏内的现代美学风格进行了深度结合。标志性的金色毛发、可化为武器的金箍棒特效,以及服饰上精致的云纹与神话元素,共同塑造了一个极具战场辨识度的英雄形象。这种高辨识度本身,在战术层面就具有独特价值——它能





