200亿美元!OpenAI押注“迄今为止最大”AI芯片,片上SRAM进入主流视野
文|《科创板日报》

在大多数人的印象里,芯片的发展轨迹似乎总是沿着“更小、更密”的方向前进,这背后是摩尔定律和物理空间的共同驱动。然而,OpenAI最近的一笔巨额订单,却向市场展示了一条截然不同的路径:有时候,反其道而行之,在AI这场竞速赛中,反而能开辟出一片新天地。
根据媒体报道,OpenAI已与芯片设计公司Cerebras达成一项重磅协议。未来三年,OpenAI将支付超过200亿美元,以使用基于Cerebras芯片的服务器。不仅如此,OpenAI还将向Cerebras提供约10亿美元的资金,用于支持其开发能够运行OpenAI人工智能产品的数据中心。
这笔交易还附带了一项股权安排:OpenAI有望获得Cerebras约10%的认股权证,并且其持股比例可能随着后续投资的增加而进一步提升。
交易背后的战略意图其实不难解读。眼下正值OpenAI推行“去英伟达”战略的关键时期,其核心目标是通过硬件来源的多元化,降低对英伟达芯片的单一依赖。真正让人感到意外的是,Cerebras所选择的技术路线——它既不是英伟达主导的通用GPU,也不是常见的专用集成电路(ASIC),而是专注于打造“像餐盘一样大”的晶圆级引擎(WSE)。这种设计理念,与当前绝大多数AI芯片初创公司相比,堪称特立独行。
Cerebras在2024年发布的最新第三代晶圆级引擎WSE-3,被业界称为“迄今为止最大的AI芯片”。这块芯片内部集成了惊人的90万个计算核心、44GB的片上内存,并提供了21PB的内存带宽。其总面积达到46225平方毫米,是英伟达旗舰芯片B200的56倍之多。
性能表现同样令人瞩目。WSE-3容纳了4万亿个晶体管,与英伟达B200相比,其片上内存容量是后者的250倍,内存带宽更是达到了2625倍。
片上存储
Cerebras的芯片设计哲学非常清晰:将所有的计算和存储资源,都整合在一块巨型芯片内部。这种做法的根本目的,是为了破解传统架构中数据搬运所导致的耗时与能耗瓶颈。
具体来说,它采用了静态随机存取存储器(SRAM)。通过将数据直接存储在芯片上(即“片上存储”),系统大幅减少了数据在芯片与外部存储硬件之间来回“奔波”的需求。要知道,这种数据搬运过程,恰恰是英伟达等传统系统潜在的效率瓶颈之一。
技术资料显示,SRAM中的每个存储单元由4-6个晶体管组成触发器结构。只要持续供电,触发器就能稳定地保持数据状态,无需额外的刷新操作。基于这一原理,SRAM的读写速度极快,访问时间可以低至10纳秒甚至更少,其访问速度远超常见的动态随机存取存储器(DRAM)。
Cerebras的WSE-3芯片被部署在其CS-3系统中。多个CS-3系统可以相互连接,形成Cerebras AI超级计算机,作为一个统一的逻辑计算机进行大规模的训练和推理任务。据报道,OpenAI有望在2026至2028年间,将规模高达750MW的Cerebras芯片集群,集成到其AI推理计算资源库中。
广发证券指出,SRAM架构已经进入主流视野。根据Groq公司的公开信息,其语言处理单元(LPU)单芯片内集成了约230MB的片上SRAM,存储带宽高达80 TB/s。而根据Artificial Analysis的独立基准测试,Groq的LPU芯片在不同上下文长度下均能维持稳定的推理速度,达到每秒275-276个token,这一表现显著优于其他推理平台。
从更广阔的行业视角看,3D堆叠技术有望为片上SRAM打开新的应用空间。
东方证券分析指出,片上SRAM也存在一些挑战,例如其工艺缩放速度比逻辑电路慢,这导致在单枚芯片上,SRAM会占用较大面积,从而推高成本。正因如此,部分市场观点认为,SRAM架构难以成为AI芯片内存的主流方案。
该机构认为,SRAM的3D堆叠方案提供了一种新的思路。通过垂直堆叠存储单元来提升密度,可以规避传统SRAM因面积限制而导致容量受限的问题,这或许能在未来拓展其应用边界。展望未来,如果AI推理任务对SRAM容量提出更高要求,3D堆叠方案的应用前景值得期待。
