OpenAI 与 Cerebras 刚刚敲定了一份为期多年的战略合作协议,从 2026 年起,将分批次部署总计 750 兆瓦的 Cerebras 晶圆级计算系统,专门用来支撑 OpenAI 面向全球用户的 AI 服务。这个项目很可能会成为全球规模最大、带宽最高的 AI 实时推理基础设施。据内部消息,合作总金额超过 100 亿美元。
双方在联合声明中明确,这次合作的核心目标是大幅提升 OpenAI 大模型的在线推理性能——尤其针对那些目前还存在明显响应延迟的高复杂度任务,目标是实现毫秒级的响应突破。

OpenAI 在官方技术博客里强调,这批新型系统将显著压缩长链推理与多步决策任务的端到端延迟,进而推动人机交互体验变得更自然、更流畅。Cerebras 的联合创始人兼 CEO Andrew Feldman 打了个比方:就像宽带重塑了互联网的使用范式一样,实时推理能力的普及也必将彻底重构人工智能的应用边界。
Cerebras 这家公司成立于 2015 年,在芯片架构和系统级 AI 加速领域已经深耕了十多年。自从 2022 年 ChatGPT 爆发以来,他们全栈自研的晶圆级引擎(WSE)技术迅速引起了业界广泛关注。公司方面表示,相比主流的英伟达 GPU 推理方案,他们的原生 AI 芯片在吞吐量和能效比上拥有结构性优势。
实际上,双方的技术对话可以追溯到 2017 年,而这次大规模落地标志着大语言模型的能力与专用硬件架构之间真正进入了深度协同的阶段。实测数据显示,在运行典型大语言模型时,Cerebras 系统的推理延迟比传统 GPU 集群最高降低了 15 倍。OpenAI 工程副总裁 Sachin Katti 表示,Cerebras 提供的超低延迟专用推理平台,是实现真正沉浸式、拟真化 AI 对话的关键基石。而 Cerebras 方面也指出,通过这次合作,他们的晶圆级技术将首次规模化服务于数亿乃至数十亿的终端用户。
