AI芯片战局正进入一个全新阶段。曾主导Zen架构、苹果A系列处理器和特斯拉Dojo芯片的传奇架构师Jim Keller,近日在接受《EE Times》采访时给出了一组相当直白的判断:竞争的胜负已经不再取决于单点算力的高低,而是系统架构、成本结构与生态能力的全面较量。他明确表示,Tenstorrent将在所有维度上击败晶圆级AI芯片厂商Cerebras。
除了与Cerebras的竞争关系,Jim Keller还深入聊了Tenstorrent的产品路线、RISC-V CPU IP战略,以及公司潜在的IPO计划。以下是这次采访的核心内容。
一年前,《EE Times》造访Tenstorrent首席执行官Jim Keller的办公室时,他门外的白板上写着:“我们会赢!”(We're going to WIN!)。一年后再次造访,白板上的字变成了:“天哪,真快!”(Holy Shit, That's Fast!)。
在TT-Deploy活动之后,Jim Keller告诉《EE Times》,凭借其BlackHole Galaxy服务器,Tenstorrent能够在性能上同时超越GPU和更专业的AI硬件。他的核心判断是:AI推理归根结底是一个网络和内存问题,而Tenstorrent的架构正在规模上验证这一点。
TT-Deploy上展示的性能数据很能说明问题:16台Tenstorrent Galaxy服务器(512颗芯片)可以在批量大小为32的情况下,以每用户每秒高达350个Token的速度对DeepSeek-671B模型进行推理。Jim Keller解释,Tenstorrent能轻松将大型张量分割到数百颗芯片上,这是实现快速Token生成的直接原因——Galaxy机箱每个拥有56个以太网端口,而GPU服务器每个可能只有8个外部端口。
他引用了IBM在1960年代提出的Rent规则:逻辑块所需的I/O随逻辑量的增长呈次线性增长;这意味着计算区域增长速度远超可用于通信的“海滩前沿”面积。在他看来,这恰恰是其他架构的致命缺陷。
“没有新的法则,”他强调,“AI计算的基础植根于20世纪70年代的高性能计算(HPC),这些原理几十年来已被充分理解。”成功的AI基础设施归根结底还是计算、内存和I/O之间的平衡。他进一步解释:“AI主要是矩阵计算和非线性向量运算,要让它快速运行,你需要足够的SRAM来保存计算数据和结果,并需要一个缓冲区用于数据在内存、张量处理器和芯片之间移动——这些我们都有。如果你把内存做得太大,它帮助不大;如果太小,那情况就非常糟糕。”
“我们将在所有方面击败Cerebras”
对于刚刚完成IPO、迅速成为AI芯片领域焦点的Cerebras,Jim Keller没有丝毫回避。他表示,Cerebras上市反而有助于Tenstorrent的发展——它让市场更清晰地看到AI芯片创新路线的多样性,也让投资者重新评估不同架构路径的价值。
Cerebras走的是12英寸晶圆级AI芯片(Wafer Scale Engine,WSE)路线,试图通过极大规模单芯片提升算力密度。而Tenstorrent基于自研RISC-V核心Chiplet架构,通过灵活扩展与更低成本实现系统级部署优势。Jim Keller直言,Tenstorrent可以用BlackHole Galaxy服务器的大规模部署,以远低于Cerebras的硬件成本击败其性能。“Cerebras的IPO和随后的估值对我们有帮助,特别是因为我们将在所有方面击败他们——挑战已接受!”
分离式推理
AI芯片市场领导者英伟达已获得Groq的技术授权,用于加速LLM推理的解码部分,即所谓的分离式推理。Jim Keller指出,Tenstorrent无需为快速解码采取任何额外步骤。“我经常被问及我们如何处理KV缓存,它就在与解码相同的芯片上的DRAM中,我们甚至不用去考虑它。我们非常擅长这个。”
关键在于Tenstorrent可以连接任意数量的张量处理器。如果有足够多的芯片,张量将完全适合SRAM;如果芯片数量不足,数据可以从DRAM中流式传输,只是会牺牲一些性能。而像Groq和Cerebras这样没有任何DRAM的架构则无法做到这一点。
那么Tenstorrent的硬件能否像英伟达的分离式架构一样,与GPU一起用于解码加速?Jim Keller透露:“我们有一个客户正在使用Galaxy来加速他们购买的GPU。我们有一款带有BlackHole芯片的PCIe卡,使用第二层以太网进行传输,所以连接起来相当容易。”据他称,该客户使用这种方法将Token速率提高了一倍或两倍。“如果他们一开始只购买Tenstorrent,那会更便宜,因为我们也能做预填充,而且更简洁。但客户已经购买了GPU,他们希望利用已有的投资。”将这一想法产品化目前还是“也许”。
工作负载协同设计
关于超大规模计算公司和前沿AI实验室因垂直整合而在硬件设计方面具有优势的看法,可能被夸大了。Jim Keller表示,与其他公司一样,Tenstorrent在其硬件中对一些流行的非线性函数进行了优化,但这些优化可以在后续几代硅芯片中根据需要进行调整。在芯片规模上,重要的是为大型模型构建、获得正确的精度,并妥善处理巨大的KV缓存和像扩散模型这样的计算密集型工作负载。
“到目前为止,如果你拥有DRAM、SRAM、计算、矩阵向量和片上网络(NoC)的平衡,一切都能正常工作——Rent规则似乎很稳固。”另一个以新方式适用的旧规则是阿姆达尔定律——任何工作负载的加速都受到无法加速部分的限制。“袋里式计算是一个阿姆达尔定律问题,”Jim Keller说,“AI消耗了惊人的计算量,所以CPU会发送AI任务并等待其完成……袋里式AI已经开始推动CPU需求,因为AI终于变得足够快,以至于问题的标量部分成为了瓶颈。”
目标是独立IPO
Jim Keller拒绝评论有关包括英特尔和高通在内的公司提出的收购要约的报道,仅证实他确实会见了这两家公司的CEO,以及所有主要超大规模计算公司的负责人,以向他们推销Tenstorrent的硬件IP。“我希望从其中一家公司那里拿到大单,因为我们的RISC-V CPU IP非常出色。一家超大规模计算公司也在考虑我们的AI IP,用于制造小型芯片。”
他指出,超大规模计算公司虽然已经开发了自己的大型AI芯片,但用于边缘设备等场景的小型AI芯片不能直接使用相同IP的缩减版。Tenstorrent的AI IP被设计为可扩展的,并且已经完全产品化——它附带从单核扩展到1000核所需的一切。
对于Tenstorrent的初创公司竞争对手来说,过去六个月的两个重大退出分别是收购和IPO。Jim Keller证实,Tenstorrent的目标是IPO,并正在为此建立其供应链和国际影响力。“目前,我们的投资者对IPO非常热衷。”
Tenstorrent作为解码翻跟斗是否必然使其对GPU公司具有收购吸引力?Jim Keller表示,某种战略交易或联合进入市场的可能性更大。无论是主权基础设施还是大型前沿实验室,都希望在硬件和软件方面掌控自己的命运。“很多事情都可能发生,”他补充道。
在TT-Deploy之后,Tenstorrent已经收到了硬件订单,其中最大的采购订单是一个96台Galaxy集群(即3072颗Blackhole芯片),将发往美国以外的地区。Tenstorrent迄今为止最大的客户仍然是日本的AI&,其CEO是Tenstorrent前高管Da vid Bennett。
“发生的一部分情况是,许多人在英伟达那里有1亿美元的订单,但英伟达一年内无法发货,所以他们购买了一台2000万美元的Tenstorrent机器,因为它便宜得多。”Jim Keller透露,Tenstorrent正在制造1000台Galaxy服务器,其中至少一半已经售出。“我们的产品运行得相当好,我们有10个客户的Galaxy已经到位,我们已经过了概念验证阶段。我们开始收到后续订单……我希望先有10个满意的客户,然后是20个,然后是30个。”
