芯片大神Jim Keller称Tenstorrent将全面击败Cerebras

时间：2026-06-29 15:13

传奇芯片架构师JimKeller指出，AI芯片竞争胜负取决于系统架构、成本与生态能力。Tenstorrent凭借BlackHoleGalaxy服务器，在推理性能上超越GPU和晶圆级芯片厂商Cerebras，核心优势在于网络与内存的平衡。基于自研RISC-VChiplet架构，Tenstorrent将以更低成本在所有维度击败对手，并计划独立IPO。

AI芯片战局正进入一个全新阶段。曾主导Zen架构、苹果A系列处理器和特斯拉Dojo芯片的传奇架构师Jim Keller，近日在接受《EE Times》采访时给出了一组相当直白的判断：竞争的胜负已经不再取决于单点算力的高低，而是系统架构、成本结构与生态能力的全面较量。他明确表示，Tenstorrent将在所有维度上击败晶圆级AI芯片厂商Cerebras。

除了与Cerebras的竞争关系，Jim Keller还深入聊了Tenstorrent的产品路线、RISC-V CPU IP战略，以及公司潜在的IPO计划。以下是这次采访的核心内容。

一年前，《EE Times》造访Tenstorrent首席执行官Jim Keller的办公室时，他门外的白板上写着：“我们会赢！”（We're going to WIN!）。一年后再次造访，白板上的字变成了：“天哪，真快！”（Holy Shit, That's Fast!）。

在TT-Deploy活动之后，Jim Keller告诉《EE Times》，凭借其BlackHole Galaxy服务器，Tenstorrent能够在性能上同时超越GPU和更专业的AI硬件。他的核心判断是：AI推理归根结底是一个网络和内存问题，而Tenstorrent的架构正在规模上验证这一点。

TT-Deploy上展示的性能数据很能说明问题：16台Tenstorrent Galaxy服务器（512颗芯片）可以在批量大小为32的情况下，以每用户每秒高达350个Token的速度对DeepSeek-671B模型进行推理。Jim Keller解释，Tenstorrent能轻松将大型张量分割到数百颗芯片上，这是实现快速Token生成的直接原因——Galaxy机箱每个拥有56个以太网端口，而GPU服务器每个可能只有8个外部端口。

他引用了IBM在1960年代提出的Rent规则：逻辑块所需的I/O随逻辑量的增长呈次线性增长；这意味着计算区域增长速度远超可用于通信的“海滩前沿”面积。在他看来，这恰恰是其他架构的致命缺陷。

“没有新的法则，”他强调，“AI计算的基础植根于20世纪70年代的高性能计算（HPC），这些原理几十年来已被充分理解。”成功的AI基础设施归根结底还是计算、内存和I/O之间的平衡。他进一步解释：“AI主要是矩阵计算和非线性向量运算，要让它快速运行，你需要足够的SRAM来保存计算数据和结果，并需要一个缓冲区用于数据在内存、张量处理器和芯片之间移动——这些我们都有。如果你把内存做得太大，它帮助不大；如果太小，那情况就非常糟糕。”

“我们将在所有方面击败Cerebras”

对于刚刚完成IPO、迅速成为AI芯片领域焦点的Cerebras，Jim Keller没有丝毫回避。他表示，Cerebras上市反而有助于Tenstorrent的发展——它让市场更清晰地看到AI芯片创新路线的多样性，也让投资者重新评估不同架构路径的价值。

Cerebras走的是12英寸晶圆级AI芯片（Wafer Scale Engine，WSE）路线，试图通过极大规模单芯片提升算力密度。而Tenstorrent基于自研RISC-V核心Chiplet架构，通过灵活扩展与更低成本实现系统级部署优势。Jim Keller直言，Tenstorrent可以用BlackHole Galaxy服务器的大规模部署，以远低于Cerebras的硬件成本击败其性能。“Cerebras的IPO和随后的估值对我们有帮助，特别是因为我们将在所有方面击败他们——挑战已接受！”

分离式推理

AI芯片市场领导者英伟达已获得Groq的技术授权，用于加速LLM推理的解码部分，即所谓的分离式推理。Jim Keller指出，Tenstorrent无需为快速解码采取任何额外步骤。“我经常被问及我们如何处理KV缓存，它就在与解码相同的芯片上的DRAM中，我们甚至不用去考虑它。我们非常擅长这个。”

关键在于Tenstorrent可以连接任意数量的张量处理器。如果有足够多的芯片，张量将完全适合SRAM；如果芯片数量不足，数据可以从DRAM中流式传输，只是会牺牲一些性能。而像Groq和Cerebras这样没有任何DRAM的架构则无法做到这一点。

那么Tenstorrent的硬件能否像英伟达的分离式架构一样，与GPU一起用于解码加速？Jim Keller透露：“我们有一个客户正在使用Galaxy来加速他们购买的GPU。我们有一款带有BlackHole芯片的PCIe卡，使用第二层以太网进行传输，所以连接起来相当容易。”据他称，该客户使用这种方法将Token速率提高了一倍或两倍。“如果他们一开始只购买Tenstorrent，那会更便宜，因为我们也能做预填充，而且更简洁。但客户已经购买了GPU，他们希望利用已有的投资。”将这一想法产品化目前还是“也许”。

工作负载协同设计

关于超大规模计算公司和前沿AI实验室因垂直整合而在硬件设计方面具有优势的看法，可能被夸大了。Jim Keller表示，与其他公司一样，Tenstorrent在其硬件中对一些流行的非线性函数进行了优化，但这些优化可以在后续几代硅芯片中根据需要进行调整。在芯片规模上，重要的是为大型模型构建、获得正确的精度，并妥善处理巨大的KV缓存和像扩散模型这样的计算密集型工作负载。

“到目前为止，如果你拥有DRAM、SRAM、计算、矩阵向量和片上网络（NoC）的平衡，一切都能正常工作——Rent规则似乎很稳固。”另一个以新方式适用的旧规则是阿姆达尔定律——任何工作负载的加速都受到无法加速部分的限制。“袋里式计算是一个阿姆达尔定律问题，”Jim Keller说，“AI消耗了惊人的计算量，所以CPU会发送AI任务并等待其完成……袋里式AI已经开始推动CPU需求，因为AI终于变得足够快，以至于问题的标量部分成为了瓶颈。”

目标是独立IPO

Jim Keller拒绝评论有关包括英特尔和高通在内的公司提出的收购要约的报道，仅证实他确实会见了这两家公司的CEO，以及所有主要超大规模计算公司的负责人，以向他们推销Tenstorrent的硬件IP。“我希望从其中一家公司那里拿到大单，因为我们的RISC-V CPU IP非常出色。一家超大规模计算公司也在考虑我们的AI IP，用于制造小型芯片。”

他指出，超大规模计算公司虽然已经开发了自己的大型AI芯片，但用于边缘设备等场景的小型AI芯片不能直接使用相同IP的缩减版。Tenstorrent的AI IP被设计为可扩展的，并且已经完全产品化——它附带从单核扩展到1000核所需的一切。

对于Tenstorrent的初创公司竞争对手来说，过去六个月的两个重大退出分别是收购和IPO。Jim Keller证实，Tenstorrent的目标是IPO，并正在为此建立其供应链和国际影响力。“目前，我们的投资者对IPO非常热衷。”

Tenstorrent作为解码翻跟斗是否必然使其对GPU公司具有收购吸引力？Jim Keller表示，某种战略交易或联合进入市场的可能性更大。无论是主权基础设施还是大型前沿实验室，都希望在硬件和软件方面掌控自己的命运。“很多事情都可能发生，”他补充道。

在TT-Deploy之后，Tenstorrent已经收到了硬件订单，其中最大的采购订单是一个96台Galaxy集群（即3072颗Blackhole芯片），将发往美国以外的地区。Tenstorrent迄今为止最大的客户仍然是日本的AI&，其CEO是Tenstorrent前高管Da vid Bennett。

“发生的一部分情况是，许多人在英伟达那里有1亿美元的订单，但英伟达一年内无法发货，所以他们购买了一台2000万美元的Tenstorrent机器，因为它便宜得多。”Jim Keller透露，Tenstorrent正在制造1000台Galaxy服务器，其中至少一半已经售出。“我们的产品运行得相当好，我们有10个客户的Galaxy已经到位，我们已经过了概念验证阶段。我们开始收到后续订单……我希望先有10个满意的客户，然后是20个，然后是30个。”

来源：https://cloud.tencent.com.cn/developer/article/2699884

芯片

上一篇OpenAI挖来苹果Vision Pro硬件主管加速AI研发 下一篇SAP顾问未来职业发展方向与规划建议

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

AI教程 · 2026-06-29

Windows Docker Desktop RabbitMQ生产级部署完整指南

前言在 Windows 本地开发环境中，直接安装 RabbitMQ 确实颇为周折：需要单独配置 Erlang 运行环境、手动管理环境变量、服务启停全凭手工操作。更令人困扰的是，版本兼容冲突、端口占用、环境不一致等问题层出不穷。笔者见过不少开发者为搭建环境就得耗费整整半天时间。相比之下，借助 Do

AI教程 · 2026-06-29

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践

先分享一个切实感受。过去两年，我们与福建制造企业合作较为频繁，发现一个非常突出的现象：超过80%的企业官网，产品参数仍然存放在PDF或图片中。AI爬虫？根本无法抓取。这些企业技术实力不弱、资质证照齐全、应用案例也丰富，但在AI搜索这一全新战场上，它们几乎处于隐身状态。一、一个正在发生的行业变化 A

AI教程 · 2026-06-29

阿里云Token Plan团队版功能价格与省钱购买指南

阿里云百炼近期推出了名为“Token Plan 团队版”的全新服务，这一服务专为企业与开发者量身打造，定位为AI大模型订阅平台。通过引入Credits作为统一计量单位，将文本生成、图像生成等多模态AI能力纳入单一计费体系，同时无缝兼容主流AI编程工具及智能体（Agent）生态系统。其核心亮点包括：全

AI教程 · 2026-06-29

阿里云物联网.NET Core客户端位置信息上报

阿里云物联网平台的位置服务并非一个完全独立的功能模块。位置信息可包含二维坐标与三维坐标，而位置数据的来源本质上是借助设备属性进行上传。换言之，若要让设备上报位置，您需先将其视为一个普通属性进行处理。 1）添加二维位置数据操作过程十分简洁。进入数据分析 → 空间数据可视化 → 二维数据，点击添加，将

AI教程 · 2026-06-29

年阿里云服务器选型配置与网站部署全攻略

2026年，阿里云服务器生态已高度成熟，形成了清晰的轻量应用服务器与ECS云服务器两大产品阵营。无论你是计划搭建个人博客、企业官网，还是运营电商平台、进行应用开发，基本都能找到理想的解决方案。本指南将从服务器选型、配置选择、部署流程到安全运维，系统梳理2026年最实用的操作要点，帮助你少走弯路，让网