TPU(张量处理器)的热度,正以肉眼可见的速度持续攀升。
就在过去一个月,围绕谷歌TPU的新闻接连不断。4月底,谷歌正式发布了第八代TPU,这次它做出了一项颇具深意的决策——将训练与推理拆分为两款独立的芯片。紧接着,市场传出谷歌向英特尔下达了大规模采购订单,并计划与三星联手研发新一代TPU。尽管谷歌官方对这些消息并未公开回应,但一个趋势已愈发清晰:随着谷歌TPU大举入局,过去几年几乎等同于AI算力代名词的GPU,终于不再是唯一的主角。当算力需求的重心从训练转向推理,TPU的优势逐渐显现,它正从一个“配角”,稳步走向舞台中央。
先简要区分这两种芯片。GPU诞生已有二十余年,全称为图形处理器,技术已高度成熟,代表企业为英伟达和AMD。而TPU是谷歌自2015年起专为AI设计的新型芯片,全称张量处理器,其核心使命就是深度学习中最常用的矩阵运算。
集群计算需求增长
那么,TPU为何偏偏在当下成为焦点?要理解这一点,首先需洞察市场需求正在经历怎样的变革。
国家数据局发布的《全国数据资源调查报告(2025年)》显示,2025年中国AI推理数据量首次超越训练数据量。TrendForce集邦咨询的数据预测,北美五大云服务商2026年AI训练算力预计增长56%,而推理算力将暴增122%,后者增速是前者的两倍以上。IDC也预测,到2029年,中国市场的推理算力占比将接近八成。
推理正成为算力需求的主战场,而这恰恰为TPU创造了绝佳机遇。
原因之一是,模型规模不断膨胀,单颗芯片已难以支撑。必须依靠多颗芯片的集群协同才能完成推理任务,而TPU在集群效率上具备先天优势。中昊芯英创始人杨龚轶凡形象地比喻道:“智能体正在逐步替代人类的部分工作,本质上是用写程序的能力控制电脑。只有当模型足够大时,才能完成程序员能做的事情。如今模型参数已从亿级跃升至万亿级,单颗芯片根本无法承载完整的推理任务,必须借助几十甚至上百颗芯片互联集群协同运算。”
中昊芯英是一家专注于TPU芯片技术研发的企业。杨龚轶凡进一步解释,GPU的强项在于单卡通用算力和软件生态,而TPU的优势恰恰体现在大规模集群的通信与协同效率上。
一位前谷歌TPU工程师在一档视频节目中给出了更具体的说明:GPU单机内部依靠NVLink、板载NVSwitch实现多卡互联,但跨机架的大规模集群还需额外采购交换机和光模块来搭建高速网络,这些配套硬件本身就是一笔巨大的基建开支。而TPU机柜内的芯片可直接互通,仅在跨机柜扩展时才用到自研的光电路交换机,完全无需大批量采购商用高速交换设备。在同等集群通信性能下,整体部署硬件成本要低得多。
另一个关键因素是,推理阶段对性价比的敏感度远高于训练。当Token消耗呈指数级暴增,单位算力成本就成为了更受重视的指标。从架构上看,TPU是专用芯片,它剔除了GPU的图形渲染、通用计算等功能,一心专注于深度学习矩阵运算。杨龚轶凡指出,谷歌TPU发布时,对比同等生产工艺的GPU,性能提升了3到5倍。
细分场景里的选择
那么,究竟什么场景下GPU更合适,什么场景下TPU更优?这个问题需要回到芯片设计的原点来审视。
杨龚轶凡解释说,GPU最初是为在电脑屏幕上呈现逼真的3D游戏画面而设计的。它需将三维物体从各个角度计算为二维画面,还要处理光线、颜色,使画面足够真实。这导致GPU内部集成了上万个计算核心,如同一个大工厂里有一万名工人同时作业。其优点是并发能力强,处理图像和矩阵运算速度极快。但缺点也很明显——一旦某个工人算错,你很难在一万名工人中快速定位问题。
而AI深度学习的计算模式截然不同。深度学习模型是一层一层逐层计算的,每一层内部可以高并发,但层与层之间存在先后顺序。这种模式并不需要GPU那般复杂的调试和通用能力。于是,TPU这类专为AI设计的芯片应运而生,仅聚焦于深度学习最常用的运算。
这就好比,从之前需要同时调度一万个工人,变成只需调度一千个按固定流水线工作的工人,控制逻辑简单了许多。
基于这种架构差异,杨龚轶凡预测,未来AI芯片市场将形成“442”格局:40%为极致性价比的纯ASIC芯片,只能运行固定一两个模型的推理,性价比做到极致;40%为可编程的DSA芯片,如TPU,支持深度学习网络的算法,芯片利用率虽不及ASIC,但远强于GPU;剩下20%是通用GPU,留给仍在快速演变的新算法和研究场景。
然而,这并不意味着TPU会完全替代GPU。关键在于具体场景的适配。杨龚轶凡认为,20%的GPU市场将长期存在。原因在于,AI领域的新算法、新方向仍在不断涌现,研究人员需要一个通用、灵活的平台来快速验证想法。CUDA生态经过20年打磨,成熟度极高,当新的计算场景出现时,GPU依然是首选。
而TPU的优势在于性价比和生态建设成本。杨龚轶凡举了一个例子:TPU的设计思路是让开发者“只管开车,不用修车”。它的硬件指令专为AI计算优化,同时适配PyTorch这类主流框架。PyTorch就像一个AI“乐高工具箱”,开发者用熟悉的“积木”搭建模型,剩下的交给TPU编译器自动优化,无需为了迁就硬件去学习一套新的编程语言。相比之下,CUDA更像一套“修车工具”,开发者必须懂“发动机原理”才能驾驭——这套工具是行业积累了十多年的成果。TPU则依托现有成熟AI框架,大幅降低了软件适配门槛,这也是其性价比优势的重要来源。
当下,AI Agents正逐步进化为全球社会生产力的核心基座,带动Token消耗量指数级攀升,“Token经济”时代已然来临。当Token消耗呈指数级增长时,芯片的利用率和性价比就成为更重要的比拼项。TPU正迎来新的机遇,它正在成为AI芯片赛道上,除GPU之外的“另一个选项”。
