游乐游手机版
首页/AI教程/文章详情

网络定义算力时代 Google TPU v8双芯片双网络架构革命

时间:2026-06-18 16:16
GoogleTPUv8推出训练专用TPU8T与推理专用TPU8I双芯片,并配套Virgo兆级光交换网络,将三层Clos架构压缩为两层,聚合带宽达47Pbps。训练采用3DTorus拓扑,推理采用BoardFly拓扑,结合TPUDirect与CAE技术,实现从芯片到数据中心的全栈协同优化,标志AI基础设施进入网络定义算力时代。

时至今日,AI算力已悄然跨越了摩尔定律的传统边界。一个关键转变正在发生:计算本身不再是大模型发展的唯一瓶颈,真正卡脖子的,变成了网络。

那个曾经被视为数据中心“管道”的基础设施,如今已经跃升为决定AI超算性能的核心变量。在2026年的Google Cloud Next大会上,第八代TPU的发布,带来的不仅仅是芯片层面的换代,更配套推出了一套名为Virgo的兆级数据中心网络。从芯片之上的互联,到整个数据中心的拓扑结构,这次是一次全栈式的重构。这件事的意义在于:AI基础设施正式迈入了“网络定义算力”的新阶段。

一、双芯片架构:为不同工作负载量身定制

Google打破了TPU系列长期以来“一芯多用”的设计传统。这一次,他们首次同时推出了两款芯片:为训练优化的TPU 8T,和为推理优化的TPU 8I。两者在内存架构上,做出了截然不同的取舍。

TPU 8I推理芯片的设计相当有碘伏性。它搭载了384MB的SRAM,这个容量是TPU 8T的三倍。这个决策直指大语言模型推理的核心矛盾:低延迟解码。通过将权重和KV缓存尽可能放在最快的SRAM中,Google大幅减少了对高延迟HBM的访问次数,以此换来更高的token吞吐量。同时,它还配备了288GB的HBM,满足长上下文推理对大容量内存的需求。

相比之下,TPU 8T训练芯片只有216GB HBM。这个看起来有点“反常识”的设计,背后其实是对两种工作负载差异的深刻理解:训练任务可以通过横向堆叠更多芯片来获得集群总内存的提升;但推理任务要的是最大化单芯片的内存层级效率,避免因跨芯片通信引入不可接受的延迟。

值得一提的是,两款芯片都采用了Google自研的Arm架构Axion CPU作为头节点。这个选择,彻底解决了传统x86 CPU在数据预处理和任务编排上可能出现的瓶颈。Axion CPU提供了充足的计算余量,能高效处理复杂的数据预处理工作,确保TPU始终处于满负荷运行状态,本质上是在解决“算力饥饿”的问题。

二、从Jupiter到Virgo:数据中心网络的代际跃迁

在TPU v8之前,Google数据中心的核心网络是2015年推出的Jupiter网络。它基于传统的Clos(叶-脊)架构,通过多层交换机实现互联。这种架构在互联网时代表现出色,能很好地处理异步、分布式的网络流量;但面对AI训练那种同步通信模式,就显得力不从心了。

\

Clos架构的致命问题在于网络跳数太多。在典型的三层Clos架构里,一个TPU要和另一个机架的TPU通信,得经过叶交换机、脊交换机、超级脊交换机,再逐层返回。这个过程需要多次光电转换和数据包处理,不仅延迟高,还会产生严重的“尾延迟”——整个训练任务的速度由最慢的那个节点决定,任何一个通信链路的延迟都会拖垮整个集群。此外,传统电交换机的端口数量有限(低radix),必须通过堆叠多层交换机来扩展规模,进一步加剧了网络的复杂度。

\

为了解决这些问题,Google推出了专为AI设计的Virgo兆级网络。这可以说是十年一遇的数据中心网络架构变革。Virgo网络最核心的创新,在于全面采用光交换(OCS)技术。

OCS的原理听起来很简单,但效果极其高效:它通过调整微镜的角度,直接把光信号从一个端口反射到另一个端口,全程不需要光电转换和数据包处理。这就好比用镜子反射阳光。目前主流的OCS交换机已经能做到300×300的端口规模,未来也许还能扩展到2000×1000。这种超高radix特性,使得Virgo网络能够将传统的三层Clos架构直接压缩为两层。

\

架构简化带来的性能提升是惊人的:Virgo网络的总聚合带宽达到了47Pbps,是上一代Jupiter网络(13.1Pbps)的近四倍。更重要的是,它能将13.4万个TPU连接成一个单一的逻辑计算单元,真正实现了“园区即计算机”的愿景。同时,Google在Virgo网络里内置了海量的遥测功能,可以实时监控每一条链路的状态,快速定位和隔离故障,确保集群的有效吞吐量(Goodput)维持在极高水准。

也不是说Virgo就完全取代了Jupiter。Google采用了分层设计的思路:把计算与存储互联、互联网接入等前端流量继续交给Jupiter网络处理;而将TPU之间的后端通信——这个最关键的部分——交给Virgo网络,实现资源的最优配置。

三、双拓扑并行:为训练和推理量身定制的Scale-Up网络

如果说Virgo网络解决了跨机架的Scale-Out通信问题,那么TPU v8在Scale-Up(芯片间互联)层面的创新,同样具有革命意义。Google首次为训练和推理采用了完全不同的网络拓扑:用于TPU 8T的3D Torus拓扑,和用于TPU 8I的Board Fly拓扑。

3D Torus:适合训练的密集邻居通信

3D Torus是TPU系列沿用多年的经典拓扑。它的结构可以形象地类比为一个魔方:每个小方块代表一个TPU,相邻的TPU通过铜缆直接连接,而魔方同一行或列的两端则通过光纤连接形成环形。这种拓扑很适合AI训练的通信模式,因为训练过程中每个TPU主要和相邻的TPU进行频繁的数据交换,3D Torus能以最低的延迟满足这种密集的邻居通信需求。

\

不过,3D Torus有一个固有的缺陷:最大通信跳数会随着拓扑规模的扩大而线性增加。比如在Google常用的8×8×16 3D Torus拓扑里,从一个边缘TPU到位于拓扑中心的TPU,需要经过16跳,这会带来明显的延迟。对于训练任务来说,因为所有TPU都处于活跃状态,且通信模式相对固定,这种延迟是可以接受的。但对于推理任务,尤其是混合专家(MoE)模型的推理,情况就完全不同了。

Board Fly:为MoE推理优化的低延迟拓扑

混合专家模型的推理,通信模式完全不一样:对于每个输入token,只有少数几个专家(TPU)会被激活,而且激活的专家是随机分布的。这意味着通信不再是相邻TPU之间的固定模式,而是任意两个TPU之间的随机通信。在这种情况下,3D Torus的高最大跳数,就会导致严重的延迟问题。

\

为了解决这个问题,Google为TPU 8I设计了全新的Board Fly拓扑。它的核心思路是通过分层设计和OCS技术,把最大通信跳数大幅降下来。Board Fly拓扑采用三级层次结构:

  1. 板级:每块PCB板上集成4个TPU,通过PCB电走线实现全连接,延迟最低。
  2. 组级:将8块这样的板放入一个机架,通过有源电缆(AEC)采用Dragonfly拓扑互联,形成一个“组”。
  3. Pod级:将36个组通过OCS交换全连接,形成一个完整的Pod,总共包含36×8×4=1152个TPU芯片。

Dragonfly拓扑是超级计算领域早已验证的高效互联技术。它的特点是在局部采用全连接,全局通过高radix交换机实现一跳可达。通过先将TPU集成到板上,再以板为单位进行Dragonfly互联,Board Fly拓扑将TPU 8I Pod内的最大通信跳数,从3D Torus的16跳降低到了7跳,延迟减少了50%以上。这完美适配了MoE推理的随机通信模式。

四、关键技术支撑:TPU Direct与CAE

为了进一步消除通信瓶颈,Google还引入了两项关键技术:TPU Direct和Collectives Acceleration Engine(CAE)。

TPU Direct本质上是针对TPU优化的远程直接内存访问(RDMA)技术。在传统架构中,一个TPU要访问另一个TPU的内存,必须经过双方的主机CPU进行多次握手和数据拷贝。这不仅增加了延迟,还占用了宝贵的CPU资源。TPU Direct允许TPU通过网络接口直接访问其他TPU的HBM内存,完全绕过主机CPU,大幅提升了内存访问的速度和效率。

CAE则是集成在每个TPU芯片上的专用翻跟斗,专门负责处理All-Reduce、All-Gather、All-to-All这些通信密集型的集合操作。这些操作在AI训练和推理中占据了大量时间,传统上由TPU的计算核心来处理,会占用大量算力资源。CAE把这些操作卸载到专用硬件上,让TPU的张量核心能专注于矩阵乘法等核心计算任务,进一步提升了整个系统的效率。

五、结语:工作负载驱动的全栈协同设计

Google TPU v8的发布,标志着AI基础设施发展中的一个重要转折点:从过去追求单一芯片的峰值算力,转向追求从芯片到数据中心的全栈协同优化。通过将训练和推理拆分,为不同的工作负载量身定制芯片架构、内存层级、互联拓扑,乃至整个数据中心网络,实现了极致的性能和效率。

这次变革带来的核心启示是:在AI时代,没有“一刀切”的基础设施解决方案。未来,随着世界模型、智能体等新型工作负载的出现,我们很可能会看到更多针对性的架构创新。而光电路交换、RDMA、专用通信翻跟斗等技术,将毫无悬念地成为下一代AI超算的标配,推动人工智能向着更大规模、更高效率的方向不断前进。

来源:https://cloud.tencent.com.cn/developer/article/2692372
上一篇TRAE AI创造力大赛正式启动 面向全球征集创意作品 下一篇DesignCon2026 OIF论坛详解AI高能效互联技术
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
CapCut AI Docker 一键部署:镜像拉取、端口映射与数据目录配置教程
AI教程 · 2026-06-30

CapCut AI Docker 一键部署:镜像拉取、端口映射与数据目录配置教程

CapCutAI容器化部署需先确认镜像来源与授权范围,再完成环境准备、镜像拉取、端口映射、数据目录挂载和启动验证,适合本地试用、团队内网演示与轻量化AI剪辑服务管理。

CapCut AI Windows本地安装配置2026最新版含下载与环境要求
AI教程 · 2026-06-30

CapCut AI Windows本地安装配置2026最新版含下载与环境要求

CapCutAI与剪映AI在Windows端适合短视频、口播、课程和营销素材剪辑,安装前需确认系统、显卡、存储与网络条件,优先选择官方渠道下载,并完成账号、素材目录、硬件加速和导出参数配置。

Veo新手保姆级安装教程:从下载到首次运行
AI教程 · 2026-06-30

Veo新手保姆级安装教程:从下载到首次运行

Veo适合用文字生成短视频,新手应先确认官方入口、准备账号与设备环境,再按网页或应用方式完成启用。首次运行重点在提示词、参数、素材合规与结果保存,避免使用非官方安装包。

Veo本地模型运行下载路径设置与性能优化指南
AI教程 · 2026-06-30

Veo本地模型运行下载路径设置与性能优化指南

Veo本地模型部署需先确认模型来源与硬件条件,再完成下载校验、目录规划、路径配置和推理参数优化。重点关注显存占用、依赖版本、缓存位置、授权范围与常见报错处理。

Veo安装失败解决指南:常见报错与日志排查及升级回滚方案
AI教程 · 2026-06-30

Veo安装失败解决指南:常见报错与日志排查及升级回滚方案

Veo安装失败通常与系统环境、依赖版本、网络源、权限和缓存有关。排查时应先确认版本要求,再查看安装日志,按报错类型处理,并提前备份项目,确保升级与回滚可控。