Meta一边大手笔购入数十万颗英伟达GPU,一边豪掷数十亿美元租用谷歌TPU,AI算力布局正朝着"去单一供应商"方向迈进。
2月26日,据The Information报道引述谈判人士透露,Meta已与谷歌达成长期协议,将在未来数年租用谷歌AI芯片TPU用于开发新模型,这笔交易价值高达"数十亿美元"。Meta同时也在与谷歌商讨最早于明年为其数据中心采购TPU,但具体谈判进展尚未明确。
训练端的罕见动作:Meta不仅在"推理"环节寻找替代方案
值得注意的是,消息称Meta计划将TPU用于AI训练环节。这一动向引发市场高度关注:多数挑战英伟达的机会通常被认为存在于推理环节,而非对互连规模、软硬件生态要求更严苛的训练集群。因此市场原本共识是,训练本是英伟达GPU的优势领域,TPU只是推理环节的替代方案。
报道还提及,Meta本周宣布与英伟达竞争对手AMD达成大单,但相关人士表示,Meta主要将AMD芯片用于运行现有模型(推理),而非训练新模型。Meta也继续开发自研推理芯片,以降低成本并进一步分散风险。
"不是不用英伟达,而是不能只靠英伟达"
这笔Meta与谷歌的TPU交易披露前不久,英伟达刚宣布与Meta达成新合作:Meta表示未来几年将为其数据中心采购数十万颗GPU。将两条消息放在一起,指向同一个结论——Meta仍离不开英伟达的训练生态,但正将更多训练与推理负载切换到"第二选择",以减少"被单一供应商卡脖子"的不确定性。
推动Meta转型的背景之一,是其自研AI训练芯片推进不顺;另一个现实因素是,去年包括OpenAI与Meta在内的一些客户在大规模部署英伟达最新Blackwell芯片时,遭遇过"技术故障与硬件复杂性"带来的爬坡问题。
谷歌的算盘:TPU要做成"数十亿美元收入"的外部生意
知情人士称,谷歌正加大力度与英伟达在AI训练芯片市场正面竞争,TPU销售有望为谷歌带来"额外数十亿美元收入"。
谷歌云内部曾有人提出,如果"将TPU业务超级加速",可能拿到相当于英伟达年收入约10%的份额;按报道所引口径,英伟达过去12个月年收入约2000亿美元。
谷歌推进TPU外部化的方式也更"金融化"。谷歌除与Meta达成交易外,还与一家未具名大型投资机构达成协议,为一个将TPU租赁给其他客户的合资项目提供资金;谷歌也在与其他私募股权机构磋商更多类似合资项目。知情人士称,谷歌至少已与一家大型投资机构签署条款清单。
同时,谷歌企业发展团队正与潜在金融伙伴讨论,通过"特殊目的载体(SPV)"融资购买TPU再对外出租,而TPU可能被用作债务抵押品。报道将其类比为xAI与风投机构Valor围绕英伟达GPU所做的"创造性融资"结构。
最大变量:TPU供给、台积电产能与"自用/外销"的平衡
TPU放量并非只取决于需求。谷歌需要在多重目标间做平衡:一方面它在芯片层面挑战英伟达,另一方面谷歌云又是英伟达GPU大客户——多数AI开发者仍偏好GPU生态,谷歌云"不能不提供"英伟达服务器,否则会影响其云竞争力。
供给端同样紧张。谷歌自家的Gemini模型团队也需要TPU;同时TPU与英伟达GPU都由台积电生产,意味着两者在台积电工厂内"争夺同一类产能"。这决定了谷歌能否在更多大客户上快速复制Meta式订单。
