据财联社12月18日讯(编辑夏军雄),知情人士透露,谷歌正着手推动一项新计划,旨在让人工智能芯片更好兼容并运行全球应用最广泛的AI软件框架PyTorch,此举意在挑战英伟达在该领域长期以来的主导地位。
谷歌的目标是让自己的自研芯片张量处理单元(TPU)成为英伟达GPU之外的一个可行替代方案,但仅有硬件本身尚不足以推动其被广泛采用。
消息人士称,该计划在谷歌内部代号为"TorchTPU",目的是消除阻碍TPU芯片普及的一大关键障碍——让那些已经基于PyTorch构建了技术基础设施的客户,能够无需改动代码即可在TPU上获得完全兼容、且对开发者同样友好的顺畅体验。
据悉,谷歌正考虑将部分软件开源,以加速客户采用速度,该公司已为TorchTPU项目投入了更多组织资源和战略重视。
倘若谷歌的TorchTPU项目取得成功,将有望显著降低企业从英伟达GPU转向其他技术方案时的切换成本。
TPU普及面临障碍
尽管越来越多的企业开始尝试采用谷歌的TPU,却往往在软件层面遇到阻碍。
PyTorch是由Meta大力支持的开源项目,是AI模型开发者最常用的工具之一。在硅谷,很少有开发者会亲自编写在英伟达、AMD或谷歌芯片上实际运行的每一行底层代码。
相反,开发者普遍依赖PyTorch这类工具——它们由大量预先编写好的代码库和框架组成,能够自动化处理AI软件开发中的许多常见任务。
PyTorch最初发布于2016年,其发展历程与英伟达的CUDA技术紧密相连。一些华尔街分析师认为,CUDA正是英伟达抵御竞争对手的最强护城河。
多年来,英伟达的工程师团队一直致力于确保基于PyTorch开发的软件在其芯片上能运行得尽可能快速、高效。
相比之下,谷歌内部的开发团队长期采用另一套名为Jax的代码框架,其TPU芯片则通过名为XLA的工具来高效执行这些代码。谷歌自身的AI软件栈和性能优化大多围绕Jax构建,这使得谷歌芯片的使用方式与主流开发者的习惯需求之间存在显著差异。
知情人士称,企业客户一直向谷歌反馈,TPU在一些AI工作负载上的采用难度较高,因为过去往往要求开发者从大多数人正在使用的PyTorch,转而切换到谷歌内部更偏好的机器学习框架Jax。
与Meta合作
知情人士还表示,为加快开发进度,谷歌正在与PyTorch的创建者和主要维护方Meta展开紧密合作。两家科技巨头还在讨论相关交易,让Meta获得更多TPU计算资源。
早期面向Meta的服务采用谷歌托管模式,即Meta等客户安装谷歌设计的芯片来运行谷歌的软件和模型,由谷歌提供运维支持。
相关人士称,Meta在战略上有足够动力参与能让TPU更易运行的软件开发工作,以降低推理成本,并使自身AI基础设施逐步摆脱对英伟达GPU的依赖,从而增强采购谈判时的筹码。
