12月4日晚间消息,在亚马逊云科技2025 re:Invent全球大会上,亚马逊云科技首席执行官Matt Garman正式发布了全新P6E GB300系列产品,并推出基于自研芯片Trainium3以及该芯片的全新Trn3 UltraServers服务器。
他在现场介绍:“这些P6E GB300产品采用了英伟达最新的GB300 NVL72系统,我们持续为最严苛的AI工作负载提供顶级算力。我们在硬件、软件与运营层面的全栈严谨性,为全球最大的企业提供最佳可靠性与性能。其中就包括英伟达自身——他们的大规模GenAI集群Project Ceiba就在亚马逊云科技上运行;像OpenAI这样的大型机构也在积极使用亚马逊云科技。如今这些大型企业都在使用配备数十万颗芯片的EC2 UltraServers集群,目前主要部署GB200系列,很快便会升级到GB300系列。”
此外,Matt Garman还宣布推出Amazon AI Factories服务。“通过这一发布,我们允许客户在自己的数据中心内部署专属的亚马逊云科技AI基础设施,供其独享。实际上,AI Factory就像一个‘亚马逊云科技私有区域’,让客户充分利用现有的数据中心空间与电力能力,同时仍然能够访问亚马逊云科技领先的AI基础设施与服务,包括最新训练集群、Nvidia GPU,以及Amazon SageMaker和Amazon Bedrock等服务。”
他强调,AI Factories为每个客户独立运行,帮助他们保持物理与逻辑隔离,同时继续享有亚马逊云科技的安全性与可靠性,也能满足严格的合规与数据主权要求。
亚马逊云科技还同时发布了自研AI芯片Amazon Trainium。Matt Garman指出,Trainium 2目前已是全球性能最佳的推理系统之一。他表示,“事实上,我们在数据中心内部署Trainium2的速度,比过去部署任何芯片的速度都要快好几倍。没错,这是我们迄今部署速度最快的AI芯片,目前的销售速度几乎与生产能力持平。仅训练芯片这一部分,如今已发展成为数十亿美元规模的业务,并且仍在快速增长。”
值得一提的是,亚马逊云科技去年宣布的新一代芯片Trainium 3也取得了新进展,目前Trainium 3 UltraServers 已正式可用。“我很高兴地宣布,我们已经全力投入Trainium4的研发,并且已进入深度设计阶段,对目前看到的成果十分期待。与Trainium3比较,Trainium4将在所有维度实现巨大跃升:FP4计算性能提升6倍、内存带宽提升4倍、高带宽内存容量提升2倍,以支持全球最大规模模型的训练需求。”
责任编辑:何俊熹
