在AWS携手NVIDIA GPU走过整整十个年头之后,备受期待的下一代实例终于登场——基于NVIDIA A100 Tensor Core GPU的Amazon EC2 P4d现已全面上市。

回溯十年前,AWS首次推出搭载NVIDIA M2050 GPU的实例。彼时,CUDA应用主要集中于科学模拟,人工智能与深度学习尚未成为主流。
紧接着,AWS的云端GPU实例阵容逐步壮大:从K80(p2)、K520(g3)、M60(g4)、V100(p3/p3dn)到T4(g4)——每一代都精准匹配了不断攀升的算力需求。
今天,全新P4d实例搭载A100 GPU强势登场,这不仅是一次产品迭代,更标志着加速计算迈向下一个十年的起点。
性能方面,P4d目前是AWS上最适合机器学习训练和高性能计算的GPU平台,性价比表现突出。具体数据更具说服力:相比默认FP32精度,FP16模型的训练时间可缩减多达3倍;而采用TF32后,训练时间更可缩短至原来的六分之一。
推理性能同样令人瞩目。在最近的MLPerf Inference基准测试中,NVIDIA A100 GPU表现卓越,成绩达到CPU的237倍——差距之大,令人惊叹。
每个P4d实例集成8块NVIDIA A100 GPU。更重要的是,通过AWS UltraClusters,客户可按需弹性扩展,同时访问超过4000个GPU。结合Elastic Fabric Adapter(EFA)和Amazon FSx提供的高性能存储,整体架构弹性十足。网络方面,400Gbps吞吐量搭配NVLink、NVSwitch、NCCL、GPUDirect RDMA等技术,可进一步加速深度学习训练负载。特别是EFA上的NVIDIA GPUDirect RDMA,支持数据直接在GPU间传输,绕过CPU和系统内存,大幅降低网络延迟,这正是高性能计算的关键所在。
P4d并非孤立存在的实例,它获得众多AWS服务的原生支持,包括Amazon Elastic Container Services、Amazon Elastic Kubernetes Service、AWS ParallelCluster和Amazon SageMaker。同时,所有NGC提供的优化容器化软件皆可即用——涵盖HPC应用、AI框架、预训练模型、Helm图表,以及TensorRT、Triton Inference Server等推理软件,省去了自行配置的繁琐。
目前,P4d实例已在美东和美西区域上线,其他区域将陆续开放。购买方式灵活多样:按需实例、Savings Plans、预留实例、竞价型实例,满足不同需求。
回首GPU云计算发展的第一个十年,已为市场带来超过100 exaflops的AI算力。随着基于A100的P4d实例就位,下一个十年的精彩刚刚拉开帷幕。NVIDIA与AWS持续推动AI边界,而真正引人遐想的是——客户将用这股算力释放出怎样的潜力?
