快速新建高效扩展易用GPU集群指南_AI热点日报

快速新建高效扩展易用GPU集群指南

类型：热点整理2026-07-05

在最近一次技术突破中，京东探索研究院依托其部署的DGX SuperPOD集群“天琴α”，与悉尼大学联合研发出织女模型，成功在通用语言理解评估基准（GLUE）榜单的两项高难度任务——情感分析SST和指代消解WNLI中夺得冠军。这不仅是模型能力的体现，更彰显了底层算力基础设施对前沿研究的关键支撑作用。

如何快速新建一个可高效扩展并易用的GPU集群

京东探索研究院长期聚焦世界前沿技术，其人工智能研究覆盖计算机视觉、自然语言处理、多模态等多个领域，而大规模语言模型则是其中的核心方向。过去两三年间，语言模型的参数规模每年以一到两个数量级的速度膨胀，如今已迈入万亿参数级别。模型复杂度和结构持续演进，这对GPU集群的架构提出了全新挑战——传统集群的短板逐渐显现。

从系统层面来看，目前许多现有GPU集群主要针对单机或小规模多机任务设计，多机间的网络扩展能力较弱，大规模扩展受到极大限制。在这种架构下，服务大模型的计算需求显得力不从心。对京东探索研究院而言，时间至关重要——更快的模型训练意味着更迅速的迭代、更广阔的尝试空间，以及更快的产品落地和更高的业务回报。在模型日益多样、计算需求持续攀升的背景下，如何快速新建一个既高效扩展又便于使用的GPU集群，已成为亟待解决的核心问题。

经过综合评估，京东探索研究院选定NVIDIA DGX SuperPOD方案。该方案从硬件、部署到使用体验，提供了系统级的一站式答案：

1. 硬件层面，DGX SuperPOD基于DGX A100服务器、HDR InfiniBand 200G网卡和NVIDIA Quantum QM8790交换机，构建全互联架构。单机计算能力达到行业顶尖，同时采用计算与存储网络隔离策略，最大限度保障集群的互联性能。

2. 部署层面，NVIDIA提供专业部署服务，包括单机系统部署、InfiniBand网络配置、调度系统安装调试、监控部署、多机环境搭建及基础性能验证，从基础系统层面确保最快交付。

3. 使用层面，NVIDIA部署了Slurm调度系统，并基于NGC以及客户主流模型类别，提供完整的作业脚本。用户只需简单修改几行参数以适配自己的模型，即可一键运行大规模分布式任务，显著降低使用门槛。

4. 性能层面，DGX SuperPOD经由CUDA-X、Magnum IO、NGC等基础优化，并通过MLPerf评测验证，提供业界领先的AI训练性能。在京东探索研究院针对计算机视觉、自然语言处理、跨模态等领域设计的数十个模型上，经过双方系统级合作优化，加速比和扩展性均达到理想水平。

采用DGX SuperPOD方案后，研究人员只需专注于AI模型与算法本身，无需再为硬件及系统层的配置、优化或扩展问题耗费精力。宝贵的时间和精力得以集中在前沿技术探索上。集群交付仅两个多月，京东探索研究院便联合悉尼大学，在传统“预训练-微调”范式下，借助DGX SuperPOD的高效扩展能力，通过全方位的工程与创新，成功训练出织女模型，并在GLUE两项挑战中首次超越人类，位列所有参赛机构第一。

京东探索研究院表示：“强悍的织女模型在‘天琴α’集群上完成训练，该集群拥有全球领先的大规模分布式并行训练技术，其近似线性加速比的数据、模型、流水线并行技术持续助力织女模型的高效训练。”这一成果也从侧面印证了基础设施与算法创新的协同效应——当算力不再是瓶颈，研究的天花板自然得以突破。

来源：https://m.elecfans.com/article/1771375.html

GPU

延伸阅读

补充最近整理过的热点入口。

快速新建高效扩展易用GPU集群指南

相关热点

延伸阅读