在最近一次技术突破中,京东探索研究院依托其部署的DGX SuperPOD集群“天琴α”,与悉尼大学联合研发出织女模型,成功在通用语言理解评估基准(GLUE)榜单的两项高难度任务——情感分析SST和指代消解WNLI中夺得冠军。这不仅是模型能力的体现,更彰显了底层算力基础设施对前沿研究的关键支撑作用。

京东探索研究院长期聚焦世界前沿技术,其人工智能研究覆盖计算机视觉、自然语言处理、多模态等多个领域,而大规模语言模型则是其中的核心方向。过去两三年间,语言模型的参数规模每年以一到两个数量级的速度膨胀,如今已迈入万亿参数级别。模型复杂度和结构持续演进,这对GPU集群的架构提出了全新挑战——传统集群的短板逐渐显现。
从系统层面来看,目前许多现有GPU集群主要针对单机或小规模多机任务设计,多机间的网络扩展能力较弱,大规模扩展受到极大限制。在这种架构下,服务大模型的计算需求显得力不从心。对京东探索研究院而言,时间至关重要——更快的模型训练意味着更迅速的迭代、更广阔的尝试空间,以及更快的产品落地和更高的业务回报。在模型日益多样、计算需求持续攀升的背景下,如何快速新建一个既高效扩展又便于使用的GPU集群,已成为亟待解决的核心问题。
经过综合评估,京东探索研究院选定NVIDIA DGX SuperPOD方案。该方案从硬件、部署到使用体验,提供了系统级的一站式答案:
1. 硬件层面,DGX SuperPOD基于DGX A100服务器、HDR InfiniBand 200G网卡和NVIDIA Quantum QM8790交换机,构建全互联架构。单机计算能力达到行业顶尖,同时采用计算与存储网络隔离策略,最大限度保障集群的互联性能。
2. 部署层面,NVIDIA提供专业部署服务,包括单机系统部署、InfiniBand网络配置、调度系统安装调试、监控部署、多机环境搭建及基础性能验证,从基础系统层面确保最快交付。
3. 使用层面,NVIDIA部署了Slurm调度系统,并基于NGC以及客户主流模型类别,提供完整的作业脚本。用户只需简单修改几行参数以适配自己的模型,即可一键运行大规模分布式任务,显著降低使用门槛。
4. 性能层面,DGX SuperPOD经由CUDA-X、Magnum IO、NGC等基础优化,并通过MLPerf评测验证,提供业界领先的AI训练性能。在京东探索研究院针对计算机视觉、自然语言处理、跨模态等领域设计的数十个模型上,经过双方系统级合作优化,加速比和扩展性均达到理想水平。
采用DGX SuperPOD方案后,研究人员只需专注于AI模型与算法本身,无需再为硬件及系统层的配置、优化或扩展问题耗费精力。宝贵的时间和精力得以集中在前沿技术探索上。集群交付仅两个多月,京东探索研究院便联合悉尼大学,在传统“预训练-微调”范式下,借助DGX SuperPOD的高效扩展能力,通过全方位的工程与创新,成功训练出织女模型,并在GLUE两项挑战中首次超越人类,位列所有参赛机构第一。
京东探索研究院表示:“强悍的织女模型在‘天琴α’集群上完成训练,该集群拥有全球领先的大规模分布式并行训练技术,其近似线性加速比的数据、模型、流水线并行技术持续助力织女模型的高效训练。”这一成果也从侧面印证了基础设施与算法创新的协同效应——当算力不再是瓶颈,研究的天花板自然得以突破。
