美国南方卫理公会大学正在用NVIDIA DGX SuperPOD为德克萨斯州北部地区打开AI时代的大门;另一边,密西西比州立大学和德克萨斯农工大学也在摩拳擦掌,准备接入NVIDIA Quantum-2网络;而远在英国的一所大学,则刚刚完成了对InfiniBand网络的升级。这几件事放在一起,能看出些有意思的趋势。
这就好比达拉斯/沃斯堡机场已成为全美旅行的枢纽一样,南方卫理公会大学正试图让所在的德克萨斯州北部地区在AI行业发展中占据领先位置。这台正在安装的NVIDIA DGX SuperPOD超级计算机,目标很简单:为这个拥有超过12000名学生和2400名教职员工的庞大社区,推动机器学习项目向前迈进。
除了这所大学,美国中南部还有另外两所高校也宣布了NVIDIA技术的使用计划。德克萨斯农工大学和密西西比州立大学都决定采用NVIDIA的400 Gbit/s InfiniBand网络平台,NVIDIA Quantum-2将作为它们最新高性能计算机的主干网络。此外,英国的一台超级计算机也刚刚完成了InfiniBand网络的升级。
德克萨斯州喜获SuperPOD
提到今年早些时候在佛罗里达大学安装的另一个类似系统时,南方卫理公会大学首席信息官Michael Hites表示:“我们是全美第二所获得DGX SuperPOD系统的大学。这将帮助我们在利用AI技术推动学位课程,以及促进校企合作方面,都保持领先位置。”
有意思的是,今年9月,一篇报道提到达拉斯地区因缺乏主要的AI研究而“步履蹒跚”。巧合的是,这篇报道登上当地报纸的时候,正是南方卫理公会大学敲定其DGX SuperPOD计划的日子。该大学在3月份的一份计划预览报告中已经表露过雄心:“AI是数字化转型的核心……没有任何社会部门能够不受该技术的影响。AI对K-12教育行业和劳动力发展具有巨大的改善潜力,这将有助于该地区经济的持续增长。” 一场名为SMU Ignite的15亿美元筹款活动于9月正式启动,它将推动AI倡议,帮助南方卫理公会大学迈入全国顶级研究型大学行列。为此,该大学还在聘请一位首席创新官来协助指导这项重要工作。
打造一个计算炼金炉
这项工作靠什么?核心还是人才。南方卫理公会大学研究者IT支持团队主管Jason Warner表示,他为福特研究与创新中心的一个新中心聘请了一批数据科学专家,这个中心被他形象地称为南卫理公会大学的“计算炼金炉”。这支团队的领导是Eric Godat,他的背景很有意思——在南方卫理公会大学使用大型强子对撞机的数据为核结构建模,并因此获得了粒子物理学博士学位。如今,他正在帮助学生们理解DGX SuperPOD所开启的新天地。
他的第一步是什么?邀请两名学生使用NVIDIA Jetson模块,搭建了一个DGX SuperPOD的微型模型。
Godat的想法很务实:“我们想让大家感受一下未来的工作会是什么样子的,尤其是那些没有做过AI相关工作的非技术领域人员。”

这台微型系统由16个Jetson模块组成,学生们会把它当作一个TOP500系统来运行benchmark测试。而全尺寸版本的超级计算机由20个NVIDIA DGX A100系统组成,它们通过NVIDIA Quantum InfiniBand网络连接。得益于此,这台机器最早可以在1月就启动并运行。它将提供高达100PFlops的计算能力,这个数字足以让它出现在全球最快超级计算机榜单TOP500的前列。
德克萨斯农工大学为其ACES使用NVIDIA Quantum-2 InfiniBand技术
向南约200英里的地方,德克萨斯农工大学高性能计算中心,将成为首批接入NVIDIA Quantum-2 InfiniBand平台的机构之一。其ACES超级计算机由戴尔科技建造,它将使用400G InfiniBand网络,为研究者连接来自四家厂商的五个翻跟斗。ACES首席研究员兼项目总监Honggao Liu解释了这个选择的优势:“NVIDIA Quantum-2确保在ACES上单项工作可以扩展到所有计算核和翻跟斗。除了吞吐量比NVIDIA Quantum-1 InfiniBand的200G翻倍之外,它还具有更低的总拥有成本、更强大的网络计算功能和更高的扩展性。” 值得一提的是,德克萨斯农工大学已经为研究者提供了四套加速计算系统,这些系统包含了600多个NVIDIA A100 Tensor Core和上一代GPU,其中两个便使用了较早版本的InfiniBand技术。
密西西比州立大学乘上400G网速列车
密西西比州立大学也将采用NVIDIA Quantum-2 InfiniBand平台。它是构建Orion新系统的首选网络,Orion是密西西比州立大学管理的四个集群中最大的一个,这四个集群全部基于较早版本的InfiniBand网络。Orion和新系统均由国家海洋和大气管理局(NOAA)提供资金支持,由戴尔科技建造。这些系统将同时承担NOAA的日常计算任务和密西西比州立大学的各种研究课题。有趣的是,Orion在2019年6月首次登上TOP500榜单,并曾被评为美国第四大学术超级计算机。密西西比州立大学高性能计算总监Trey Breckenridge点出了他们的逻辑:“我们在密西西比州立大学的四代超级计算机中都使用了InfiniBand,所以我们知道它既强大又成熟,能够可靠地运行我们需要的大型工作。” 他补充道:“我们正在添加一套使用NVIDIA Quantum-2的新系统,以保持在高温性能计算领域的领先地位。”
Quantum在英国掀起风潮
大洋彼岸的英国,莱斯特大学的数据密集型超级计算机——DIaL系统——已经升级到了200G版本的NVIDIA Quantum InfiniBand。DIaL的设计初衷就是解决复杂的数据密集型问题。莱斯特大学理论天体物理学教授兼高性能计算中心总监Mark Wilkinson指出:“这些专业应用对带宽和延迟的要求都是前所未有的,只有InfiniBand能够满足,使研究工作有效开展。” DIaL是英国DiRAC设施中使用InfiniBand的四台超级计算机之一,爱丁堡大学的Tursa系统也在其中。
InfiniBand在技术评估上表现出色
技术评估的结果很能说明问题。研究人员发现,与使用另一种互连方式的纯CPU系统Tesseract相比,在由Quantum网络和NVIDIA GPU翻跟斗构建的Tursa系统上运行应用,性能能达到5倍提升。基准测试进一步显示:Tursa系统上16个节点的性能,是Tesseract系统上512个节点性能的两倍。Tursa每个节点提供10 TFlops计算性能,使用了90%的网络带宽,其每千瓦性能相比Tesseract有显著提升。这也解释了为什么全球大多数TOP500系统都不约而同地选择了NVIDIA的技术。
