游乐游手机版
首页/AI热点日报/热点详情

NVIDIA Quantum-2 InfiniBand平台助力杜伦大学升级超算基础设施

类型:热点整理2026-07-05
高等教育机构正站在应对全球重大挑战的最前沿,不仅肩负着培养人工智能、加速计算与数据科学领域创新人才的使命,还需持续满足人们对更灵活、更易获取教育模式的期待。从本地部署到云端协同,当前的技术工具已使关键学科的研究与学习不再受时空限制。那么,高校和科研机构具体如何实现这一目标?以下案例颇具代表意义。 扩

高等教育机构正站在应对全球重大挑战的最前沿,不仅肩负着培养人工智能、加速计算与数据科学领域创新人才的使命,还需持续满足人们对更灵活、更易获取教育模式的期待。从本地部署到云端协同,当前的技术工具已使关键学科的研究与学习不再受时空限制。那么,高校和科研机构具体如何实现这一目标?以下案例颇具代表意义。

NVIDIA Quantum-2 InfiniBand 平台助力杜伦大学创新和改进超算基础设施

扩展基础设施

依托集中式基础设施与强劲的计算能力,研究团队能够处理规模更大的工作负载,在提升效率的同时有效降低运营成本。

推动创新

当探索、实验与部署的瓶颈被逐一破除,创新自然水到渠成。研究人员可借助GPU加速的AI与高性能计算(HPC),通过建模、模拟及实验数据,攻克那些曾被认为难以解决的复杂问题。

强化学习

帮助学生掌握AI与高性能计算的核心技能,对其未来职业发展至关重要。教育机构通过提供配套培训与基础设施,正为下一代科研人才铺就成长之路。

虚拟GPU加速印第安纳州课堂

印第安纳大学(IU)正在打造两台AI超级计算机,共计配备616个A100 GPU。其中,由慧与负责建造的Big Red 200将服务于印第安纳大学的九个校区;而由戴尔科技打造的Jetstream-2,则将为康奈尔大学、夏威夷大学等多所合作机构的研究工作提供算力支持。

A100 GPU的一项关键能力,在于可将处理器性能划分为多个独立的逻辑单元。这意味着Jetstream-2能够同时承载数百名学生参与的课程,每位学生都能分配到部分GPU资源,用于学习图像分类等热门AI技能。去年11月,印第安纳大学一位研究人员提交了一篇论文,专门论述了对此虚拟GPU功能的基准测试成果。

目前,已有超过2500名学生正在使用印第安纳大学现有的GPU加速系统。去年,该校创纪录地获得了10亿美元的研究合同与拨款,这些项目分布在178个学院,其中超过40%的研究工作由这些系统完成。

印第安纳大学普适技术研究所首席运营官、AI-for-everyone计划负责人Winona Snapp-Childs表示:“资助机构已经认识到,机器学习在AI、加速计算等学术领域的重要性,这反过来推动了科学进步。可以预见,在未来5到10年内,近一半的研究都可能依赖于这些技术。它们将变得无处不在,成为学术研究中不可或缺的一环。”

密西西比州立大学乘上400G网速列车

密西西比州立大学选择了NVIDIA Quantum-2 InfiniBand平台,作为其新系统Orion的核心网络。Orion是该大学管理的四个集群中规模最大的一个,此前的四个集群均基于早期版本的InfiniBand构建。Orion及其新系统由美国国家海洋和大气管理局(NOAA)资助,并由戴尔科技打造,将同时承担NOAA的工作任务与密西西比州立大学的各类研究课题。

值得一提的是,Orion早在2019年6月就曾荣登TOP500榜单,并被列为美国第四大学术超级计算机。

密西西比州立大学高性能计算总监Trey Breckenridge坦言:“我们在四代超级计算机中始终使用InfiniBand,其强大、成熟与可靠性完全足以支撑我们所需的大型工作负载。这份实战经验让我们对本次升级充满信心。”

DPU助力杜伦大学创新和改进超算基础设施

杜伦大学的计算宇宙学院与计算机科学系,正开展一项极具挑战的研究:对地震波与引力波的传播进行大规模模拟。该模拟采用动态笛卡尔网格与ExaHyPE代码,将大部分计算转化为多任务并行操作。

过去几年里,研究人员投入大量精力标记和识别关键任务,这些任务需要与网格中其他节点的变化保持同步。然而,由于存在大量低优先级任务,维持整个系统负载均衡的工作量极为庞大。即使达到了最佳负载平衡,一旦域内任何参数发生变化,系统便会立刻失衡。要再次恢复最佳状态,既困难又耗时,成本也居高不下。

为提升系统的应变能力,研究人员需要将轻量任务与空闲任务迁移到其他资源上。但这又带来了新的难题:任务编排变得异常复杂,同时通过调节MPI运行时来确保在正确的时间、以正确的步长进行计算,也会抢占宝贵的计算资源。

借助BlueField DPU的计算核心,杜伦大学找到了巧妙的解法——将DPU作为MPI处理引擎,承担观察、引导以及任务缓存与接收等工作,从而节省宝贵的计算资源。这项研究延伸了ExaHyPE组织内部的合作,尤其与TUM的Michael Bader小组紧密协作。它提供了一个全新视角:那些原本由CPU核心承担的计算任务,可以开始由智能网络来接手数据处理工作。

来源:https://m.elecfans.com/article/1764363.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。