过去两年间,美国国家科学基金会(NSF)主导的“国家人工智能研究资源(NAIRR)试点项目”,已在美国支撑起超过700个研究项目的创新生态——从蛋白质结构预测到传染病暴发的应急管理,覆盖领域相当广泛。
NVIDIA在这一试点推进中扮演了关键角色,提供了基于云计算的资源方案:研究者可获得至少4个NVIDIA DGX节点的专用资源,使用时长不少于一个月。此外,NVIDIA还提供全程技术支持,从项目启动到结束持续护航。
依托这套AI基础设施与DGX参考架构,研究者大幅缩短工作流周期,并在医疗、农业、能源等领域挖掘出足以重塑行业格局的前沿成果。
NAIRR驱动的科研探索潜力几乎没有边界。下面挑选几个代表性项目,进行详细解读。
Polymathic AI的“Well”数据集:物理模拟的底层革新
从仿真到现实的应用流程,在多个行业中已越来越常见——毕竟更安全且成本可控。
由Flatiron研究所、剑桥大学和劳伦斯伯克利国家实验室科学家组成的Polymathic AI团队,借助NVIDIA GPU和NVLink互联技术,正在利用其大规模数据集“Well”来强化物理流体模拟效果。该数据集的目标明确:训练出一个迄今为止最大、最具普适性的流体行为基础模型。
这个模型名为Walrus,其数据、代码和预训练权重均已公开,任何人都可使用。
值得注意的是,Polymathic AI的策略并非从零开始——它基于物理预训练环境的已有成果进一步拓展,试图解决当前模型在规模和预训练多样性上的瓶颈。研究团队还在探索缩放定律(scaling laws),为打造更强大的科学基础模型铺路。
密歇根大学:能源存储的“模型融合”方案
能源是社会的基石,而突破点在于设计更新、更高效的材料用于能源存储与转化。
密歇根大学研究团队在航空航天工程系教授Venkat Viswanathan的带领下,正在构建一个“模型融合框架”——将领域专用的分子AI与通用大语言模型结合。简单来说,就是让计算科学家能更轻松地探索化学空间,用自然语言提出化学相关问题,直接筛选出适合下一代能源技术的候选材料。
这个分子基础模型家族称为MIST(Molecular Insight SMILES Transformers),专为化学空间的发现与探索而设计。
MIST模型在大规模无标注分子数据集上完成预训练,并使用新型分词器Smirk,更精准地捕捉分子表征中的核、电子、几何、同位素和立体化学信息。经过400多项结构-性质关系的微调后,MIST在电化学、量子化学、生理学等多个维度的基准测试中,已能媲美甚至超越现有最优水平。
MIST的开发集群本身包含40个GPU(NVIDIA DGX节点),这部分资源正是通过NAIRR分配获得的;此外,研究组还额外获得了ALCF Polaris集群上的20万NVIDIA GPU小时。整个开发流程中,他们使用NVIDIA的NGC PyTorch容器保证跨集群的可复现加速训练。

将MIST与通用大语言模型融合后,准确的量子化学计算变得更易获取,也加速了能源存储与转化系统的设计——这正是重卡和航空等领域的电动化进程最需要的技术支撑。
波士顿大学的BEACON管道:传染病检测的AI方案
传染病在社区中的扩散速度极快,一旦暴发,极易演变为失控的突发事件。
波士顿大学Hariri计算研究所与新兴传染病中心,正依托NVIDIA的加速计算资源训练并评估一个大语言模型,并以此搭建一套AI管道来支持名为BEACON的疫情监测计划——全称为“生物威胁的涌现、分析与通信网络”。
该LLM的训练语料库非常庞大,囊括了大量传染病和易流行病原体的文献资料,最终目标是辅助一线专家和疫情分析人员的工作。
模型具备在全球范围内分析社交媒体中关于疫情暴发的在线帖文的能力,并能从中提取特征用于下游分类和优先级判定。BEACON会融合来自多个信源的信号——包括全球疾病追踪平台HealthMap、新闻与社交媒体、专家意见,以及社区论坛或社交网络上的个体通信——最终形成简洁的疫情报告。
这样全维度的疫情分析,可以为新兴传染病的临床诊疗指南提供依据,同时也能识别出哪些环节还需要更充分的数据支撑。
目前,在海外一线工作的医生、政府机构和学术研究者已开始使用BEACON模型来快速定位和治疗传染病。
波士顿大学Hariri研究所所长Ioannis Paschalidis提到:“如果你问传染病专家,在这个管道搭建之前他们是如何处理信息的——他们通常会回答,写一份报告需要几个小时。现在呢?大约两分钟就能完成。”
NAIRR与NVIDIA:覆盖全美的科研推动力
前沿科研的版图上远不止这三个项目。哈佛、斯坦福、科罗拉多州立大学等高校,也在NAIRR和NVIDIA的支持下不断取得突破性进展。
当科学家们越来越容易获取到AI与加速计算资源,一个更安全、更健康的国家的愿景,已经不只是蓝图上的字句了。
