
它的作用是全面监测GPU的运行状况和缓存使用情况。
作者 | ZeR0
编辑 | 漠影
芯东西12月11日报道。英伟达今天宣布,正在开发一款用于可视化和监测GPU集群的软件解决方案。该公司同时再次强调:“NVIDIA GPU不存在硬件追踪技术、终止开关或后门程序。”
据此前外媒报道,英伟达已开发出位置验证技术,能够显示其芯片在哪个国家运行。今天,英伟达在一篇博客文章中提供了更多相关细节,其中透露计划将客户端软件智能体进行开源。
根据英伟达的博客文章,这项全新的软件解决方案旨在确保AI数据中心以最佳状态运行。它向云合作伙伴和企业提供了洞察仪表板,能够帮助数据中心运营商监测整个AI GPU集群的运行状况,从而提升整个计算基础设施中GPU的正常运行时间。
这项功能将以软件选项的形式提供给用户安装,它会利用GPU的“机密计算能力”。这项服务由客户选择、自行安装和控制,专门用于监测GPU的使用情况、配置状态和可能出现的错误。
通过该服务,数据中心运营商将能够:
追踪功耗峰值,在不超过能耗预算的前提下最大化单位功耗性能。监测整个集群的利用率、内存带宽和互联运行状况。及早发现热点问题和气流问题,以避免过热降频和组件过早老化。确认软件配置和设置保持一致,以确保结果可复现以及运行可靠。发现错误和异常情况,尽早定位故障组件。
这些功能可以帮助企业和云提供商可视化其GPU集群、找出系统瓶颈并优化生产力,从而提高投资回报。
这项可选服务提供实时监测,让每个GPU系统与外部云服务通信并共享GPU指标。服务将配备客户端软件智能体,客户可以安装此智能体,将节点级GPU遥测数据流式传输到托管在NVIDIA NGC上的门户中。
客户可以在仪表板中可视化其GPU集群的利用率,既可以全局查看,也可以按计算区域(在同一物理或云位置注册的节点组)查看。

该客户端工具智能体也计划开源,以提供透明度和可审计性。它将提供一个实际示例,展示客户如何将英伟达的工具整合到他们自己的GPU基础设施监测解决方案中。
这款软件能够帮助企业了解其GPU缓存情况,但无法修改GPU配置或底层运行机制。它提供的是只读遥测数据,并由客户自行管理及自定义。
该服务还支持客户生成详细介绍GPU集群信息的报告。
另据外媒今日报道,英伟达周三透露,“没有任何功能允许英伟达远程控制或对已注册的系统采取行动”,发送给英伟达服务器的遥测数据是“只读的”,这意味着该公司的服务器无法将数据写回芯片。“英伟达GPU内部没有任何允许英伟达或远程参与者禁用英伟达GPU的机制。”
这项功能将首先在英伟达最新的Blackwell芯片上实现,英伟达也在研究前几代芯片的适配方案。
