首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
GPU利用率背后的真相:避免被商家100%数据误导

GPU利用率背后的真相:避免被商家100%数据误导

热心网友
57
转载
2025-11-03

对致力于人工智能技术研发的团队而言,我们强烈推荐在管理GPU集群时同步监测SM效率与GPU利用率。SM效率能够更精确地反映GPU实际计算效能,而GPU利用率则主要体现系统是否处于空闲状态。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

原文链接:https://www.trainy.ai/blog/gpu-utilization-misleading

前言

在机器学习项目中,评估GPU运行状态时最常见的指标就是GPU利用率,这个数值一般通过终端执行nvidia-smi命令获取。众多系统监控工具也普遍将GPU利用率作为核心性能参数。然而,这一指标往往不能全面反映GPU的实际运算能力。事实上,单纯执行内存读写操作而不涉及任何数学计算,也能让GPU利用率达到100%。本文将剖析这一局限性背后的成因,并分享我们在探索过程中获得的关键见解。

我们已实施了PyTorch性能优化指南中列举的绝大多数改进方案,具体包括:

  • 通过调整数据加载器参数(如num_workers、batch_size、pin_memory、prefetch_factor等)充分释放GPU潜能
  • 采用混合精度训练(FP16或BF16)最大化TensorCore使用效能
  • 运用Apex或DeepSpeed等框架中的融合优化器(如FusedAdam或FusedAdamW)
  • 选用专为训练任务设计的计算实例与网络架构(如H100 SXM或A100 SXM),并优先选择新一代硬件平台(H100 > A100 > V100)

这些看似简单的调整使我们同时实现了100%的GPU利用率和显著的功耗表现,这无疑是个良好的开端。为了判断是否存在进一步优化的空间,我们计算了训练负载的模型FLOPS利用率(MFU)。

简要回顾:MFU(模型FLOPS利用率)是评估GPU性能的重要指标之一,由Google的PaLM论文率先引入。它定义为“观测到的计算吞吐量(每秒执行的指令数量)相对于系统在峰值FLOPs下运行的理论最大吞吐量的比率”。简而言之,这个指标量化了工作负载每秒执行的浮点运算数相对于GPU最大理论计算能力的比例。其主要不足之处在于计算过程相对复杂,需要依赖具体的模型参数和框架实现。

令人遗憾的是,该训练过程仅达到了约20%的MFU。作为参照,当前主流的大语言模型训练通常能达到35%-45%的MFU水平。这就引出了一个核心问题:为什么在GPU利用率达到100%的同时,我们仅利用了GPU理论计算峰值20%的性能?

要解答这个性能差异,需要深入理解GPU利用率的实际含义。

GPU利用率究竟是什么?

NVIDIA官方文档对GPU利用率的定义较为含糊:“报告GPU计算资源和内存接口的当前使用率”。

Datadog的NVML技术文档提供了更精准的解释:“在过去的采样周期内,一个或多个内核在GPU上执行的时间百分比”。要理解这个定义为何具有误导性,我们需要简要了解GPU的工作原理。

GPU由众多核心和多组处理器构成。在NVIDIA架构中,这些处理器称为流多处理器(SM);在AMD硬件中则称为计算单元(CU)。下图展示了包含144个SM的GH100 GPU架构。

图片

这些多处理器可以视为监督一组工作核心的“工头”。当启动CUDA内核时,工作负载会由一个或多个SM在CUDA核心上执行。如下图所示,GH100芯片上的单个SM包含众多CUDA核心。

图片

因此,GPU利用率仅仅指示在给定时刻是否有内核正在执行。它既无法反映内核是否充分利用了所有可用核心,也不能体现工作负载是否最大化发挥了GPU的并行计算能力。在极端情况下,仅通过内存操作无需任何数学计算即可实现100%利用率,而此时实际FLOPs为零。

回到我们的核心问题,这个定义恰好解释了GPU利用率与MFU百分比之间的差距!显然仍有大量性能潜力未被发掘,我们的任务就是找到这些优化空间。

深入挖掘

下一步是对模型训练循环进行性能剖析。我们使用PyTorch Profiler工具获得了更深入的洞察。

如下所示,Softmax内核显示出高GPU利用率但SM效率较低的特征。这立即触发了警报,因为Softmax实现是LLM中著名的性能瓶颈,具有内存绑定的特性。众多内核融合技术(如FlashAttention)正是为此而开发,旨在缓解这一问题。较低的SM效率指标暗示模型执行存在潜在低效环节。

图片

SM效率代表什么?

SM效率(也称SM活跃度)是NVIDIA GPU上的重要指标,描述在给定时间间隔内活跃SM的百分比。如前所述,SM负责监督一组CUDA核心。例如,NVIDIA H100 GPU拥有132个SM,每个SM包含128个核心,总计16,896个计算核心。通过监测SM效率,我们可以评估CUDA内核是否有效利用了流多处理器。举例来说,如果一个内核持续运行10秒但仅使用1个SM,在H100上将报告100%利用率,但SM效率仅为1/132≈0.7%。

这正是我们需要的指标!通过逐层监测SM效率,我们能够确定优化潜力最大的低垂果实。

实施优化

在识别出利用率不足的内核后,我们着手优化相关层级。由于这是基于Transformer的架构,大部分收益来自于融合Transformer块内的操作。下图总结了我们应用的优化方案。

图片

融合是指用单个GPU内核(通过CUDA或Triton实现)替换PyTorch原生多层定义,将所有操作整合到一个内核中。加速源于某些层(如Softmax)在内存访问上花费的时间超过计算时间;融合减少了这些开销。FlashAttention就是此类融合内核的典范。其他需要融合的内核包括MLP、dropout、层归一化和残差加法操作。

我们并未自行编写这些内核。大多数已在FlashAttention等库中实现,这些库提供nn.Module形式,无需从零创建自定义torch.autograd.Function。此外,这些实现通常经过硬件优化,不仅速度更快,还能降低内存使用。

主要挑战在于定位并替换代码中的相应层。虽然torch.compile试图自动化处理,但截至本文撰写时,它与FSDP等高级分布式策略兼容性欠佳,且由于图断裂问题,实际加速效果有限。未来编译器或许能自动完成此过程,但目前仍需手动集成融合实现。

成果显著:训练时间缩短4倍,MFU从初始的20%提升至38%。这些改进主要源自内核融合,并辅以根据模型规模和可用3.2 Tbps Infiniband网络选择合适的模型并行级别。

结论

我们强烈建议AI团队在管理GPU集群时同步监测SM效率和GPU利用率。SM效率提供了更准确的GPU计算效能表征,而GPU利用率主要指示系统是否空闲。当然,计算MFU也很有价值,但不适合持续性的逐层监测。NVIDIA DCGM(数据中心GPU管理器)默认包含SM活跃度指标。

还有更细粒度的指标,如SM占用率(PyTorch Profiler中的Achieved Occupancy),可洞察每个SM的工作负载。但理解这些指标不如最大化SM效率直观。如需深入了解,建议参详PyTorch Profiler博客、DCGM文档、Nsight内核剖析指南以及Nsight技术文档。

来源:https://server.51cto.com/article/828653.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

HBM之父预言:AI主导权将从GPU转向内存
电脑教程
HBM之父预言:AI主导权将从GPU转向内存

4月1日消息,据媒体报道,被业界誉为“HBM(高带宽内存)之父”的韩国学者金正浩指出,AI计算的主导权正加速从GPU向内存转移。随着人工智能从生成式迈向智能体(Agentic AI)时代,内存正成为

热心网友
04.01
“HBM之父”预言:未来AI发展依赖高带宽内存技术
科技数码
“HBM之父”预言:未来AI发展依赖高带宽内存技术

有着“HBM(高带宽内存)之父”之称的韩国教授认为,AI(人工智能)计算主导权正在从GPU转向内存。近日,据韩媒报道,被称为“HBM之父”的韩国科学技术院电气与电子工程学院教授金正浩表示,AI芯片格

热心网友
04.01
国产GPU厂商如何跨越从0到1,突围出货亏损扩大困境?
科技数码
国产GPU厂商如何跨越从0到1,突围出货亏损扩大困境?

(文 万肇生 编辑 张广凯)一边是出货量狂飙突进,另一边却是持续扩大的账面亏损?3月30日,国产通用GPU企业天数智芯发布了一份“矛盾”的2025年成绩单。财报显示,天数智芯2025年营收10 34

热心网友
03.31
摩尔线程集群分期付款指南:6.6亿智算中心采购方案
科技数码
摩尔线程集群分期付款指南:6.6亿智算中心采购方案

3月31日,摩尔线程智能科技(北京)股份有限公司(下文简称为“摩尔线程”)发布公告称,公司于近日与某客户签订了产品销售协议,合同总金额为人民币6 6亿元。摩尔线程披露,合同标的为摩尔线程夸娥(KUA

热心网友
03.31
摩尔线程开源MUSA架构首个全功能GPU物理仿真后端
科技数码
摩尔线程开源MUSA架构首个全功能GPU物理仿真后端

北京商报讯(记者 陶凤 王天逸)3月30日,摩尔线程正式开源MuJoCo Warp MUSA。据称,这是具身智能领域首个基于MUSA架构的全功能GPU加速物理仿真后端,补齐了国产算力在强化学习仿真训

热心网友
03.30

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

《全面战争:中世纪3》:只怀旧做不成好游戏经典需要现代化
游戏资讯
《全面战争:中世纪3》:只怀旧做不成好游戏经典需要现代化

《全面战争:中世纪3》:经典延续,如何平衡怀旧与创新? 近期,《全面战争:中世纪3》的项目负责人帕维尔·沃伊斯坦然指出,要打造一款真正优秀的续作,绝不能仅仅依赖对前作模式的简单复刻。这一观点引人深思——尽管《中世纪2:全面战争》至今仍在策略游戏爱好者心中占据着经典地位,但开发团队此次显然决心跳出“照

热心网友
04.02
雷鸟创新AWE斩获艾普兰创新奖 蝙蝠侠限定款国内首秀
科技数码
雷鸟创新AWE斩获艾普兰创新奖 蝙蝠侠限定款国内首秀

雷鸟X3 Pro斩获AWE艾普兰创新大奖,开启全民AR生活新篇章 在上海新国际博览中心隆重揭幕的2026年中国家电及消费电子博览会(AWE)上,前沿AI科技与未来生活愿景激情碰撞。全球消费级AR领导品牌雷鸟创新,以其里程碑式的表现,定义了行业发展的新方向。 通过“顶尖硬件科技+顶级文化IP”的双轨战

热心网友
04.02
AWE探展MOVA:31款创新产品集中亮相 重新定义智慧生活新体验
科技数码
AWE探展MOVA:31款创新产品集中亮相 重新定义智慧生活新体验

借力AWE2026“一展双区”,MOVA双区协同、震撼登场 备受瞩目的科技盛会——2026年中国家电及消费电子博览会(AWE),于3月12日至15日在上海盛大举办。本届AWE展会首次创新采用“一展双区”的展览模式,主会场位于上海新国际博览中心,分会场则设于上海东方枢纽国际商务合作区,两大展区高效联动

热心网友
04.02
DNF2026冰结技能数据是怎样的-2026DNF冰结技能数据详情
游戏攻略
DNF2026冰结技能数据是怎样的-2026DNF冰结技能数据详情

冰结师技能全解析 踏入2026年,《地下城与勇士》中的冰结师职业,其技能体系已构建得更为成熟与强大。无论是在副本中高效清理海量怪物,还是在决斗场与高手玩家周旋,这个职业都能凭借其独特的冰霜艺术掌控战局。刷图时,酷寒的范围法术可瞬间清屏;而在PVP竞技中,一套将冻结控制与瞬间爆发完美衔接的连招,往往让

热心网友
04.02
iPhone 18 Pro设计挤牙膏了 继续用前代模具
科技数码
iPhone 18 Pro设计挤牙膏了 继续用前代模具

iPhone 18 Pro系列模具不变,屏幕形态将与iPhone 17 Pro保持一致 备受期待的屏下Face ID组件小型化设计与灵动岛区域缩窄方案,预计将被推迟至后续迭代机型中正式应用。 近期,关于iPhone 18 Pro系列的技术传闻持续引发行业关注,尤其在显示与解锁设计领域传言甚多。多方消

热心网友
04.02