调整GPU时钟频率降低大模型训练能耗14%_AI热点日报

调整GPU时钟频率降低大模型训练能耗14%

类型：热点整理2026-06-30

在AI大模型训练这一竞争激烈的领域，算力与电力消耗始终是绕不开的焦点话题。让我们重新审视这一数字：2023年，OpenAI训练GPT-4时，估计消耗了约5000户美国家庭一整年的用电量，约50吉瓦时。自那以后，训练前沿大语言模型所需的计算资源有增无减，但具体的能耗数据却成了越来越难以公开获取的秘密。

调整GPU时钟频率可将大语言模型训练能耗降低14%

最近，荷兰特文特大学的研究团队提出了一种相当“轻巧”的解决方案：在不牺牲训练速度的前提下，通过智能调整GPU的时钟频率，成功将大语言模型训练的能耗硬生生降低了14%。该成果由论文第一作者、博士候选人Jeffrey Spaan在上月于西西里岛卡塔尼亚举办的Computing Frontiers学术会议上正式发布。

“我的研究方向就是找出计算过程中的浪费现象。”Spaan直言，这个问题与硬件利用率不足很类似，但团队换了一个思路：不是让软件去迁就硬件，而是反过来，让硬件主动适配软件的需求。

他们采用的关键技术是动态电压频率调节（DVFS）。每块芯片都有一个或多个时钟来“打拍子”，协调每个计算操作的节奏。时钟频率越高，芯片运行越快，功耗也越大。现代GPU内部实际上有两个独立的时钟：一个管控计算核心，一个负责内存。DVFS的精髓在于，知道什么时候该让谁慢下来：当计算核心满负荷运算时，内存的时钟频率完全可以降低来省电；反之，当计算核心正在等待内存加载数据时，核心的时钟频率可以降低，而内存则可以跑得更快。从原理上看，直接关闭芯片的某一部分会更省电，但GPU本身并不支持用软件直接进行这种开关操作，中途重新开启耗时太长，得不偿失。

DVFS并非什么新鲜概念，早在90年代就已为人熟知。但为什么之前没人将其用于大语言模型训练的节能？Spaan指出，问题出在过去的调节粒度上——要么导致计算速度明显下降，要么调节粒度太粗，根本省不了多少电。

以往的尝试通常是针对整个训练迭代来调节频率。大语言模型的每次训练迭代分为前向传播和反向传播两步，以往的做法就是给这两个步骤各自分配一个固定频率。但特文特团队把事情做得更精细了。他们把GPU中的计算任务拆解成海量细小的单元，即“内核”（kernel）。一个简单的向量乘法运算就能构成一个内核，而GPU会并行处理这些内核。团队发现，深度神经网络单层的一个运算任务可以拆解为大约40个内核。正是通过在内核级别逐个调整时钟频率，才挖掘出了远超以往的节能空间。

一个更微妙的地方在于：GPU本身其实也会根据芯片内部的负载变化自动执行DVFS。“有些人可能会觉得那不就行了吗，让GPU自己控制就足够了，”Spaan说，“问题是，GPU永远无法预判下一秒要运行哪些内核，它只能根据当前情况实时猜测最优频率。所以自动调节的效果永远赶不上手动精准干预。”这正是人工介入的价值所在。

实验平台选用的是Nvidia RTX 3080 Ti GPU，训练模型是拥有13亿参数的GPT-3-XL。为了节省时间，团队将实验聚焦在单层模型的训练上。最终结果相当亮眼：在训练时间仅延长0.6%的情况下，实现了14%的节能效果。

当然，这套方法并非没有现实挑战。降低时钟频率虽然比关闭再开启核心快得多，但依然需要时间。实验中，团队的频率调节方案是依次评估每个内核后得出的理想结果，并未将实际频率切换的时间成本完全计入。因此14%目前的定位仍是“理想情况下的最优值”。Spaan表示，实际应用的节能效果取决于具体的GPU型号，频率切换速度更快的GPU（比如基于Blackwell架构的新一代产品），理论上能更充分地释放这套方法的节能潜力。

研究团队目前正在开发一款工具，目标是针对特定工作负载自动生成最优的频率调节方案。Spaan希望这项技术能够真正落地，引起业界的重视。“我们的目标是在不损失性能的前提下实现节能。”他说，“在现实世界中，性能永远是第一位的。”

Q&A

Q1：动态电压频率调节（DVFS）技术是什么原理？它为什么能节省大语言模型训练的能耗？

A：DVFS是一种通过动态调整芯片时钟频率和电压来控制功耗的技术。GPU拥有计算核心和内存两个独立时钟，当计算核心繁忙时可主动降低内存时钟频率来省电；当内存加载数据时则降低核心时钟频率。特文特大学团队将调节粒度细化到单个内核级别，相比以往只能针对整个训练迭代做粗粒度调节的方案，能够挖掘出更大的节能空间，最终实现14%的节能效果。

Q2：这项研究的节能效果是在什么实验条件下取得的？是否适用于所有GPU？

A：团队在Nvidia RTX 3080 Ti GPU上，针对GPT-3-XL（13亿参数）模型的单层训练进行了实验，实现了训练时间仅延长0.6%、能耗降低14%的效果。但14%属于理想情况下的最优结果，因为实验并未将频率切换的耗时计入。实际节能效果因GPU型号而异，频率切换速度更快的新型GPU（如基于Blackwell架构的产品）更有利于充分发挥该方法的节能潜力。

Q3：GPU自身的自动DVFS与研究团队提出的手动调节方案有什么区别？

A：GPU内部系统虽然可以根据负载变化自动执行DVFS，但由于无法提前预知接下来要运行的内核类型，只能做实时“最优猜测”，因此节能效果有限。而研究团队的方案能够在任务执行前，根据每个内核的计算与内存需求特征，提前做出精准的频率调节决策，节能效果远超GPU的自动调节机制。

来源：https://ai.zhiding.cn/2026/0629/3191914.shtml

模型训练

延伸阅读

补充最近整理过的热点入口。

调整GPU时钟频率降低大模型训练能耗14%

相关热点

延伸阅读