游乐游手机版
首页/AI热点日报/热点详情

调整GPU时钟频率降低大模型训练能耗14%

类型:热点整理2026-06-30
在AI大模型训练这一竞争激烈的领域,算力与电力消耗始终是绕不开的焦点话题。让我们重新审视这一数字:2023年,OpenAI训练GPT-4时,估计消耗了约5000户美国家庭一整年的用电量,约50吉瓦时。自那以后,训练前沿大语言模型所需的计算资源有增无减,但具体的能耗数据却成了越来越难以公开获取的秘密。

在AI大模型训练这一竞争激烈的领域,算力与电力消耗始终是绕不开的焦点话题。让我们重新审视这一数字:2023年,OpenAI训练GPT-4时,估计消耗了约5000户美国家庭一整年的用电量,约50吉瓦时。自那以后,训练前沿大语言模型所需的计算资源有增无减,但具体的能耗数据却成了越来越难以公开获取的秘密。

调整GPU时钟频率可将大语言模型训练能耗降低14%

最近,荷兰特文特大学的研究团队提出了一种相当“轻巧”的解决方案:在不牺牲训练速度的前提下,通过智能调整GPU的时钟频率,成功将大语言模型训练的能耗硬生生降低了14%。该成果由论文第一作者、博士候选人Jeffrey Spaan在上月于西西里岛卡塔尼亚举办的Computing Frontiers学术会议上正式发布。

“我的研究方向就是找出计算过程中的浪费现象。”Spaan直言,这个问题与硬件利用率不足很类似,但团队换了一个思路:不是让软件去迁就硬件,而是反过来,让硬件主动适配软件的需求。

他们采用的关键技术是动态电压频率调节(DVFS)。每块芯片都有一个或多个时钟来“打拍子”,协调每个计算操作的节奏。时钟频率越高,芯片运行越快,功耗也越大。现代GPU内部实际上有两个独立的时钟:一个管控计算核心,一个负责内存。DVFS的精髓在于,知道什么时候该让谁慢下来:当计算核心满负荷运算时,内存的时钟频率完全可以降低来省电;反之,当计算核心正在等待内存加载数据时,核心的时钟频率可以降低,而内存则可以跑得更快。从原理上看,直接关闭芯片的某一部分会更省电,但GPU本身并不支持用软件直接进行这种开关操作,中途重新开启耗时太长,得不偿失。

DVFS并非什么新鲜概念,早在90年代就已为人熟知。但为什么之前没人将其用于大语言模型训练的节能?Spaan指出,问题出在过去的调节粒度上——要么导致计算速度明显下降,要么调节粒度太粗,根本省不了多少电。

以往的尝试通常是针对整个训练迭代来调节频率。大语言模型的每次训练迭代分为前向传播和反向传播两步,以往的做法就是给这两个步骤各自分配一个固定频率。但特文特团队把事情做得更精细了。他们把GPU中的计算任务拆解成海量细小的单元,即“内核”(kernel)。一个简单的向量乘法运算就能构成一个内核,而GPU会并行处理这些内核。团队发现,深度神经网络单层的一个运算任务可以拆解为大约40个内核。正是通过在内核级别逐个调整时钟频率,才挖掘出了远超以往的节能空间。

一个更微妙的地方在于:GPU本身其实也会根据芯片内部的负载变化自动执行DVFS。“有些人可能会觉得那不就行了吗,让GPU自己控制就足够了,”Spaan说,“问题是,GPU永远无法预判下一秒要运行哪些内核,它只能根据当前情况实时猜测最优频率。所以自动调节的效果永远赶不上手动精准干预。”这正是人工介入的价值所在。

实验平台选用的是Nvidia RTX 3080 Ti GPU,训练模型是拥有13亿参数的GPT-3-XL。为了节省时间,团队将实验聚焦在单层模型的训练上。最终结果相当亮眼:在训练时间仅延长0.6%的情况下,实现了14%的节能效果。

当然,这套方法并非没有现实挑战。降低时钟频率虽然比关闭再开启核心快得多,但依然需要时间。实验中,团队的频率调节方案是依次评估每个内核后得出的理想结果,并未将实际频率切换的时间成本完全计入。因此14%目前的定位仍是“理想情况下的最优值”。Spaan表示,实际应用的节能效果取决于具体的GPU型号,频率切换速度更快的GPU(比如基于Blackwell架构的新一代产品),理论上能更充分地释放这套方法的节能潜力。

研究团队目前正在开发一款工具,目标是针对特定工作负载自动生成最优的频率调节方案。Spaan希望这项技术能够真正落地,引起业界的重视。“我们的目标是在不损失性能的前提下实现节能。”他说,“在现实世界中,性能永远是第一位的。”

Q&A

Q1:动态电压频率调节(DVFS)技术是什么原理?它为什么能节省大语言模型训练的能耗?

A:DVFS是一种通过动态调整芯片时钟频率和电压来控制功耗的技术。GPU拥有计算核心和内存两个独立时钟,当计算核心繁忙时可主动降低内存时钟频率来省电;当内存加载数据时则降低核心时钟频率。特文特大学团队将调节粒度细化到单个内核级别,相比以往只能针对整个训练迭代做粗粒度调节的方案,能够挖掘出更大的节能空间,最终实现14%的节能效果。

Q2:这项研究的节能效果是在什么实验条件下取得的?是否适用于所有GPU?

A:团队在Nvidia RTX 3080 Ti GPU上,针对GPT-3-XL(13亿参数)模型的单层训练进行了实验,实现了训练时间仅延长0.6%、能耗降低14%的效果。但14%属于理想情况下的最优结果,因为实验并未将频率切换的耗时计入。实际节能效果因GPU型号而异,频率切换速度更快的新型GPU(如基于Blackwell架构的产品)更有利于充分发挥该方法的节能潜力。

Q3:GPU自身的自动DVFS与研究团队提出的手动调节方案有什么区别?

A:GPU内部系统虽然可以根据负载变化自动执行DVFS,但由于无法提前预知接下来要运行的内核类型,只能做实时“最优猜测”,因此节能效果有限。而研究团队的方案能够在任务执行前,根据每个内核的计算与内存需求特征,提前做出精准的频率调节决策,节能效果远超GPU的自动调节机制。

来源:https://ai.zhiding.cn/2026/0629/3191914.shtml

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。