游乐游手机版

AI 热词解释

首页/AI热词解释/热词详情

Activation Recomputation:激活重计算

类型:技术概念2026-06-01
Activation Recomputation(激活重计算)是一种在深度学习训练中通过牺牲少量计算来换取显存节省的技术,在前向传播时丢弃中间激活值,反向传播时重新计算,从而支持更大模型或更大批量的训练。

本次查询:Activation Recomputation

中文解释:激活重计算

常见场景:大模型训练 / 深度学习框架优化

一句话解释

Activation Recomputation(激活重计算)是一种显存优化技术,在前向传播时只保留部分关键激活值,丢弃大部分中间结果,然后在反向传播时重新计算被丢弃的激活值,从而大幅度降低显存占用。

为什么会被关注

随着大模型参数规模达到千亿甚至万亿级别,显存瓶颈成为训练时的主要限制。传统做法需要保存所有前向计算的中间激活值用于反向传播,这会使显存需求随模型深度线性增长。激活重计算通过用计算换内存,使得单卡可以训练更大的模型或使用更大的批量,成为各大AI框架(如PyTorch、Megatron-LM)的标准功能。

核心逻辑

在前向传播过程中,每个网络层都会产生激活值(中间特征)。为了反向传播计算梯度,通常需要这些激活值。激活重计算策略会标记某些层或计算区域,在前向完成后立即释放其激活值。反向传播时,从最近的检查点(Checkpoint)重新执行正向计算,恢复需要的激活值。这样做增加了约30%至50%的计算开销,但可能减少60%至80%的显存占用。

常见场景

大规模Transformer模型训练(如GPT、LLaMA、BERT)中,激活重计算常与张量并行、流水线并行结合使用。在PyTorch中可通过`torch.utils.checkpoint`接口轻松启用。训练超长序列(如8192以上)时,激活重计算几乎必不可少。此外,在显存有限的消费级显卡上微调大模型时,此技术也被广泛采用。

容易混淆的点

激活重计算(Activation Recomputation)和梯度检查点(Gradient Checkpointing)常被混用,实际上两者是同一概念的不同叫法。容易与“显存交换”(将数据换到CPU内存)混淆,但后者依靠PCIe传输,延迟更高。另外,它并非减少计算量,反而是增加计算量,只是让原本不能训练的大模型变得可训练。

来源:AI 热词解释频道整理
上一篇Gradient Checkpointing(梯度检查点) 下一篇混合精度(Mixed Precision)

相关热词

继续查看关联概念解释。

最新热词

最近新增和整理过的热词内容。