输入一个热词,快速查看术语含义、常见场景和相关概念。
集中展示常见热词解释,方便按概念和场景继续浏览。
Gradient Checkpointing是一种深度学习训练中的显存优化技术,通过选择性丢弃中间激活值并在反向传播时重新计算,从而显著降低GPU显存占用,适用于长序列、大模型等显存瓶颈场景。
近期常被查询的 AI 概念。