本次查询:失败恢复
中文解释:失败恢复
常见场景:大模型训练 / 分布式计算 / 自动驾驶仿真 / 在线推荐系统
一句话解释
失败恢复是AI训练或推理系统在遭遇意外中断后,自动从保存的中间状态(检查点)继续执行,避免从头再来。
为什么会被关注
大模型训练动辄数天甚至数周,一旦中途失败损失巨大。失败恢复让企业敢用更长的训练周期,降低算力浪费,同时提升分布式集群的可靠性,是AI工程化落地的关键能力。
核心逻辑
系统定期保存模型参数、优化器状态和训练步数到持久化存储。失败后,新启动的进程读取最近一次保存的文件,恢复模型权重和优化器动量,再按保存的步数继续训练。关键在于保存频率、存储一致性以及跨节点协调。
常见场景
1. GPU显存溢出或温度过高导致进程kill,自动拉起并从checkpoint恢复。2. 分布式训练中某台服务器断电,其他节点感知后等待恢复。3. 云服务竞价实例被回收,借助快照在另一台实例上续跑。4. 训练脚本因bug崩溃,修改后加载最近保存点继续优化。
容易混淆的点
失败恢复≠备份恢复:备份是完整数据拷贝,失败恢复只保留关键训练状态,体积更小。失败恢复也不等同于热迁移,热迁移是实时迁移进程,失败恢复是事后重启。另外,检查点保存过频会拖慢训练,过疏则会丢进度,需要平衡。
