在LiblibAI的“赛博丹炉”里运行LoRA训练时,参数设置不当是常见问题——loss值持续飙升、训练中途出现NaN崩溃,或是生成图像完全不符合预期。核心原则只有一条:必须根据数据量、底模类型和训练目标动态调整参数,切忌套用固定模板企图一劳永逸。

基础参数设置:新手起步必调的关键配置
进入“赛博丹炉”后,点击左侧【训练LoRA】,选好底模,接下来先配置以下三项关键参数,这相当于为模型训练打好地基:
1. 将“单次张数”设为15,“循环轮次”设为8。这是针对20到30张图片的标准组合,能较好兼顾收敛速度与特征泛化。但如果你只有12张图,请立即打开“高级参数”,将Repeat拉到6以上,否则模型无法充分学习主体特征。
2. “模型效果预览提示词”中必须包含触发词,缺一不可。例如训练水墨风格,需写入ink_wash, scholar figure, soft ink gradient。务必注意:遗漏触发词会导致预览图完全失效,且无法反向排查问题。
3. 关闭“混合精度训练”开关。这个坑很多人踩过——LiblibAI的云端环境对fp16支持不稳定,开启后大概率在第3轮就报NaN Loss并直接中断训练,白白浪费时间和资源。
高级参数调优:训练失败时的修复路径
如果发现loss曲线剧烈震荡、卡在0.8不动,或者生成图出现色块、扭曲,就需要手动干预以下几组变量。可依次尝试三种方法:
方法一:调整Repeat与Epoch协同值
① 打开“高级参数”面板,将Repeat设在5~8之间。如果素材少于20张,建议直接取7或8。
② Epoch分别测试5和8两个值,保存两个版本的模型后对比生成效果。Epoch=5出图快但细节表现弱,Epoch=8泛化性好但容易在小数据集上过拟合。
③ 总步数 = 图片数 × Repeat × Epoch,确保最终落在1200到4000这个区间。低于1000步模型几乎学不到有效特征,高于5000步显存溢出风险陡增——这两条线都需要严格把控。
方法二:学习率与调度策略
选择“cosine with warmup”调度,初始学习率填3e-4(风格类)或4e-4(角色类)。特别注意:严禁使用固定学习率,否则loss在前10轮就会崩溃,届时后悔都来不及。
方法三:Batch Size与梯度累积组合
A10显卡(24GB)设Batch Size=2,梯度累积=4;V100(32GB)可设Batch Size=4,梯度累积=3。目标很简单:让Batch Size×梯度累积跑到8~12之间,这是当前平台最稳定的吞吐窗口。
分辨率与正则图配置:决定训练成败的隐性门槛
很多人跳过此步骤就直接上传图片,结果训练完发现人脸变形、手部熔融——问题的根源全在于此。以下几点一个都不能马虎:
1. 所有训练图必须裁成正方形,768×768或1024×1024二选一。上传前用PS或在线工具确认图片没有被非等比拉伸。
2. “训练分辨率”必须与图片实际尺寸严格一致。例如,如果你上传的是1024×1024的图,这里就不能选768×768,否则底层特征提取层会错位,训练效果大打折扣。
3. 必须启用正则图。点击“添加正则图”,上传5到8张同主题但不同姿态、不同光照的通用图。比如训练“水墨人物”,就传5张公开的水墨画。这一步能有效防止模型死记硬背单张图的噪点和瑕疵,让生成的图更具泛化性。
