本次查询:Model Merging
中文解释:模型合并
常见场景:大模型微调后合并 / 多任务模型融合 / 模型轻量化部署 / 联邦学习场景
一句话解释
Model Merging 是把多个已训练好的 AI 模型的参数或结构按一定规则组合成一个新模型的技术,新模型综合了各个源模型的优势,推理时只需一次前向计算,效率远高于同时运行多个模型。
为什么会被关注
大模型训练成本极高,而直接合并已有模型能以极低成本提升性能。例如将不同领域微调后的 LLaMA 模型合并,可同时获得代码能力和对话能力,无需重新训练。
在开源社区中,Model Merging 成为快速构建高质量模型的热门手段,如通过 TIES-Merging、DARE 等算法,合并模型往往在基准测试上超越单一模型,且保持推理速度不变。
核心逻辑
核心思想:不同模型在参数空间中可能位于不同的局部最优区域,通过线性插值或更复杂的非线性融合(如 task vector 相加、分块合并),可以找到泛化更好的全局最优。
典型方法包括权重平均(直接对两个模型的参数取均值)、任务向量合并(将微调后的参数增量相加或缩放后加回基座模型)、以及基于 Fisher 信息矩阵的自适应合并,以保留关键神经元。
常见场景
多任务模型融合:将分别擅长数学、写作、编程的聊天模型合并成一个全能助手,用户无需切换模型即可处理多种任务。
模型轻量化部署:将大模型蒸馏出的多个小模型合并,或合并多个专有模型的参数,减少部署时的模型数量和存储占用,同时保持相近效果。
联邦学习与隐私保护:各客户端训练局部模型后,通过安全聚合算法(如 FedAvg)合并服务器端全局模型,避免原始数据泄露。
容易混淆的点
Model Merging 不是模型集成(Ensemble):集成是在推理时同时运行多个模型并投票或平均输出,推测速度慢;合并只保留一个模型,推理更快。
Model Merging 也不同模型蒸馏:蒸馏是用大模型教小模型,小模型模仿大模型的输出;合并是将多个模型的知识直接融合进参数,不涉及师生训练过程。
并非所有模型都能随意合并,要求模型架构完全相同(如同一个基座模型的不同微调版本),且合并算法可能引入干扰,需谨慎调节融合比例。
