香港科技大学新研究：为什么把多个AI"技能模块"合并总会变差？

时间：2026-04-28 19:20

模型合并的“阿喀琉斯之踵”：香港科大团队发现LoRA性能下降的根源与低成本修复方案这项由香港科技大学研究团队完成的研究以预印本形式发布于2026年4月，论文编号为arXiv:2604 16826，有兴趣深入了解的读者可通过该编号查询完整论文。不妨把今天的AI大模型想象成一个天赋异禀的学生。你可以

模型合并的“阿喀琉斯之踵”：香港科大团队发现LoRA性能下降的根源与低成本修复方案

这项由香港科技大学研究团队完成的研究以预印本形式发布于2026年4月，论文编号为arXiv:2604.16826，有兴趣深入了解的读者可通过该编号查询完整论文。

不妨把今天的AI大模型想象成一个天赋异禀的学生。你可以针对性地训练它，让它成为数学专家、编程高手、金融分析师或者医学顾问，每个方向都能培养出一个“专科状元”。但现实的需求往往更复杂：我们想要的，是一个能同时精通数学、编程、金融和医学的“全能型选手”。怎么办？

最直接的办法，是把所有领域的数据混在一起，从头开始训练一个新模型。但这耗时耗力，成本高昂。既然手头已经有了几个训练有素的“专科状元”，一个很自然的想法是：能不能把他们“合并”成一个全才？这正是AI领域里“模型合并”技术试图解决的问题——将多个专门训练好的模块组合起来，期望得到一个集各家所长的综合体。

然而，理想很丰满，现实却很骨感。多次尝试表明，合并后的模型表现往往不尽如人意，甚至还不如单个的专科模块。这就像把几位顶级厨师强行合并成一个人，结果他可能连一道拿手菜都做不出来了。问题到底出在哪里？这个谜团一直困扰着研究人员。

一、先搞清楚AI的“技能模块”是怎么工作的

要理解这项研究的突破，首先得弄明白现代AI是如何高效“学习新技能”的。

大型语言模型的参数动辄数百亿，每次学习新领域都调整全部参数，代价难以承受。于是，一种名为LoRA（低秩适配）的技术应运而生。

打个比方，AI的整个知识体系好比一本厚重的百科全书。LoRA的做法不是去修改原书内容，而是在书页旁贴上一张极其精简的“便利贴”，上面只记录某个特定领域的补充知识。这张“便利贴”体积微小，却能让AI在该领域表现出色。

从数学上看，这张“便利贴”被表述为两个矩阵的乘积：ΔW = B × A。其中，A矩阵负责将输入信息“压缩”到一个低维空间，B矩阵则负责将这个低维表示“展开”回输出空间。两者的乘积，就是实际生效的“知识补丁”。

正因为LoRA模块如此轻量，如今网络上存在着成千上万针对不同任务训练好的LoRA模块，形成了一个庞大的“技能库”。理论上，合并这些模块就能打造一个多面手。但合并后效果变差这个顽疾，始终是横在面前的一道坎。

二、抽丝剥茧：问题到底藏在哪里

研究团队没有泛泛地探讨“合并为何失败”，而是将问题拆解到了更微观的层面：在ΔW = B × A这个等式中，究竟是A出了问题，还是B出了问题，抑或是两者都有责任？

为此，他们基于同一个基础模型，训练了数学推理、代码编写、金融分析、医学问答四个领域的LoRA模块。接着，他们测量了这些模块之间A矩阵和B矩阵的“相似度”。这里引入了一个关键概念——“子空间重叠度”。可以理解为，每个LoRA模块在一个多维空间中占据了一片“知识领土”。如果两个模块的领土大量重叠，说明它们用几乎相同的方向存储知识；如果互不干扰，则说明它们各自拥有独立的知识空间。

测量结果出人意料。A矩阵的情况还算理想——数学、编程、金融、医学四个领域的A矩阵彼此重叠度很低，就像四位学者在城市的不同区域建立了自己的研究室，互不干扰。但B矩阵的情况截然不同：四个领域的B矩阵高度重叠，仿佛这四位学者不约而同地挤进了市中心的同一栋大楼，甚至使用着相同的几间核心办公室来表达各自的知识。

这种差异随着LoRA的“秩”（可以理解为“便利贴”的信息容量）增大而愈发明显。当秩为64时，在查询投影模块中，B矩阵的平均重叠度达到0.0839，而A矩阵仅为0.0172。而且，这个规律具有普适性——在所有被测量的网络层和模块配对中，B矩阵的重叠度几乎总是高于A矩阵。

第二个发现更值得玩味：B矩阵不仅重叠度高，其实际使用的“有效方向”数量也极少。在秩为64的设置下，B矩阵的平均有效秩只有约2.9，而A矩阵则高达6.5。这意味着，即便“便利贴”理论上提供了64个存储层，B矩阵实际上只动用了其中大约3层，而这区区3层，恰恰是所有领域共同依赖的那几层。

团队进一步分析了这些共享方向的“贡献度”。以第16层查询投影矩阵为例，将四个领域的B矩阵叠加分析后发现，排名第一的共享方向就占据了总能量的相当大部分，前3个共享方向合计贡献了53.7%的能量，前5个更是达到了68.8%。换句话说，近七成的“共享知识”都拥挤在最前面的5个方向里。

而且，这些共享方向的“来源”并不均衡——金融、数学、医学领域对这些主导方向的贡献明显多于编程领域。这意味着在合并时，像编程这样对共享方向贡献较少的领域，其独特知识更容易被淹没。

三、为什么合并会失败：一个简单的数学道理

理解了上述发现，合并失败的原因就一目了然了。

回到便利贴的比喻。假设数学模块的B矩阵有一个突出的“方向X”，强度为3分。巧的是，金融、医学、编程模块的B矩阵也有同样的“方向X”，强度也都是3分。当四个模块直接取平均合并时，“方向X”在合并结果中的强度被完整保留（4×3÷4=3分）。然而，每个模块独有的、其他模块没有的“专属方向”，在合并时却被稀释到只剩原来的四分之一（0.75分）。

于是，合并前“共享方向”与“专属方向”的比例是3:3，合并后却变成了3:0.75，即4:1。共享知识被放大了，专属知识却被严重压缩。需要合并的领域数量（T）越多，这种失衡就越严重——比例会扩大T倍。这就是合并后模型在每个具体领域都表现下滑的根源：各领域的独特知识被稀释成了零头，而那些通用的、被反复累加的方向却主导了全局。

更棘手的是，这个问题主要集中在B矩阵，而现有的合并方法几乎都未对B矩阵进行专门处理——大家习惯性地将ΔW=B×A视为一个整体来操作，完全忽略了A和B在合并过程中扮演的不同角色。

四、Pico：一针见血的修复方案

既然问题根源于B矩阵中少数方向被过度共享，修复思路也就清晰了：在合并之前，先对B矩阵里那些“嗓门过大”的共享方向进行“降调”处理，抑制其强势地位，为各领域的专属方向腾出表达空间。

这项研究提出的方法名为Pico（合并前输出空间干扰校准），其工作流程如同一位调音师在乐队合奏前校准每件乐器的音量，可分为四个步骤：

第一步，识别共享方向。 对于模型的每一层，Pico将所有领域的B矩阵横向拼接，进行奇异值分解。这个过程能提取出一组“共同基向量”及其使用强度，就像分析乐队合奏录音，找出哪些频率出现得最频繁、最响亮。

第二步，计算校准系数。 针对每个共享方向，Pico计算一个“共享程度分数”。分数越高，说明该方向被各领域共同依赖的程度越深。随后，根据此分数计算一个缩放系数：完全独享的方向（分数近0）保持不变；而占据主导的共享方向则被压缩，其缩放系数向1/T靠近（T为待合并的模块数）。这相当于调音师把过于突出的频率调低，以实现声音平衡。

第三步，应用校准并合并。 利用上述系数构建校准算子，作用于每个领域的B矩阵，得到“校准后的B矩阵”，再重新组合成校准后的知识更新量。随后，使用常规合并方法（如任务算术、TIES或TSV-M）对这些校准后的更新量进行合并。关键在于，A矩阵全程保持不变——因为各领域的A矩阵本就差异显著，无需校准。

第四步，重新调整幅度。 校准过程会压缩一些方向，可能导致合并后的更新量整体“力度”减弱。为保证合并后的模型仍有足够的“强度”，Pico最后会将合并结果乘以一个缩放因子，使其幅度恢复到各原始模块的平均水平。

整个Pico流程无需任何额外训练数据，仅依赖已有的各领域LoRA模块本身，计算代价极低。它并非一个全新的合并算法，而是一个可以“即插即用”的预处理步骤，能够无缝接入任何现有合并方法的前端。

五、实验结果：数字背后的故事

研究团队在数学、编程、金融、医学四个领域的八个基准测试上进行了全面评估。对比方法包括不校准的基线，以及DARE、DELLA、KnOTS、Core Space等当前先进的合并优化技术。

在三种主流合并框架上，Pico均带来了显著提升。以“任务算术”框架为例，未校准的基线整体平均分为0.4093，加入Pico后跃升至0.4430，绝对提升3.4个百分点，表现远超其他对比方法。

更具说服力的是与“联合多任务训练”的对比。如果将四个领域的数据混合从头训练一个统一的LoRA模块，其整体平均分为0.3688。而经Pico校准后再合并的结果（0.4430）反而高出约7.4个百分点。这表明，精心校准的合并方法不仅省去了重新训练的巨额成本，其效果甚至可能优于从零开始的联合训练。

各专科模块的数据也印证了合并的必要性：数学LoRA在数学领域得分0.2830，但在编程领域仅0.1090；编程LoRA虽在编程领域强势（0.3598），在其他领域则表现平平。这种“偏科”格局，正是模型合并技术试图打破的。而经Pico合并后的模型，在每个领域都取得了相当均衡且优秀的表现。

六、细节追究：每个设计选择都有理由

通过一系列消融实验，研究团队验证了Pico每个环节的必要性。

在校准对象的选择上，实验清晰地表明：只校准B矩阵效果最佳（整体均分0.4430）。校准A矩阵反而会损害性能（0.3916），同时校准整个更新量效果更差（0.3743）。这与理论分析完全吻合——A矩阵本就承载了足够的领域特异性，不应被破坏；问题症结确实集中在B矩阵。

最后的“幅度恢复”步骤是否多余？实验给出了否定答案。去掉此步骤后，整体均分从0.4430下降至0.3908。尽管方向校准正确，但整体更新信号过弱，导致在某些领域表现大幅下滑。幅度恢复确保了合并后的模型拥有足够的“表达力度”。

鲁棒性测试显示，Pico在不同LoRA秩（8, 16, 32, 64）的设置下均保持最优性能。特别是在TSV-M框架下，未校准时，性能随秩增大而显著衰减；而Pico加持下的TSV-M则稳定在0.43以上，完全抵御了这种衰减。

此外，在另一基础模型上的迁移实验，以及模拟实际应用的“渐进式合并”场景测试中，Pico都表现出了稳定的优越性和更强的鲁棒性。

七、为什么现有方法不够用，Pico的位置在哪里

梳理相关工作可以发现，现有大多数合并优化方法，无论是参数稀疏化、幅度采样，还是解决符号冲突或共享空间对齐，都是将ΔW=B×A视为一个整体来处理。它们从未深入探究：这个整体内部，A和B各自扮演了什么角色？问题究竟源于哪一部分？

Pico的独特价值在于，它直指问题的根源——LoRA分解的内部结构。它并非发明一种新的合并算法，而是在合并前对B矩阵这一特定源头进行修正。正因它是一个预处理步骤，才能以“插件”形式兼容任何现有的合并方法。

归根结底，这项研究揭示了一个被长期忽视的关键事实：LoRA模块中的A矩阵和B矩阵在训练中扮演着不对称的角色，因此在合并时必须区别对待。将它们混为一谈，就像合并乐队时只调节总音量，而不理会每件乐器的音色平衡，结果只能是混乱的合奏。

Pico所做的，就是在合并前仔细分析B矩阵的“声谱”，压制那些被所有“乐手”过度使用的频率，然后再进行融合。最终，合奏既保留了每支乐队的特色，又达成了和谐的整体效果。

这项研究给模型合并领域带来的最大启示，或许不仅仅是Pico这个具体工具，更是一种方法论层面的提醒：当复杂系统出现问题时，不应只停留在表面修补，而要敢于深入其内部结构，找到真正的不对称性，从而对症下药。对于AI技术发展而言，这意味着“将多个专业AI模块合并成全能助手”的愿景，正变得更加高效和可行。未来，我们或许能以极低的成本，快速整合出既精通编程、又通晓金融和医学的AI伙伴，而不必每次都耗费巨资从头训练。

Q&A

Q1：LoRA模型合并为什么总会导致性能下降？

A：核心原因在于B矩阵中存在大量被各任务共享的方向。直接合并时，这些共享方向被反复叠加，在最终结果中占据主导，而各任务独有的知识则被大幅稀释，导致模型在每个具体领域的表现都出现下滑。

Q2：Pico方法需要额外的训练数据吗？

A：完全不需要。Pico是一种数据无关的预处理方法，仅利用已有的各领域LoRA模块本身，通过对B矩阵进行奇异值分解来识别并校准过度共享的方向，不依赖任何额外数据，计算开销也很小。

Q3：Pico合并的效果能超过把所有数据混在一起重新训练的联合模型吗？

A：在该研究的实验设置下，经过Pico校准后再合并的结果，其整体表现超过了将所有领域数据混合后进行联合训练得到的模型。这表明，校准后的合并策略在节省大量训练成本的同时，有可能获得更优的性能。

来源：https://www.163.com/dy/article/KRKAVKQ80511DTVV.html

上一篇DeepMind让AI"读懂"每一块图像碎片:视觉语言模型的局部对齐突破 下一篇新战略新举措驱动上汽大众加速焕新

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

香港科技大学新研究：为什么把多个AI"技能模块"合并总会变差？