香港科技大学新研究:为什么把多个AI"技能模块"合并总会变差?
模型合并的“阿喀琉斯之踵”:香港科大团队发现LoRA性能下降的根源与低成本修复方案

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
这项由香港科技大学研究团队完成的研究以预印本形式发布于2026年4月,论文编号为arXiv:2604.16826,有兴趣深入了解的读者可通过该编号查询完整论文。
不妨把今天的AI大模型想象成一个天赋异禀的学生。你可以针对性地训练它,让它成为数学专家、编程高手、金融分析师或者医学顾问,每个方向都能培养出一个“专科状元”。但现实的需求往往更复杂:我们想要的,是一个能同时精通数学、编程、金融和医学的“全能型选手”。怎么办?
最直接的办法,是把所有领域的数据混在一起,从头开始训练一个新模型。但这耗时耗力,成本高昂。既然手头已经有了几个训练有素的“专科状元”,一个很自然的想法是:能不能把他们“合并”成一个全才?这正是AI领域里“模型合并”技术试图解决的问题——将多个专门训练好的模块组合起来,期望得到一个集各家所长的综合体。
然而,理想很丰满,现实却很骨感。多次尝试表明,合并后的模型表现往往不尽如人意,甚至还不如单个的专科模块。这就像把几位顶级厨师强行合并成一个人,结果他可能连一道拿手菜都做不出来了。问题到底出在哪里?这个谜团一直困扰着研究人员。
一、先搞清楚AI的“技能模块”是怎么工作的
要理解这项研究的突破,首先得弄明白现代AI是如何高效“学习新技能”的。
大型语言模型的参数动辄数百亿,每次学习新领域都调整全部参数,代价难以承受。于是,一种名为LoRA(低秩适配)的技术应运而生。
打个比方,AI的整个知识体系好比一本厚重的百科全书。LoRA的做法不是去修改原书内容,而是在书页旁贴上一张极其精简的“便利贴”,上面只记录某个特定领域的补充知识。这张“便利贴”体积微小,却能让AI在该领域表现出色。
从数学上看,这张“便利贴”被表述为两个矩阵的乘积:ΔW = B × A。其中,A矩阵负责将输入信息“压缩”到一个低维空间,B矩阵则负责将这个低维表示“展开”回输出空间。两者的乘积,就是实际生效的“知识补丁”。
正因为LoRA模块如此轻量,如今网络上存在着成千上万针对不同任务训练好的LoRA模块,形成了一个庞大的“技能库”。理论上,合并这些模块就能打造一个多面手。但合并后效果变差这个顽疾,始终是横在面前的一道坎。
二、抽丝剥茧:问题到底藏在哪里
研究团队没有泛泛地探讨“合并为何失败”,而是将问题拆解到了更微观的层面:在ΔW = B × A这个等式中,究竟是A出了问题,还是B出了问题,抑或是两者都有责任?
为此,他们基于同一个基础模型,训练了数学推理、代码编写、金融分析、医学问答四个领域的LoRA模块。接着,他们测量了这些模块之间A矩阵和B矩阵的“相似度”。这里引入了一个关键概念——“子空间重叠度”。可以理解为,每个LoRA模块在一个多维空间中占据了一片“知识领土”。如果两个模块的领土大量重叠,说明它们用几乎相同的方向存储知识;如果互不干扰,则说明它们各自拥有独立的知识空间。
测量结果出人意料。A矩阵的情况还算理想——数学、编程、金融、医学四个领域的A矩阵彼此重叠度很低,就像四位学者在城市的不同区域建立了自己的研究室,互不干扰。但B矩阵的情况截然不同:四个领域的B矩阵高度重叠,仿佛这四位学者不约而同地挤进了市中心的同一栋大楼,甚至使用着相同的几间核心办公室来表达各自的知识。
这种差异随着LoRA的“秩”(可以理解为“便利贴”的信息容量)增大而愈发明显。当秩为64时,在查询投影模块中,B矩阵的平均重叠度达到0.0839,而A矩阵仅为0.0172。而且,这个规律具有普适性——在所有被测量的网络层和模块配对中,B矩阵的重叠度几乎总是高于A矩阵。
第二个发现更值得玩味:B矩阵不仅重叠度高,其实际使用的“有效方向”数量也极少。在秩为64的设置下,B矩阵的平均有效秩只有约2.9,而A矩阵则高达6.5。这意味着,即便“便利贴”理论上提供了64个存储层,B矩阵实际上只动用了其中大约3层,而这区区3层,恰恰是所有领域共同依赖的那几层。
团队进一步分析了这些共享方向的“贡献度”。以第16层查询投影矩阵为例,将四个领域的B矩阵叠加分析后发现,排名第一的共享方向就占据了总能量的相当大部分,前3个共享方向合计贡献了53.7%的能量,前5个更是达到了68.8%。换句话说,近七成的“共享知识”都拥挤在最前面的5个方向里。
而且,这些共享方向的“来源”并不均衡——金融、数学、医学领域对这些主导方向的贡献明显多于编程领域。这意味着在合并时,像编程这样对共享方向贡献较少的领域,其独特知识更容易被淹没。
三、为什么合并会失败:一个简单的数学道理
理解了上述发现,合并失败的原因就一目了然了。
回到便利贴的比喻。假设数学模块的B矩阵有一个突出的“方向X”,强度为3分。巧的是,金融、医学、编程模块的B矩阵也有同样的“方向X”,强度也都是3分。当四个模块直接取平均合并时,“方向X”在合并结果中的强度被完整保留(4×3÷4=3分)。然而,每个模块独有的、其他模块没有的“专属方向”,在合并时却被稀释到只剩原来的四分之一(0.75分)。
于是,合并前“共享方向”与“专属方向”的比例是3:3,合并后却变成了3:0.75,即4:1。共享知识被放大了,专属知识却被严重压缩。需要合并的领域数量(T)越多,这种失衡就越严重——比例会扩大T倍。这就是合并后模型在每个具体领域都表现下滑的根源:各领域的独特知识被稀释成了零头,而那些通用的、被反复累加的方向却主导了全局。
更棘手的是,这个问题主要集中在B矩阵,而现有的合并方法几乎都未对B矩阵进行专门处理——大家习惯性地将ΔW=B×A视为一个整体来操作,完全忽略了A和B在合并过程中扮演的不同角色。
四、Pico:一针见血的修复方案
既然问题根源于B矩阵中少数方向被过度共享,修复思路也就清晰了:在合并之前,先对B矩阵里那些“嗓门过大”的共享方向进行“降调”处理,抑制其强势地位,为各领域的专属方向腾出表达空间。
这项研究提出的方法名为Pico(合并前输出空间干扰校准),其工作流程如同一位调音师在乐队合奏前校准每件乐器的音量,可分为四个步骤:
第一步,识别共享方向。 对于模型的每一层,Pico将所有领域的B矩阵横向拼接,进行奇异值分解。这个过程能提取出一组“共同基向量”及其使用强度,就像分析乐队合奏录音,找出哪些频率出现得最频繁、最响亮。
第二步,计算校准系数。 针对每个共享方向,Pico计算一个“共享程度分数”。分数越高,说明该方向被各领域共同依赖的程度越深。随后,根据此分数计算一个缩放系数:完全独享的方向(分数近0)保持不变;而占据主导的共享方向则被压缩,其缩放系数向1/T靠近(T为待合并的模块数)。这相当于调音师把过于突出的频率调低,以实现声音平衡。
第三步,应用校准并合并。 利用上述系数构建校准算子,作用于每个领域的B矩阵,得到“校准后的B矩阵”,再重新组合成校准后的知识更新量。随后,使用常规合并方法(如任务算术、TIES或TSV-M)对这些校准后的更新量进行合并。关键在于,A矩阵全程保持不变——因为各领域的A矩阵本就差异显著,无需校准。
第四步,重新调整幅度。 校准过程会压缩一些方向,可能导致合并后的更新量整体“力度”减弱。为保证合并后的模型仍有足够的“强度”,Pico最后会将合并结果乘以一个缩放因子,使其幅度恢复到各原始模块的平均水平。
整个Pico流程无需任何额外训练数据,仅依赖已有的各领域LoRA模块本身,计算代价极低。它并非一个全新的合并算法,而是一个可以“即插即用”的预处理步骤,能够无缝接入任何现有合并方法的前端。
五、实验结果:数字背后的故事
研究团队在数学、编程、金融、医学四个领域的八个基准测试上进行了全面评估。对比方法包括不校准的基线,以及DARE、DELLA、KnOTS、Core Space等当前先进的合并优化技术。
在三种主流合并框架上,Pico均带来了显著提升。以“任务算术”框架为例,未校准的基线整体平均分为0.4093,加入Pico后跃升至0.4430,绝对提升3.4个百分点,表现远超其他对比方法。
更具说服力的是与“联合多任务训练”的对比。如果将四个领域的数据混合从头训练一个统一的LoRA模块,其整体平均分为0.3688。而经Pico校准后再合并的结果(0.4430)反而高出约7.4个百分点。这表明,精心校准的合并方法不仅省去了重新训练的巨额成本,其效果甚至可能优于从零开始的联合训练。
各专科模块的数据也印证了合并的必要性:数学LoRA在数学领域得分0.2830,但在编程领域仅0.1090;编程LoRA虽在编程领域强势(0.3598),在其他领域则表现平平。这种“偏科”格局,正是模型合并技术试图打破的。而经Pico合并后的模型,在每个领域都取得了相当均衡且优秀的表现。
六、细节追究:每个设计选择都有理由
通过一系列消融实验,研究团队验证了Pico每个环节的必要性。
在校准对象的选择上,实验清晰地表明:只校准B矩阵效果最佳(整体均分0.4430)。校准A矩阵反而会损害性能(0.3916),同时校准整个更新量效果更差(0.3743)。这与理论分析完全吻合——A矩阵本就承载了足够的领域特异性,不应被破坏;问题症结确实集中在B矩阵。
最后的“幅度恢复”步骤是否多余?实验给出了否定答案。去掉此步骤后,整体均分从0.4430下降至0.3908。尽管方向校准正确,但整体更新信号过弱,导致在某些领域表现大幅下滑。幅度恢复确保了合并后的模型拥有足够的“表达力度”。
鲁棒性测试显示,Pico在不同LoRA秩(8, 16, 32, 64)的设置下均保持最优性能。特别是在TSV-M框架下,未校准时,性能随秩增大而显著衰减;而Pico加持下的TSV-M则稳定在0.43以上,完全抵御了这种衰减。
此外,在另一基础模型上的迁移实验,以及模拟实际应用的“渐进式合并”场景测试中,Pico都表现出了稳定的优越性和更强的鲁棒性。
七、为什么现有方法不够用,Pico的位置在哪里
梳理相关工作可以发现,现有大多数合并优化方法,无论是参数稀疏化、幅度采样,还是解决符号冲突或共享空间对齐,都是将ΔW=B×A视为一个整体来处理。它们从未深入探究:这个整体内部,A和B各自扮演了什么角色?问题究竟源于哪一部分?
Pico的独特价值在于,它直指问题的根源——LoRA分解的内部结构。它并非发明一种新的合并算法,而是在合并前对B矩阵这一特定源头进行修正。正因它是一个预处理步骤,才能以“插件”形式兼容任何现有的合并方法。
归根结底,这项研究揭示了一个被长期忽视的关键事实:LoRA模块中的A矩阵和B矩阵在训练中扮演着不对称的角色,因此在合并时必须区别对待。将它们混为一谈,就像合并乐队时只调节总音量,而不理会每件乐器的音色平衡,结果只能是混乱的合奏。
Pico所做的,就是在合并前仔细分析B矩阵的“声谱”,压制那些被所有“乐手”过度使用的频率,然后再进行融合。最终,合奏既保留了每支乐队的特色,又达成了和谐的整体效果。
这项研究给模型合并领域带来的最大启示,或许不仅仅是Pico这个具体工具,更是一种方法论层面的提醒:当复杂系统出现问题时,不应只停留在表面修补,而要敢于深入其内部结构,找到真正的不对称性,从而对症下药。对于AI技术发展而言,这意味着“将多个专业AI模块合并成全能助手”的愿景,正变得更加高效和可行。未来,我们或许能以极低的成本,快速整合出既精通编程、又通晓金融和医学的AI伙伴,而不必每次都耗费巨资从头训练。
Q&A
Q1:LoRA模型合并为什么总会导致性能下降?
A:核心原因在于B矩阵中存在大量被各任务共享的方向。直接合并时,这些共享方向被反复叠加,在最终结果中占据主导,而各任务独有的知识则被大幅稀释,导致模型在每个具体领域的表现都出现下滑。
Q2:Pico方法需要额外的训练数据吗?
A:完全不需要。Pico是一种数据无关的预处理方法,仅利用已有的各领域LoRA模块本身,通过对B矩阵进行奇异值分解来识别并校准过度共享的方向,不依赖任何额外数据,计算开销也很小。
Q3:Pico合并的效果能超过把所有数据混在一起重新训练的联合模型吗?
A:在该研究的实验设置下,经过Pico校准后再合并的结果,其整体表现超过了将所有领域数据混合后进行联合训练得到的模型。这表明,校准后的合并策略在节省大量训练成本的同时,有可能获得更优的性能。
相关攻略
行情越涨越危险——这不是悲观者的直觉,而是美银量化模型给出的警告。 美股正处在一个相当微妙的时刻:指数在刷新历史高点,但市场的波动率也在同步攀升。这种“涨价不降波动”的奇特组合,在历史上往往是市场进入泡沫阶段的典型信号。 本周,市场将迎来两大集中考验:FOMC利率决议,以及“科技七巨头”中五家的财报
从被动工具到主动管家:三星 AI 神系列产品用 AI 重塑家的温度 科技创新的浪潮,正以前所未有的速度重塑我们的生活方式。其中,智慧家居的渗透尤为深刻,它正悄然融入日常的每一个角落。将人们从繁琐的家务中解放出来,享受科技带来的那份从容与舒适,已成为现代家庭不言而喻的新追求。而在这场静默的变革中,以三
招标文件AI审核:如何实现快速与精准 想在短时间内高效完成招标文件的审核?借助AI文档审阅系统,整个过程可以变得既快速又精准。具体是如何一步步实现的呢?我们不妨拆解来看。 整个过程始于文件上传。用户只需将待审的招标文件上传至系统即可,这为后续的自动化处理打开了大门。 接下来是关键的一步——格式转换。
李开复AI公司零一万物被曝多处变动:计划拆分数字人业务,关停部分项目 最近,AI圈内又传出了新的动态。据《智能涌现》昨日援引多名独立信源的消息,由李开复创立的AI独角兽零一万物,近期内部进行了多处调整。 具体来看,这次变动主要体现在两个方面: 计划拆分数字人业务,由零一万物数字人业务研发负责人杨昌鹏
OpenAI未能实现2025年ChatGPT营收目标,也未能实现周活用户 10 亿目标 就在OpenAI紧锣密鼓筹备其备受瞩目的首次公开募股(IPO)之际,《华尔街日报》的一则报道,无疑给市场投下了一颗震撼弹。报道指出,公司在2025年未能达成ChatGPT的内部收入目标,那个周活跃用户数突破10亿
热门专题
热门推荐
霸王茶姬回应顾客喝出疑似水银物质:门店称流程不可能出现,正配合调查 近日,一则关于新茶饮的消费纠纷引发了广泛关注。据媒体报道,安徽宿州一位消费者反映,其在霸王茶姬砀山万达广场门店购买的饮品中,发现了疑似水银的液态金属物质。 根据消费者描述,事情始于饮用时尝到的异常颗粒感。随后仔细查看,竟在杯底发现了
2026款哈弗H9正式上市:硬派越野的全面进阶 4月28日,备受关注的2026款哈弗H9公布了最新动态。新车指导价定在19 99万至24 79万元区间,并推出了颇具吸引力的限时换新价——17 49万元起,顶配车型也仅需22 29万元。这个价格策略,无疑让硬派越野的门槛变得更亲民了。 外观:硬朗气场再
在Ubuntu系统中配置Ja va路径 在Ubuntu系统里配置Ja va环境,其实是个挺常见的需求。这事儿说简单也简单,核心就两步:设置好JA VA_HOME环境变量,再把Ja va的可执行文件路径加到PATH里。下面咱们就一步步来,把这事儿彻底搞定。 第一步:安装Ja va 如果你系统里还没装J
小米汽车发布五一假期专项售后服务,为车主出行保驾护航 五一假期将至,出行高峰随之而来。就在今天,小米汽车正式发布了针对2026年五一假期的专项售后服务保障方案。这项服务聚焦车主在假期出行中可能遇到的各类突发状况,推出了一系列重磅权益,覆盖了整个假期时段,从4月29日一直持续到5月6日。 此次专项服务
在Ubuntu系统中调整Ja va内存设置 在Ubuntu系统上运行Ja va应用,内存配置是个绕不开的话题。调得好,应用跑得飞快;调得不对,性能瓶颈甚至崩溃都可能找上门。好在调整方法并不复杂,关键得找准场景。下面这张图,可以帮你快速建立起一个直观的印象: 接下来,咱们就聊聊几种主流的调整路径,你可





