智能手机中的导航应用、在线客服机器人、智能邮件撰写助手——这些日常工具的背后,都离不开或大或小的语言模型在默默支撑。但这些模型拥有的"智慧大脑"究竟有多大?顶尖大语言模型通常拥有数百亿乃至数千亿个参数,犹如一本内容浩如烟海的百科全书。要让这样一个庞大的"大脑"高效运转,对计算资源的消耗极为惊人,绝大多数普通设备根本无法承载这个负担。正是基于这一挑战,如何在尽可能不损失智能水平的前提下,为这些AI大脑进行"瘦身",已成为整个AI领域最受关注的研究课题之一。
近期,一项由丹麦奥尔堡大学哥本哈根分校、意大利热那亚大学、欧洲核子研究中心(CERN)以及美国Ceva公司联合攻关的研究,提出了一种名为SigmaScale的全新方案。其核心理念是:与其被动地对模型进行裁剪,不如主动地"重新排列权重的内在排列方式",从而实现更精准、更高效的压缩。该研究成果已于2026年6月以预印本形式公开,论文编号为arXiv:2606.07098。对此技术细节感兴趣的读者,可通过该编号在arXiv平台查阅完整的论文原文。
一、为什么AI大脑需要"减负",以及减负面临的挑战
我们不妨用一个形象的比喻来说明。一个拥有数百亿参数的大语言模型,就像一座规模宏大的图书馆,馆藏了亿万册书籍。每当有人提出一个问题,图书馆的所有工作人员必须同时就位,翻遍所有书架才能找到答案。这种方式固然保证了准确性,但能耗和成本高得令人咋舌。普通家庭的书房不仅无法容纳,更不用说提供足够的电力支持了。
AI压缩技术所要解决的,正是如何将这座巨型图书馆"搬迁"到一个小型书斋中,同时保留其最核心的知识精华。当前主流的压缩方法主要有几条技术路线。量化技术好比将精装书换成轻便的口袋书,字迹缩小但内容保持不变;剪枝技术则像是直接拆除那些极少被使用的书架;知识蒸馏则是让一个大模型充当"导师",将知识传授给一个小"学生"模型。而本文所探讨的"低秩分解",则是一种更偏向数学层面的操作——将一本厚重的百科全书拆分为两本相对较薄的书籍,这两本书合并后能够还原出原书的大部分内容。
低秩分解的优势在于,它不需要依赖特殊的硬件支持,并且可以与量化、剪枝等技术组合使用,灵活性非常强。实现低秩分解最经典的数学工具是"奇异值分解",简称SVD。用图书馆的比喻来解释就是,SVD会对图书馆中的所有书籍按重要性进行排序,然后只保留最重要的那一部分,将其余的部分舍弃掉。
然而,问题也随之而来:如果直接对神经网络的权重矩阵应用SVD进行压缩,效果往往不尽如人意。其根本原因在于,这些权重矩阵中可能包含一些"异常值",就像图书馆里有几本非常偏门、但被特定读者群体极度依赖的书籍。如果SVD不加区别地按照统一标准进行排序,这些特殊的书籍就可能被误删,导致模型在某些特定任务上的表现大幅下滑。
此前,学术界已经提出了一些改进思路,其核心是在执行SVD之前,先对权重矩阵进行一次"预处理"——利用一个缩放矩阵S对权重进行变换,使矩阵的内部结构更适合压缩,然后再执行SVD。代表性的工作包括ASVD和SVD-LLM。前者通过吸收激活值中的异常值来改进缩放效果,后者则通过对激活协方差矩阵进行Cholesky分解来对齐奇异值与压缩损失。然而,这些方法中缩放矩阵S的获得方式都是通过"解析推导"完成的——也就是说,S是根据某个数学公式一次性计算出来的,而非通过不断迭代、优化得到的。
SigmaScale研究团队提出了一个截然不同的问题:如果我们不去主动推导S,而是直接让机器自己去"学习"出最优的S,结果会怎样?
二、SigmaScale的核心思路:让缩放矩阵自我"进化"
在深入理解SigmaScale的具体操作之前,我们先确定一个核心比喻:整个压缩过程就像先将一张皱巴巴的地图熨烫平整,然后再折叠成一个小包。
原始的权重矩阵就像是那张满是褶皱的大地图,信息密集,而皱褶(即异常值和不均匀的信息分布)使得折叠(压缩)时总是会丢失关键的细节。缩放矩阵S则相当于一把熨斗,它可以在折叠之前将地图熨平,从而在后续折叠时尽可能减少信息丢失。以往的方法是根据地图上皱褶的位置来直接推算熨斗的温度和运动轨迹(即解析推导)。而SigmaScale的方法则是:先将熨斗放在地图上,观察折叠后的效果,并根据效果的反馈不断调整熨斗的压力和角度,直到折叠效果达到最佳(即梯度优化学习)。
在技术实现上,SigmaScale为每个权重矩阵分别准备了两组可学习的向量,分别负责行方向和列方向的缩放,合称为dr和dc。通过对这两个向量取指数运算,就可以获得始终为正的对角缩放矩阵Sr和Sc(因为指数函数的值恒为正,确保了缩放是一种合法的线性变换)。整个过程是:首先利用Sr和Sc对原始权重矩阵W进行行列缩放,得到一个被"熨平"的新矩阵;随后,对这个新矩阵执行SVD截断压缩;最后,再将缩放的效应"撤销",还原回原始参数空间中的低秩近似矩阵W'。
为了衡量压缩效果的好坏,研究团队设计了一个"激活感知损失函数":将原始权重矩阵W和压缩后的矩阵W'分别应用于一批真实的输入数据X,并比较两者输出结果之间的差异。这批输入数据来自一个"校准集"——研究中使用了Wikitext数据集中的训练子集,共包含32条长度为2048个单词的文本。输出差异越小,说明压缩后的模型"行为"与原始模型越接近。
在优化过程中,梯度(即告诉"熨斗"应向哪个方向调整的反馈信号)需要经过SVD这一步向前传播。然而,SVD的导数在数学上存在不稳定点(当两个奇异值非常接近时,分母趋近于零,导数会爆炸)。研究团队采取的应对策略是:一旦检测到这种不稳定的情况,就跳过本次更新步骤。实验结果表明,即使部分步骤被跳过,损失函数依然能够正常收敛,并通常会触发早停机制,证明这种"容错"处理方式在实践中是可行的。
整个缩放矩阵的训练过程在两张Nvidia H100 GPU上进行,每个实验条件(一个模型加上一个压缩比例)平均耗时约45.5小时。相比之下,后续的后压缩微调在两张AMD MI300X GPU上仅需约2小时。
三、流水线全貌:从"敏感性探测"到"后压缩微调"
SigmaScale的完整工作流程可以分解为三大阶段,就好比对地图进行加工处理需要经历:先量体裁衣,再熨平折叠,最后修边整形这三道工序。
第一道工序是"敏感性探测",其目的是为模型的每一层、每一个权重矩阵确定合适的压缩力度。不同的矩阵对压缩的承受能力各不相同,就像地图上不同区域的褶皱程度不同,有些地方可以大幅折叠而不丢失信息,而有些地方则必须保留更多的细节。研究团队预先设定了从10%到90%共九个压缩比例档位,压缩比例越高,意味着保留的参数越少。对于每个压缩档位,他们单独对模型的每一个注意力权重矩阵和MLP权重矩阵进行一次简单的SVD截断,并测量模型困惑度(一个衡量语言模型预测能力的指标,数值越低表示性能越好)的变化。通过这一步骤,研究团队可以识别出哪些矩阵对压缩特别敏感,从而应保留更高的秩,而哪些矩阵的压缩容忍度高,可以被大幅削减。
随后,研究团队使用了ASVD论文中提出的二分搜索算法来寻找最优的全局压缩方案:在达到目标整体压缩比例的前提下,找到一组能使模型困惑度增加最小的各层截断秩组合。这就好比在预算有限的情况下,合理分配经费给各个图书馆分馆,以使得整体服务质量的下降幅度最小。
第二道工序就是前文详述的"学习缩放矩阵并执行SVD压缩",这是SigmaScale的核心创新所在。每个权重矩阵都独立地训练自己的一对缩放向量dr和dc。学习完成后,这些缩放向量被用来构造最终的低秩矩阵L和R,并以W' = LR的形式替换原来的权重矩阵。
第三道工序是"后压缩微调",相当于地图折叠后的"修边整形"过程。压缩不可避免地会引入一些误差,从而导致模型性能下降。后压缩微调的目的就是通过在真实数据上继续训练,让模型重新找回丢失的性能。研究团队主要使用Alpaca数据集(一个包含指令跟随样本的数据集)进行一个完整轮次的微调,并且只优化那些被压缩修改过的权重矩阵,而保持其他部分冻结不变。
此外,研究团队还对比了两种微调范式:一种是传统的监督微调(直接让模型学习正确答案),另一种是知识蒸馏(让一个未压缩的完整模型作为"老师",将其输出的概率分布作为"软标签"来指导压缩后的"学生"模型进行学习)。研究团队的知识蒸馏损失函数将KL散度(用于衡量两个概率分布差异的指标)和标准交叉熵损失以0.7:0.3的权重组合使用。
四、在真实大模型上的实验:哪些场景下SigmaScale表现更优
研究团队在两个真实的大型语言模型上进行了验证:Meta发布的Llama 3.1 8B Instruct(80亿参数的指令跟随版本)和阿里发布的Qwen3-8B(同样具有80亿参数)。压缩比例分别设置为保留90%参数、保留75%参数和保留50%参数三个档位,对应的压缩力度从轻到重。
在评估指标方面,研究团队使用了两个类别。第一个是"困惑度",在Wikitext2测试集(包含141条、每条2048词的文本)上进行测量,数值越低表明性能越好,它反映了模型对语言的整体预测能力。第二个是五个零样本推理基准测试,包括OpenBookQA(开放书籍问答)、ARC-Easy(科学推理)、WinoGrande(常识填空)、PIQA(物理常识推理)和HellaSwag(句子补全)。这些测试用于衡量模型在没有任何示例辅助的情况下回答问题的能力,报告的是长度归一化准确率。
在对比基准方面,研究团队与SVD-LLM和ASVD+进行了直接比较,并统一了超参数设置以确保评估的公平性。
在Llama 3.1 8B Instruct上,保留90%参数时,SigmaScale的困惑度为8.95,ASVD+为8.26,SVD-LLM为13.31,原始未压缩模型为7.21。可以看到,SigmaScale在SVD-LLM基础上有显著改善,但略逊于ASVD+。然而,在五个零样本基准测试中,SigmaScale的综合表现相当出色:ARC-Easy达到78.62%,WinoGrande达到73.32%,PIQA达到79.54%,HellaSwag达到75.98%,这些数字均优于ASVD+,甚至在某些指标上接近未压缩模型。加入知识蒸馏后(SigmaScale KD),困惑度进一步降至8.70,零样本性能也略有提升。
保留75%参数时,情况出现了分化。SigmaScale的困惑度为18.48,而ASVD+只有13.67,SVD-LLM为18.15。在这个指标上,SigmaScale并不占优势。但在零样本基准测试中,SigmaScale在多个任务上依然表现更佳。OpenBookQA达到36.80%,ARC-Easy达到63.89%,WinoGrande达到62.43%,PIQA达到73.78%,HellaSwag达到61.41%,均高于两个对比方法。知识蒸馏版本将困惑度降至17.90,零样本性能也略有改善。
保留50%参数时,SigmaScale遇到了明显的困境。Llama 3.1的困惑度飙升至138.63,远高于SVD-LLM的39.83和ASVD+的48.39。这表明,在极端压缩下,SigmaScale学到的缩放无法挽救被丢弃的大量奇异值所携带的信息。尽管知识蒸馏将困惑度从138.63降至121.85,但仍然远高于对比方法,实用性大打折扣。在零样本基准测试上,SigmaScale此时也基本失去了优势。
在Qwen3-8B上,整体规律相似,但表现略好。保留90%参数时,SigmaScale困惑度为10.89,SVD-LLM为11.51,ASVD+为10.11,基线为9.72,SigmaScale夹在中间。在零样本基准测试上,ARC-Easy达到80.18%,PIQA达到77.75%,HellaSwag达到68.09%,均优于SVD-LLM,部分指标优于ASVD+。保留75%参数时,SigmaScale困惑度14.68略高于ASVD+的12.34,但在零样本基准测试中的ARC-Easy(74.28%)、OpenBookQA(40.40%)等任务上具有明显优势。保留50%参数时,Qwen3的情况比Llama 3.1要好一些,困惑度31.92虽然高于SVD-LLM的21.84,但在零样本基准测试的ARC-Easy(57.00%)上甚至超过了SVD-LLM(55.51%),这说明Qwen3的架构可能对这种压缩方式的适应性更强。
关于知识蒸馏与监督微调的对比,研究结果显示两者之间的差异并不大,这与此前某些工作中知识蒸馏大幅优于监督微调的结论有所不同。这一发现表明,SigmaScale的性能主要源自缩放矩阵学习阶段本身,而非后续的微调方式。
五、内部探秘:缩放究竟对矩阵产生了什么影响
除了宏观的基准测试,研究团队还深入分析了学习到的缩放矩阵在微观层面如何影响权重矩阵的结构。这部分分析揭示了SigmaScale之所以有效的底层机制。
研究引入了"有效秩熵"这一概念来度量权重矩阵"信息的分散程度"。我们可以借助图书馆的比喻来理解:一个高有效秩熵的矩阵,就像一个馆藏分布非常均匀的图书馆,每本书的重要性都相差无几,很难判断哪本书可以丢弃;而一个低有效秩熵的矩阵,则像一个大部分知识都集中在少数几本核心书籍中的图书馆,其余书籍可以大量精简而不会造成太大损失。显然,后者更容易被低秩分解所压缩,因为少量奇异值就能承载大部分信息。
通过实验观察,研究团队发现:在学习缩放向量dr和dc的过程中,压缩损失和有效秩熵会同步下降。也就是说,熨斗在将地图熨平的同时,还促使信息更加集中于少数几条"主轴"上,从而使得后续的折叠压缩能够保留更多的核心内容。更重要的是,这两个指标的变化之间存在极强的相关性——对于Llama 3.1的七种模块类型,损失下降与熵下降的相关系数介于0.814到0.923之间,这是非常高的统计相关性。
具体来看各模块的数据。在MLP的三种投影矩阵中,门控投影(gate_proj)的平均压缩损失下降了31.1%,有效秩熵下降了2.2%;上行投影(up_proj)的损失下降了33.7%,熵下降了1.8%;下行投影(down_proj)的损失下降了22.4%,熵下降了0.3%。在注意力机制的四种投影中,查询投影(q_proj)的变化最为显著,损失下降了32.4%,熵下降幅度高达8.5%;键投影(k_proj)的损失下降了44.3%,熵下降了6.3%;值投影(v_proj)的损失下降了33.7%,熵下降了2.5%;输出投影(o_proj)的损失下降了20.8%,熵下降了4.9%。在Qwen3-8B上也观察到了类似的规律,各模块的损失与熵降低的相关系数同样在0.862到0.908之间。
从奇异值分布的可视化图中可以看出,经过缩放矩阵变换后,较高的奇异值会进一步被放大,而较低的奇异值则略有压缩。这种效果使得奇异值分布变得更加"头重脚轻"——最重要的一批奇异值更加突出,从而在截断时能够保留更多的信息量。
研究团队还进行了一组对比实验,分别只训练行缩放、只训练列缩放,以及同时训练行列缩放,测试对象是Llama 3.1 8B第30层的键值矩阵(在80%截断率下)。结果显示,只训练行缩放时,损失为0.2780;只训练列缩放时,损失为0.2120;而同时训练行列缩放到达到最佳效果,损失为0.2060。在三种情况下,有效秩熵分别从基准的827.88降至817.00、793.00和791.79。此外,对于先训练行再训练列(序贯方式)与同时联合训练的对比实验表明,联合训练(损失0.206)略优于序贯训练(损失0.215)。这些结果支持了研究团队在最终方法中采用联合行列缩放的设计选择。
六、额外实验:更换数据集进行微调的影响
研究团队还进行了两组额外实验,以探索不同的后压缩微调数据对结果的影响。
第一组额外实验使用了一个自制的"Llama-Alpaca"数据集。原始的Alpaca数据集包含指令跟随样本,但研究团队使用Llama 3.1 8B Instruct模型本身为每条指令生成了三个不同的回答,目的是增加样本的多样性,同时让微调数据更接近目标模型的输出分布。实验还比较了"每条指令使用3个回答训练1轮"和"每条指令使用1个回答训练3轮"两种训练方式。结果显示,Llama-Alpaca数据集带来了一些小幅改善,在25%压缩率下困惑度有大约1分的提升,但在零样本基准测试上的变化非常有限,总体来说是"有帮助但不显著"的改进。在知识蒸馏条件下,75%保留率的模型困惑度最低可以降至15.71(KD=1,即完全依赖知识蒸馏损失)。
第二组额外实验直接使用Wikitext训练数据进行后压缩微调,采用语言建模(预测下一个词)的方式训练。这种做法在困惑度上带来了一定提升(90%保留率时困惑度降至7.89,非常接近未压缩模型的7.21),但代价是零样本基准测试性能全面下降——ARC-Easy从77.57%下降,HellaSwag从75.83%下降。这说明使用Wikitext微调会让模型在"预测维基百科文本"方面变得更好,但对通用推理能力有所损害,存在明显的过拟合倾向。
七、这项研究的价值边界与未来方向
研究团队对SigmaScale的有效性边界进行了坦诚的分析。SigmaScale的核心价值在于改善奇异值截断的质量,帮助保留权重矩阵的主要结构。这意味着它在"轻度到中度压缩"场景下效果最佳——当保留90%到75%的参数时,学习到的缩放可以使最重要的奇异值更加突出,从而减少截断带来的信息损失。
然而,当压缩达到极端程度(保留50%参数)时,保留的低秩子空间可能实在太小,学习缩放已经无法弥补被丢弃的大量奇异方向所携带的信息。这就好比无论地图熨得多平,一旦只允许折叠到原来十分之一的大小,许多细节必然会消失。从这个角度来看,SigmaScale应被理解为一种"在保留秩的前提下提升截断质量"的机制,而非一种能够支撑极端低秩压缩的完整解决方案。
在计算开销方面,每次学习迭代都需要完整执行一次SVD,这本身具有O(n³)的计算复杂度,对于大型矩阵而言代价不菲。研究团队指出,探索更快速的近似SVD方法(如随机化SVD)是未来改进的一个重要方向。
此外,研究团队坦承,目前对校准数据的选择(Wikitext)可能并非最优,这只是为了与对比方法保持一致。探索不同校准数据分布对缩放矩阵学习效果的影响,以及为不同规模和架构的模型寻找更好的初始化策略,都是值得后续探索的方向。研究团队还指出,当前的评估仅限于困惑度和特定的零样本基准测试,对长文本生成和代码任务的效果尚未进行验证,对不同校准分布的鲁棒性也未经正式测试。
归根结底,SigmaScale的贡献在于提出并验证了一个新的可能性:与其用数学公式一次性推导出缩放矩阵,不如通过梯度优化让机器自己去探索最适合每个权重矩阵结构的缩放方式。这种更灵活的路线在轻中度压缩场景下展现出了与现有最优方法相当甚至更好的零样本任务表现,为基于SVD的大模型压缩方法设计提供了一条新思路。
总的来说,这项研究讲述了一件很朴素的事情:要将一张大地图折叠得更精准,与其依靠公式推算熨烫方法,不如让熨斗自己在反复试验中找到最适合这张地图的熨烫方式。对于那些希望在普通设备上运行强大语言模型的开发者和研究者来说,这种灵活性或许正是他们所期待的。对完整技术细节感兴趣的读者,可以通过arXiv编号2606.07098查阅原文。
Q&A
Q1:SigmaScale与ASVD、SVD-LLM这些方法相比,究竟哪个更优秀?
A:不存在绝对的"更优秀",这取决于具体的使用场景。在90%参数保留的轻度压缩场景中,SigmaScale在零样本推理基准测试上普遍优于SVD-LLM,与ASVD+相比,则在某些任务上表现更好,但在困惑度上略逊一些。当压缩到75%时,SigmaScale在零样本任务上仍具竞争力,但困惑度已落后于ASVD+。然而,在极端压缩到50%时,SigmaScale明显不如对比方法,因此不适合这种场景。
Q2:大语言模型压缩后还能正常使用吗,效果会下降多少?
A:这主要取决于压缩的力度。在轻度压缩(保留90%参数)时,经过SigmaScale压缩的Llama 3.1在ARC-Easy推理任务上的准确率从79.63%降至约78%,损失极小,日常使用基本感受不到差异。中度压缩(保留75%参数)时性能会有所下降,但仍可用于对精度要求不高的场景。而极端压缩(保留50%参数)则会导致较大的性能损失,因此在需要高准确性的任务上需谨慎使用。
Q3:SigmaScale训练缩放矩阵需要多少计算资源,普通研究者能否进行复现?
A:目前其计算成本较高。每个实验条件(一个模型加一个压缩比例)在两张Nvidia H100 GPU上平均需要约45.5小时,属于需要较高算力的研究级方法。后续的后压缩微调仅需两张AMD MI300X GPU运行约2小时,成本相对合理。对于没有高端GPU集群的普通研究者,短期内完整复现实验存在一定门槛,但随着近似SVD方法的引入,未来的计算成本有望大幅降低。
