在评估 PEFT 效果时,我们真正应该关注什么?很多时候,大家的注意力都集中在那一两个下游任务的准确率上:微调之后,数学推理分数提升了多少?医学问答的准确率提高了多少?这固然重要,但问题在于,如果只看这个数字,你可能会忽略掉更关键的部分。

以 LoRA 为代表的参数高效微调(PEFT),如今几乎已成为大模型适配和继续训练的主流方案。相较于全量微调,它只调整少量参数,训练成本更低,任务切换也更加灵活。但一个容易被忽视的问题是:当模型为了赢得数学竞赛而不断强化技能点时,它原本具备的指令遵循能力、事实回忆能力或通用推理能力,是否正在悄悄流失?
这正是香港中文大学、西湖大学、德国马普所等机构的学者们试图系统回答的问题。他们提出的 PEFT-Arena,本质上是一套从“稳定性‑可塑性权衡”视角出发的评测与分析框架。该工作已在 ICLR 2026 相关 workshop 亮相,代码也已开源。
论文标题:PEFT-Arena: Understanding Parameter-Efficient Finetuning from a Stability-Plasticity Perspective
项目主页:https://spherelab.ai/PEFT-Arena
论文链接:https://arxiv.org/abs/2605.28819
代码链接:https://github.com/Sphere-AI-Lab/PEFT-Arena
只看下游准确率,问题究竟出在哪里?
传统的 PEFT 评测,最常问的是:微调后,下游任务的准确率提升了多少?数学微调,数学能力当然要提升;医学推理微调,医学表现自然应该变好。这本身没有错误。但大模型的真正价值,恰恰在于它从预训练中继承而来的那一套广泛能力——指令遵循、事实知识、阅读理解、通用推理……如果微调是以牺牲这些能力为代价来换取目标分数,那么一个漂亮的准确率数字,反而可能成为一个漂亮的误导。
PEFT-Arena 把这个困境重新表述为经典的稳定性‑可塑性困境:
可塑性:模型在目标领域学到了多少;
稳定性:模型保存了多少预训练的通用能力。
因此,一个值得信赖的 PEFT 方法,不能只看它能否把目标任务的分数提上去,更要看它是否以尽可能小的通用能力损失实现了这种提升。
基于这一思路,PEFT-Arena 搭建了一套双轴评测体系:一轴衡量目标域适配,一轴衡量通用能力保留。在实验层面,他们选择 Qwen2.5-7B 和 Llama3.2-3B-Instruct 作为基座模型,在数学与医学推理两个目标域上,分别进行监督微调(SFT)和基于验证奖励的强化学习(RLVR)训练,然后用 IFEval、Natural Questions(NQ)、BBH 等任务来评估通用能力的保留情况。
把“学到了多少”与“忘掉了多少”放在同一张图里
PEFT-Arena 提供了一张二维评估图:横轴是通用能力(稳定性),纵轴是目标域性能(可塑性)。理想的方法当然落在右上角——既能高效完成目标适配,又能完好保留通用能力。
这张图暴露了一个事实:几乎所有方法都在稳定性‑可塑性之间做取舍,但不同方法给出的平衡点差异很大。全量微调往往能收获最强目标域表现,但代价是通用能力明显下滑。LoRA 等低秩方法相对保守,但遗忘仍可能不容忽视。PiSSA 在某些设置下表现得更为极端:目标分数可能提得很高,但通用能力损失也相当严重。VeRA 对通用能力的保持相对稳定,但目标域的提升空间也有限。
相比之下,正交微调(OFT)常常落在一条更具竞争力的“目标‑保留前沿”上:它不一定登顶目标分数,但在相近的目标收益下,它能保留更多的通用能力。
举个例子,在 Qwen2.5-7B 的 SFT 数学实验中,全量微调虽然把目标分数拉上去了,但通用分同步暴跌。而 OFT 则在目标提升与通用保留之间找到了一个更均衡的落点。
另一个值得注意的现象来自 RLVR。相对于 SFT,RLVR 在主要的评估设置下,通常表现出更弱的通用能力遗忘。在某些设定中,它甚至能在提升目标任务的同时,保持甚至提高通用分数。
不过,作者也观察到,较长时间的 RLVR 训练在 high-k 采样评估下,可能会暴露出另一类退化:pass@1 仍然稳定,但 pass@64 等高采样指标开始下滑。这说明,RLVR 的训练动态也需要从路径层面加以诊断,不能只看最终 checkpoint 的单点结果。
说到底,PEFT-Arena 并不是简单地给各种 PEFT 方法排座次,而是想推动一个问题焦点转移:从“谁的下游准确率更高”转向“哪种 PEFT 方法能以最少的预训练能力损失,获得足够的目标域适配”。
从分数到机制:遗忘到底是怎么发生的?
评测基准告诉我们的是“发生了什么”,但未必能解释“为什么”。PEFT-Arena 进一步从模型几何的角度做了内部分析,主要聚焦于两个维度:权重空间几何与激活空间几何。
权重空间:PEFT 的更新,到底动在了参数矩阵的哪些地方?
作者先将预训练权重矩阵沿奇异向量基底进行分解,然后观察微调后的有效权重相对于原始谱结构的偏移。分析涉及两个核心视图:
结构保留视图:衡量微调后的权重,还在多大程度上保留着预训练时的奇异结构;
更新能量视图:衡量微调的更新,主要集中在了哪些预训练方向上。
这种分析有助于回答一个问题:不同 PEFT 的参数化方式,究竟是在平滑地调整预训练的几何结构,还是在少数方向上制造出尖锐集中的扰动?比如,LoRA 这类低秩方法倾向于产生集中的更新模式;PiSSA 与主奇异方向的交互更强,可能带来更大的结构扰动;而 OFT 因为采用正交参数化,更倾向于保持权重谱的原始几何特征。
为了进一步建立权重更新与具体能力指标之间的关联,作者还引入了能力条件化漂移(CSD)。
其直觉是:同样的权重更新,对不同数据分布的影响是不一样的——如果某类通用数据激活了那些被大幅更新的方向,它就更可能受到干扰。CSD 正是用来量化权重更新在通用领域与目标领域数据上引发的激活扰动。
实验显示,通用领域数据的 CSD 与遗忘之间存在关联,而目标领域 CSD 并不能简单预测目标分数。这也提示我们:通用能力的保留,往往更容易从“表示是否被破坏”中观察到;而目标域性能的提升,尤其是在推理任务中,可能更多取决于模型是否产生了与目标对齐的推理过程变化。
激活空间:遗忘的关键在于“几何结构是否被扭曲”
只看权重更新还不够。一个更新可能移动了激活,但这种移动未必有害——举个例子,一个近似整体的旋转变换,虽然改变了每个向量的坐标值,却可以保留样本间的相对关系。
因此,PEFT-Arena 进一步比较了预训练模型与微调后模型在通用领域数据上的激活表示,核心问题是:
微调之后,预训练模型原本组织好的样本关系是否还在?
作者引入了三种表示几何度量:
Procrustes 残差:先用最佳正交变换对齐微调前后的表示,再测量仍然无法对齐的那部分结构性变化;
Gram 矩阵失真:比较微调前后,样本间成对相似度矩阵的变化;
中心核对齐(CKA):作为标准的表示相似性指标,衡量微调前后的表示相似度。
结果显示,这些度量与遗忘程度存在较强的关联:Procrustes 残差和 Gram 失真越高,遗忘通常越严重;CKA 越高,通用能力保留越好。OFT 虽然也会移动表示,但它更倾向于保持表示的几何结构;PiSSA 则表现出更强的非等距扭曲,相应的遗忘也更严重。
这给出了一个更清晰的解释:
遗忘的关键,不在于“激活移动了多少”,而在于“通用表征的几何结构是否被破坏”。
这也可以解释,为什么 OFT 在 PEFT-Arena 中表现出的权衡更优——它并非完全不改变模型,而是更倾向于以保持几何结构的方式完成适配。
插值路径:最终模型不一定是最优操作点
除了对比初始模型和最终模型,PEFT-Arena 还对微调路径本身做了分析。一个最终的 checkpoint,只是整条适配路径上的一个点;模型可能在已经获得大部分目标收益之后,还在继续移动,而最终的那些额外移动,可能主要是在损害通用能力。
为此,作者用插值来诊断所谓的“SFT 过度适配”现象:在基础模型与微调后模型之间进行参数插值,观察目标性能和通用性能随插值系数的变化曲线。
实验发现,在许多 SFT 设定中,中间的插值点既能保留大部分目标收益,又能恢复相当多的通用能力。换句话说,最终的那个 checkpoint,并不总是目标能力与预训练能力保留之间的最优权衡点。
需要强调的是,对不同 PEFT 方法而言,插值必须在它自然的参数化几何路径上进行。比如 OFT,普通的线性权重插值会偏离 OFT 的正交参数化路径,从而扭曲谱结构;而沿 Cayley 生成元进行的插值,则能使它保持在正交变换的几何路径上。
这一观察进一步说明:不同的 PEFT 方法,需要各自相宜的参数空间轨迹来展开合理分析。
基于路径分析,作者还尝试了“路径回退”的思路:对已有的微调后 checkpoint 施加不同强度的回退,在不重新训练的前提下改善目标‑保留权衡。论文主要以 OFT 的逐层回退为例,并在附录中展示了类似思路在 LoRA、MiSS 等加性 PEFT 方法上的结果。
为什么这项工作值得关注?
PEFT-Arena 的价值在于,它把 PEFT 的评测,从单一目标任务分数,扩展到了目标适配与能力保留的双轴空间。这样一来,不同方法之间的权衡,不再被掩藏在一个下游 accuracy 数字后面,而是可以被直接比较。
更重要的是,这项工作并没有停留在 benchmark 排名上,而是试图解释这些差异的根源。权重谱分析、CSD 和激活空间几何共同指向一个结论:遗忘往往对应着模型内部表示结构的破坏。
插值分析则提供了一个实用的后续视角:final checkpoint 不一定是最好的权衡点。对于已有的微调模型,沿着合适的路径做一个 post-hoc rewinding,也可能找到一个更好的目标‑保留权衡。
