Scaling Law的真相，藏在那些“没用”的参数里_AI热点日报

大语言模型的参数冗余并非浪费，在训练中为长尾知识提供隔离空间，并作为注意力下沉的数值泄压口；在推理时则构成多步推理的跨层骨架。这些看似“闲置”的参数实则支撑了模型的关键能力。

大语言模型中的参数冗余并非浪费，而是在训练、推理、后训练等生命周期中扮演着四种截然不同的关键角色。本文将从“参数冗余谜题”出发，层层拆解这些看似“吃空饷”的参数背后的真实作用。

那条光滑的幂律曲线背后，从来没有什么免费的冗余。

为什么会有“参数冗余”的错觉？

自从 Jared Kaplan 等人在 2020 年画出那条幂律曲线，Scaling Law 就成了大模型时代最重要的经验法则。参数越大，模型越强，成了定理。

但在 2024 年，百川智能发表了一篇名为 ShortGPT 的论文。他们直接把 LLaMA-2-13B 的 40 层 Transformer 砍掉了 10 层。结果模型在 MMLU 上的得分却仅仅从 55.0 跌落到了 52.2。

ShortGPT 删层实验，逐层移除后 PPL（左）与 MMLU（右）几乎不变，深层尤其稳（图源 Men et al. 2024, Fig.1）

四分之一的层没了，核心知识基准却几乎毫发无损。

随后，牛津大学在 2025 年发表的研究《大语言模型中的深度诅咒》（The Curse of Depth in Large Language Models）又重现了这个现象。他们发现，大模型深层网络里相邻层的输出几乎是完全同质化的，把这些层直接抽走，性能不仅没崩，甚至有时还会微微反弹。

这似乎说明，大模型里有大量的层都在「吃空饷」。

如果这些参数都在空转，Scaling Law 就变得很可疑了。我们是否真的有必要要这么多的参数？它们真的在给模型带来好处吗？

这就是 Scaling Law 的一个重要谜题，即参数冗余谜题。

过去两年，最顶尖的 AI 研究者们开始了一场向微观下潜的战役。试图从各个角度去破解这一谜题。在这一过程中，也将 Scaling Law 从「经验公式」升级为「物理定律」。

两年之后，这些孜孜不倦互相印证的研究，终于构成了一张网络，来部分解释了这些冗余参数的机理和作用。

如果把模型的一生拆开，将训练、推理、后训练（微调）这三段账分开来算，你会发现，这些被统称为「冗余」的参数，其实在不同阶段扮演着四种截然不同的角色。