大模型架构的下半场

首页

大模型架构的下半场

热心网友

转载

2026-04-20

深度扩展的隐忧：当层数增长遇上停滞的通信

过去十年，深度学习领域取得进展的方式出奇地一致：什么都往大了整。更多参数、更多数据、更长上下文。而且确实管用：损失在降低，能力在增长，扩展定律精确地指引着研究团队还需要投入多少资源。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

但不同的扩展方向，其内涵和难度天差地别。序列长度的扩展需要真正的创新，也确实催生了一整套机制研究和系统工程。数据的扩展则直截了当：数据越多，损失越低。相比之下，让模型变得更宽、更深，看起来似乎和数据扩展一样简单直接。

然而，宽度和深度真的在同等地发挥作用吗？

答案是否定的。深度在数量上增长了，但在质量上却没有。层与层之间的通信机制，在过去近十年里几乎没有发生根本性的变化。这一点至关重要，它不仅关乎网络深度本身，更揭示了研究团队在设计神经网络架构时的一个集体盲区。

研究者们花了十年时间去扩展层内的计算能力，却忘了同步扩展层间的通信能力。这件事，亟需改变。

上半场

要看清上半场做对了什么，最好的方法就是审视哪些维度被成功地扩展了，以及是如何做到的。

先看序列长度。早期的Transformer只能处理几百个token。要达到128K甚至更长，需要多个方向上的持续创新：新的注意力模式（稀疏、线性、混合）、系统工程（如FlashAttention）、位置编码的进步（如RoPE扩展）。研究者和工程师们共同建造了一整个生态，持续改进token之间的通信方式。回报是丰厚的，团队不仅能够处理极其长的文档，还为OpenAI-O1和DeepSeek-R1这类模型的长链推理能力奠定了坚实基础。这就是当团队认真投资于“信息在序列维度上的流动方式”时，所收获的斐然成果。

△现代LLM中的参数与数据规模迅速增长

参数和数据的扩展，则是最符合人类直觉的部分。从深度学习的最早期开始，每本教科书都在教授同一套配方：更多数据、更宽的层、更深的网络，自然带来更好的表征能力。从GPT-2的15亿参数到如今的数万亿规模，这套配方一直管用。这似乎说明，大模型团队不需要引入新机制，只需要持续拓展这些已被验证的方向。

只不过，对神经网络而言，“更宽”和“更深”往往并不是一回事。宽度的扩展是自然而然的：现代GPU天生擅长处理更宽的矩阵乘法，注意力机制的演进也越来越高效，这使得更宽的网络可以无缝接入现有架构。

而深度，则是另一个故事。模型确实变深了：从几十层加到上百层。但层间通信的核心机制，本质上还是ResNet在2015年引入的深度残差连接，即那个经典的“x + F(x)”。自它诞生以来，围绕它有过不少改良（如归一化位置、残差缩放、跨层连接），但没有任何改良真正取代过那个深度残差中“+”的决定性地位。

残差连接可以说是深度学习中最重要的基石之一。没有它，就没有上百层的Transformer，没有现代大语言模型，也没有所谓的扩展定律。但基础性方案有一个特点：它们有时会变得太过隐形，以至于没人再去质疑它到底是最优解，还是仅仅是探索出的第一个能用的方案。

打个比方，想象一个有特殊规则的传话游戏。在标准版本里，第1个人对第2个人耳语，第2个人再对第3个人耳语。传到第18个人时，消息早已面目全非。这就是没有残差连接的深层网络：每一层只能看到上一层的输出。

残差连接修复了这个问题：每个人在传达自己理解的同时，也把之前积累的原始信息原封不动地往下传。第3个人既能听到第2个人的新解读，也能听到之前的所有内容。原始信号始终被保留，它成为了不断壮大的合唱中的一个声部。

但问题来了：到了第152个人，你同时在听152个声音——原始信息加上151层叠加上去的内容，全部混在一句耳语里。理论上，前面那些人的声音依然存在，但它们已经被淹没了。如果第152个人需要知道第3个人具体说了什么，他得费力地从这首宏大的合唱声中把它挑出来。

△消息累加的传话游戏中，靠后的人依然难以分辨出所需的内容

通常而言，第152个人是做不到这一点的。

这就是信息稀释。每一层都面临两难：倘若该层贡献新信息，就可能会掩盖之前的内容；但若保守不动，则能保留之前层传过来的已有信息。在这种状况下，很多层学会了“保守不动”，它们几乎不往残差流里写入任何实质性的新东西。这样的深度网络在纸面上很深，实际上却很浅。团队堆了152层，但其中很多层却只学会了保持沉默。

这里的瓶颈不在于152层网络所需求的算力，而在于信息穿过这些层的通信能力。CPU的发展在几十年前就撞过同样的墙：处理器越来越快，直到内存带宽跟不上了，逼得整个行业转向缓存和通信优化。组织管理也一样：一群聪明人所能发挥出的创造力，也受限于他们之间的沟通与协作方式。深度学习正在经历自己的版本：十年来不断增强每一层的能力，而层与层之间的通道，始终是2015年那条“单车道公路”。

那么，有没有更好的机制？

配方

在本文所介绍的研究之前，已经有很多研究者注意到了深度瓶颈。多年来，修补方案越来越巧妙：例如获评CVPR最佳论文的DenseNet，它保留了每一层的输出，但代价是平方级的开销。使用可学习加权的方案，如DenseFormer、LIMe，降低了成本，但训练完成后权重就固定了，每个token、每套上下文都使用同样的权重，缺乏灵活性。

字节跳动的Hyper-Connections和DeepSeek的mHC另辟蹊径，它们把管道拓宽到N个通道，层间用混合矩阵连接，这相当于信息高速公路上同时多了好几条车道。但坏消息是，信息仍然在逐层流动，第152层没有办法直接回溯到第3层去获取信息。

彩云公司的MUDDFormer让混合每层输出这件事变成动态的，它会根据每个token的表征来生成权重。这在根本方向上是对的：从每一层汲取多少信息，本就应该取决于你正在处理的内容。但同样有个坏消息，第152层在决定从第3层汲取多少时，只依赖第152层本身的状态，它并不知道第3层实际包含了什么。它是在预测哪些层有用，而不是在真正“查看”。

来源:https://www.51cto.com/article/841071.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：Sessions 下一篇：哈弗猛龙PLUS开启预售！18.98万起售，智能四驱电混+超长续航来袭