首页 游戏 软件 资讯 排行榜 专题
首页
AI
大模型架构的下半场

大模型架构的下半场

热心网友
31
转载
2026-04-20

深度扩展的隐忧:当层数增长遇上停滞的通信

过去十年,深度学习领域取得进展的方式出奇地一致:什么都往大了整。更多参数、更多数据、更长上下文。而且确实管用:损失在降低,能力在增长,扩展定律精确地指引着研究团队还需要投入多少资源。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

但不同的扩展方向,其内涵和难度天差地别。序列长度的扩展需要真正的创新,也确实催生了一整套机制研究和系统工程。数据的扩展则直截了当:数据越多,损失越低。相比之下,让模型变得更宽、更深,看起来似乎和数据扩展一样简单直接。

然而,宽度和深度真的在同等地发挥作用吗?

答案是否定的。深度在数量上增长了,但在质量上却没有。层与层之间的通信机制,在过去近十年里几乎没有发生根本性的变化。这一点至关重要,它不仅关乎网络深度本身,更揭示了研究团队在设计神经网络架构时的一个集体盲区。

研究者们花了十年时间去扩展层内的计算能力,却忘了同步扩展层间的通信能力。这件事,亟需改变。

上半场

要看清上半场做对了什么,最好的方法就是审视哪些维度被成功地扩展了,以及是如何做到的。

先看序列长度。早期的Transformer只能处理几百个token。要达到128K甚至更长,需要多个方向上的持续创新:新的注意力模式(稀疏、线性、混合)、系统工程(如FlashAttention)、位置编码的进步(如RoPE扩展)。研究者和工程师们共同建造了一整个生态,持续改进token之间的通信方式。回报是丰厚的,团队不仅能够处理极其长的文档,还为OpenAI-O1和DeepSeek-R1这类模型的长链推理能力奠定了坚实基础。这就是当团队认真投资于“信息在序列维度上的流动方式”时,所收获的斐然成果。

△现代LLM中的参数与数据规模迅速增长

参数和数据的扩展,则是最符合人类直觉的部分。从深度学习的最早期开始,每本教科书都在教授同一套配方:更多数据、更宽的层、更深的网络,自然带来更好的表征能力。从GPT-2的15亿参数到如今的数万亿规模,这套配方一直管用。这似乎说明,大模型团队不需要引入新机制,只需要持续拓展这些已被验证的方向。

只不过,对神经网络而言,“更宽”和“更深”往往并不是一回事。宽度的扩展是自然而然的:现代GPU天生擅长处理更宽的矩阵乘法,注意力机制的演进也越来越高效,这使得更宽的网络可以无缝接入现有架构。

而深度,则是另一个故事。模型确实变深了:从几十层加到上百层。但层间通信的核心机制,本质上还是ResNet在2015年引入的深度残差连接,即那个经典的“x + F(x)”。自它诞生以来,围绕它有过不少改良(如归一化位置、残差缩放、跨层连接),但没有任何改良真正取代过那个深度残差中“+”的决定性地位。

残差连接可以说是深度学习中最重要的基石之一。没有它,就没有上百层的Transformer,没有现代大语言模型,也没有所谓的扩展定律。但基础性方案有一个特点:它们有时会变得太过隐形,以至于没人再去质疑它到底是最优解,还是仅仅是探索出的第一个能用的方案。

打个比方,想象一个有特殊规则的传话游戏。在标准版本里,第1个人对第2个人耳语,第2个人再对第3个人耳语。传到第18个人时,消息早已面目全非。这就是没有残差连接的深层网络:每一层只能看到上一层的输出。

残差连接修复了这个问题:每个人在传达自己理解的同时,也把之前积累的原始信息原封不动地往下传。第3个人既能听到第2个人的新解读,也能听到之前的所有内容。原始信号始终被保留,它成为了不断壮大的合唱中的一个声部。

但问题来了:到了第152个人,你同时在听152个声音——原始信息加上151层叠加上去的内容,全部混在一句耳语里。理论上,前面那些人的声音依然存在,但它们已经被淹没了。如果第152个人需要知道第3个人具体说了什么,他得费力地从这首宏大的合唱声中把它挑出来。

△消息累加的传话游戏中,靠后的人依然难以分辨出所需的内容

通常而言,第152个人是做不到这一点的。

这就是信息稀释。每一层都面临两难:倘若该层贡献新信息,就可能会掩盖之前的内容;但若保守不动,则能保留之前层传过来的已有信息。在这种状况下,很多层学会了“保守不动”,它们几乎不往残差流里写入任何实质性的新东西。这样的深度网络在纸面上很深,实际上却很浅。团队堆了152层,但其中很多层却只学会了保持沉默。

这里的瓶颈不在于152层网络所需求的算力,而在于信息穿过这些层的通信能力。CPU的发展在几十年前就撞过同样的墙:处理器越来越快,直到内存带宽跟不上了,逼得整个行业转向缓存和通信优化。组织管理也一样:一群聪明人所能发挥出的创造力,也受限于他们之间的沟通与协作方式。深度学习正在经历自己的版本:十年来不断增强每一层的能力,而层与层之间的通道,始终是2015年那条“单车道公路”。

那么,有没有更好的机制?

配方

在本文所介绍的研究之前,已经有很多研究者注意到了深度瓶颈。多年来,修补方案越来越巧妙:例如获评CVPR最佳论文的DenseNet,它保留了每一层的输出,但代价是平方级的开销。使用可学习加权的方案,如DenseFormer、LIMe,降低了成本,但训练完成后权重就固定了,每个token、每套上下文都使用同样的权重,缺乏灵活性。

字节跳动的Hyper-Connections和DeepSeek的mHC另辟蹊径,它们把管道拓宽到N个通道,层间用混合矩阵连接,这相当于信息高速公路上同时多了好几条车道。但坏消息是,信息仍然在逐层流动,第152层没有办法直接回溯到第3层去获取信息。

彩云公司的MUDDFormer让混合每层输出这件事变成动态的,它会根据每个token的表征来生成权重。这在根本方向上是对的:从每一层汲取多少信息,本就应该取决于你正在处理的内容。但同样有个坏消息,第152层在决定从第3层汲取多少时,只依赖第152层本身的状态,它并不知道第3层实际包含了什么。它是在预测哪些层有用,而不是在真正“查看”。

来源:https://www.51cto.com/article/841071.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

大模型架构的下半场
AI
大模型架构的下半场

深度扩展的隐忧:当层数增长遇上停滞的通信 过去十年,深度学习领域取得进展的方式出奇地一致:什么都往大了整。更多参数、更多数据、更长上下文。而且确实管用:损失在降低,能力在增长,扩展定律精确地指引着研究团队还需要投入多少资源。 但不同的扩展方向,其内涵和难度天差地别。序列长度的扩展需要真正的创新,也确

热心网友
04.20
深度学习:物联网大数据洞察中的人工智能
业界动态
深度学习:物联网大数据洞察中的人工智能

AIoT架构:当人工智能与物联网深度融合 人工智能与物联网的融合,正在催生一个全新的技术范式——AIoT。它构建的,远不止是一个连接万物的网络,而是一个能够感知、思考并自主决策的智能系统。今天,我们就来深入拆解这个支撑未来智能世界的核心框架。 AIoT架构:云-边-端框架 如果把AIoT系统比作一个

热心网友
04.17
消息称千寻智能具身智能部负责人解浚源离职
业界动态
消息称千寻智能具身智能部负责人解浚源离职

千寻智能高管变动:具身智能业务负责人解浚源确认离职 4月8日,一则来自业界知情人士的消息被证实:千寻智能的具身智能业务负责人解浚源,已确认离职。蓝鲸科技的记者曾就此向千寻智能方面进行求证,截至消息发布时,尚未获得官方回应。 说起解浚源的背景,算得上是一份相当漂亮的履历。早年他在美国华盛顿大学拿下计算

热心网友
04.15
openclaw 安装教程
AI
openclaw 安装教程

设备要求 准备工作并不复杂,但一个关键的先决条件是:您的计算机上必须已安装 Node js 运行环境,并且其版本必须为 22 或更高。验证 Node js 版本是否正确是后续所有步骤能够顺利进行的基础,版本不符将导致安装失败。 详细安装指南 确认环境满足要求后,即可打开命令行终端(或命令提示符),直

热心网友
04.01
华为AI深度布局:如何引领科技变革新格局
AI
华为AI深度布局:如何引领科技变革新格局

新智元报道编辑:艾伦【新智元导读】华为诺亚方舟实验室主任王云鹤官宣离职。我们梳理了王云鹤的经历。王云鹤今日在朋友圈官宣,将辞去华为诺亚方舟实验室主任职位,告别华为。从 2025 年 3 月到今天,王

热心网友
03.28

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

重返未来1999狂想蓝手帕心相怎么选-重返未来1999狂想蓝手帕心相选择攻略
游戏攻略
重返未来1999狂想蓝手帕心相怎么选-重返未来1999狂想蓝手帕心相选择攻略

在《重返未来:1999》中,狂想蓝手帕心相的搭配策略至关重要,将直接影响队伍的整体输出效率与战斗节奏。 角色适配性分析 选择心相的首要原则,是评估其与角色的契合度。若角色本身定位为群体输出或范围伤害专家,那么能显著提升群体伤害的狂想蓝手帕,无疑是核心强化组件。以苏芙比为例,其技能本就具备优秀的群体攻

热心网友
04.20
绅士日报:国产游戏出超大雷“繁衍之母”,尺度太大国服没过审!
游戏攻略
绅士日报:国产游戏出超大雷“繁衍之母”,尺度太大国服没过审!

《忘却前夜》国服未过审深度解析:克苏鲁卡牌手游的美术尺度与合规挑战 各位玩家与行业观察者,今天我们将深入探讨一款在国内游戏市场引发广泛关注与讨论的作品——《忘却前夜》。这款克苏鲁题材卡牌手游的国服至今未能正式上线,其背后的原因,通过审视其海外版本所呈现的内容,或许能找到一些线索。游戏在角色视觉设计上

热心网友
04.20
币安Binance现货网页版最新入口 币安官方App最新版v4.50.2安卓下载
web3.0
币安Binance现货网页版最新入口 币安官方App最新版v4.50.2安卓下载

币安(Binance):全球加密市场的门户与安全交易指南 提到全球加密货币交易,币安(Binance)是一个绕不开的名字。凭借顶级的流动性、覆盖广泛的主流与创新交易对,以及业内领先的多层级安全架构,它早已成为国际投资者信赖的核心平台。今天这份指南,将为你清晰梳理币安现货网页版的最新访问路径,并手把手

热心网友
04.20
币安Binance官网最新入口 币安官方APP最新版v4.50.1安卓下载
web3.0
币安Binance官网最新入口 币安官方APP最新版v4.50.1安卓下载

本文将介绍币安binance官网最新入口以及币安官方app最新版v4 50 1安卓下载的具体操作方法。通过本文提供的官方链接,可直接进入币安官网首页,在页面中获取最新app下载安装入口并完成相关操作。 币安Binance官网最新入口 要安全访问币安,最稳妥的方式就是通过其官方网站入口。直接访问这个链

热心网友
04.20
问界工厂交付仪式:用户亲验品质,五高标准引领高端出行新风尚
科技数码
问界工厂交付仪式:用户亲验品质,五高标准引领高端出行新风尚

重庆赛力斯超级工厂的“透明交付”:当用户走进生产线 最近,重庆赛力斯超级工厂(龙兴)上演了一场与众不同的交付仪式。上百组来自全国各地的问界准车主,没有在窗明几净的交付中心等待,而是直接走进了工厂车间。这场名为“问界用户在工厂验收交付”的活动,将新车交付从“结果告知”变成了“过程见证”,这种前所未有的

热心网友
04.20