首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
DeepSeek论文解读:新架构mHC如何突破深度学习瓶颈

DeepSeek论文解读:新架构mHC如何突破深度学习瓶颈

热心网友
40
转载
2026-01-04

2025年12月31日,来自DeepSeek-AI的研究团队在arXiv上发布了一篇题为《mHC: Manifold-Constrained Hyper-Connections》的技术论文。这项研究由解振达、韦毅轩、曹焕琦等十余位研究人员共同完成,通讯作者为解振达,DeepSeek创始人梁文锋亦参与其中。他们提出了一种全新的神经网络连接方式,有望解决当前大模型训练中一个长期被忽视却至关重要的问题:如何在提升性能的同时,保持训练过程的稳定与高效?

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

从残差连接说起:AI为何需要捷径

在深度学习领域,残差连接是一种经典而重要的设计。可以把它想象成一条“信息高速公路”,让数据在网络层之间直接流通,避免信息在传递过程中丢失或减弱。这种设计自2015年提出以来,已成为当今绝大多数大型语言模型的基石。可以说,没有残差连接,就没有现代AI的繁荣。

后来,研究者尝试拓宽这条路,变成了超连接(HC)——好比把单车道拓成四车道,并允许车辆在不同车道间自由变道。理论上,这能承载更复杂的交通流(信息流),但问题随之而来:没有规则的变道导致交通混乱,某些车道上车辆(信号)堆积如山,另一些却空空如也。在网络中,这就表现为信号在传递过程中被异常放大或缩小,训练变得极不稳定。

mHC:为信息流动加上交通规则

面对这一矛盾,DeepSeek团队提出了他们的解决方案——流形约束超连接(mHC, Manifold-Constrained Hyper-Connections)。它所做的就是在这条高速公路上加装智能导航和限速系统,让它既能跑得快,又能开得稳。

他们用一个巧妙的数学规则来约束车道间的变道行为:确保从任何一个车道流出的车辆总数,与流入该车道的车辆总数,都保持恒定。这就像在每个路口设置了智能信号灯系统,保证整个路网的车辆总数分布始终平衡。


三种神经网络“信息通道”设计对比。标准残差连接像一条单车道直路,信息从上一层直接流向下一层,简单稳定,但流通能力有限。HC将单车道拓宽为多车道,允许信息在通道间自由交互,能力更强。mHC在多车道系统中加入了智能交通信号灯,通过将连接矩阵约束在一个特定规则的空间中,确保信息在多通道间有序、均衡地流动,在提升能力的同时保障了训练稳定性。

这套交通规则通过一个名为Sinkhorn-Knopp的经典算法来实时计算和维持。算法不断微调变道比例,直到满足上述守恒条件。实践中只需迭代约20次即可达到很好的平衡,计算代价很小。这带来了很多好处:

信号不爆炸也不消失:无论网络多深,输入信号的能量都能大致保持稳定。

训练更平稳:梯度(指导模型调整的方向信号)的幅度受控,模型学习过程更稳健。

保留灵活性:车辆依然可以变道(信息依然能在多个通道间交互),只是变道方式更有序。

实验结果:更大、更稳、更强

团队在多个尺度的语言模型上验证了mHC的效果:

训练曲线平稳

在训练一个拥有270亿参数的模型时,使用原始超连接的方案在约1.2万步时出现了异常的损失值尖峰(相当于学习成绩突然暴跌)。而采用mHC的模型训练曲线平滑下降,最终效果比基线模型更好。


mHC与HC的训练稳定性对比


mHC与HC的传播稳定性对比

综合性能更强

在数学解题、常识推理、知识问答等8类不同的测试中,mHC模型全面领先。特别在需要多步推理的任务上(如BBH和DROP),mHC相比原始HC带来了约2%的额外提升——这意味着模型不仅更稳,还更聪明了。

大小模型均有效

从30亿、90亿到270亿参数规模的模型,mHC均能带来持续的性能增益,说明该方法在不同计算规模下都可靠。

让好想法跑得快、省内存

任何新设计若效率太低便难以实用。团队为此做了三层优化:

计算打包(内核融合):将多个连续的小操作合并成一个高效的大操作,减少数据搬运次数。

内存精算(选择性重计算):只在必要时临时重新计算中间结果,而非全部保存,使GPU内存占用大幅降低。

通信隐藏:在分布式训练中,让计算和网络传输尽可能同时进行,避免设备空等。

最终,即使将信息流宽度扩至4倍,mHC也仅带来约6.7%的额外训练时间开销,具备了真正的实用性。

在灵活与稳定之间寻找平衡

当前,AI模型正朝着更大规模、更复杂能力的方向发展,训练稳定性已成为制约其发展的关键瓶颈之一。mHC提供了一种优雅的思路:不是通过限制网络容量来求稳,而是通过引入基于流形约束的结构化灵活性,让网络在安全范围内探索更丰富的连接模式。

这项研究的深层意义便在于,它揭示了一条重要的设计原则:在增强神经网络表达能力的同时,必须通过恰当的数学约束来维持训练动态的稳定。

未来,这一框架还可能启发更多基于不同约束形状的设计,针对不同任务定制不同的信息流动规则,从而在AI的创造力与可控性之间找到更精细的平衡点。

编辑:郭郭

论文信息

发布期刊 arXiv

发布时间 2025年12月31日

论文标题mHC: Manifold-Constrained Hyper-Connections

(DOI:https://doi.org/10.48550/arXiv.2512.24880)


来源:https://www.163.com/dy/article/KIEAGFOA0511BKGA.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

BCBC币(BCBC)实时行情?
web3.0
BCBC币(BCBC)实时行情?

BCBC币(BCBC)深度解析:技术底色与市场前景 在百花齐放的数字货币领域,总有项目希望以独特的技术路径站稳脚跟。BCBC币(BCBC)正是其中之一,它依托一套组合技术方案来构建其安全与稳定的基石,目标直指高效、低成本的支付新体验,同时也不失为投资者眼中一个潜在的增值选项。 技术架构:不止于共识的

热心网友
04.02
BNB连锁店在最新焚化活动中燃烧了价值9.16亿美元的代币
web3.0
BNB连锁店在最新焚化活动中燃烧了价值9.16亿美元的代币

BNB Chain完成第31次季度销毁,近10亿美元BNB永久退出流通 近日,全球顶尖的区块链基础设施BNB Chain正式完成了其第31次季度代币销毁。根据官方公布的数据,本次共计销毁了1,579,207 716枚BNB,按销毁时市场价值计算,总额高达约9 16亿美元。此次大规模销毁再次向市场展现

热心网友
04.02
openclaw 常见命令解析
AI
openclaw 常见命令解析

OpenClaw 核心命令完全指南:从入门到精通 当您开始接触一个新工具时,最常见的障碍是什么?往往是面对复杂的命令列表感到困惑,只能被动地复制粘贴。这不仅影响效率,而且在遇到问题时更难以排查。 本文将为您深入解析 OpenClaw 的关键指令,帮助您从基础操作者转变为理解原理的熟练用户,全面提升配

热心网友
04.02
全球首款带物理直觉的AI模型在沪发布,理解真实世界规律
科技数码
全球首款带物理直觉的AI模型在沪发布,理解真实世界规律

让AI告别“重视觉效果、轻物理逻辑”的行业短板,近期五一视界(51WORLD)发布全球首款物理直觉世界模型51World Model,实现AI遵循物理规律推演、与真实场景全要素交互的核心突破,彻底破

热心网友
04.01
宇树G1机器人拆解:揭秘超40%毛利率与全供应链控制
科技数码
宇树G1机器人拆解:揭秘超40%毛利率与全供应链控制

一台售价8 5万元的人形机器人,拆开来看,成本只有4 16万元,预估毛利率40 7%。但宇树G1的真正壁垒,藏在硬件之外。3月30日,中邮证券电新团队分析师苏千叶、盛炜、杨帅波发布《宇树G1人形机器

热心网友
04.01

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

《全面战争:中世纪3》:只怀旧做不成好游戏经典需要现代化
游戏资讯
《全面战争:中世纪3》:只怀旧做不成好游戏经典需要现代化

《全面战争:中世纪3》:经典延续,如何平衡怀旧与创新? 近期,《全面战争:中世纪3》的项目负责人帕维尔·沃伊斯坦然指出,要打造一款真正优秀的续作,绝不能仅仅依赖对前作模式的简单复刻。这一观点引人深思——尽管《中世纪2:全面战争》至今仍在策略游戏爱好者心中占据着经典地位,但开发团队此次显然决心跳出“照

热心网友
04.02
雷鸟创新AWE斩获艾普兰创新奖 蝙蝠侠限定款国内首秀
科技数码
雷鸟创新AWE斩获艾普兰创新奖 蝙蝠侠限定款国内首秀

雷鸟X3 Pro斩获AWE艾普兰创新大奖,开启全民AR生活新篇章 在上海新国际博览中心隆重揭幕的2026年中国家电及消费电子博览会(AWE)上,前沿AI科技与未来生活愿景激情碰撞。全球消费级AR领导品牌雷鸟创新,以其里程碑式的表现,定义了行业发展的新方向。 通过“顶尖硬件科技+顶级文化IP”的双轨战

热心网友
04.02
AWE探展MOVA:31款创新产品集中亮相 重新定义智慧生活新体验
科技数码
AWE探展MOVA:31款创新产品集中亮相 重新定义智慧生活新体验

借力AWE2026“一展双区”,MOVA双区协同、震撼登场 备受瞩目的科技盛会——2026年中国家电及消费电子博览会(AWE),于3月12日至15日在上海盛大举办。本届AWE展会首次创新采用“一展双区”的展览模式,主会场位于上海新国际博览中心,分会场则设于上海东方枢纽国际商务合作区,两大展区高效联动

热心网友
04.02
DNF2026冰结技能数据是怎样的-2026DNF冰结技能数据详情
游戏攻略
DNF2026冰结技能数据是怎样的-2026DNF冰结技能数据详情

冰结师技能全解析 踏入2026年,《地下城与勇士》中的冰结师职业,其技能体系已构建得更为成熟与强大。无论是在副本中高效清理海量怪物,还是在决斗场与高手玩家周旋,这个职业都能凭借其独特的冰霜艺术掌控战局。刷图时,酷寒的范围法术可瞬间清屏;而在PVP竞技中,一套将冻结控制与瞬间爆发完美衔接的连招,往往让

热心网友
04.02
iPhone 18 Pro设计挤牙膏了 继续用前代模具
科技数码
iPhone 18 Pro设计挤牙膏了 继续用前代模具

iPhone 18 Pro系列模具不变,屏幕形态将与iPhone 17 Pro保持一致 备受期待的屏下Face ID组件小型化设计与灵动岛区域缩窄方案,预计将被推迟至后续迭代机型中正式应用。 近期,关于iPhone 18 Pro系列的技术传闻持续引发行业关注,尤其在显示与解锁设计领域传言甚多。多方消

热心网友
04.02