游乐游手机版
首页/科技数码/文章详情

DeepSeek论文解读:新架构mHC如何突破深度学习瓶颈

时间:2026-01-04 15:01
2025年12月31日,来自DeepSeek-AI的研究团队在arXiv上发布了一篇题为《mHC: Manifold-Constrained Hyper-Connections》的技术论文。这项研究

2025年12月31日,来自DeepSeek-AI的研究团队在arXiv上发布了一篇题为《mHC: Manifold-Constrained Hyper-Connections》的技术论文。这项研究由解振达、韦毅轩、曹焕琦等十余位研究人员共同完成,通讯作者为解振达,DeepSeek创始人梁文锋亦参与其中。他们提出了一种全新的神经网络连接方式,有望解决当前大模型训练中一个长期被忽视却至关重要的问题:如何在提升性能的同时,保持训练过程的稳定与高效?

从残差连接说起:AI为何需要捷径

在深度学习领域,残差连接是一种经典而重要的设计。可以把它想象成一条“信息高速公路”,让数据在网络层之间直接流通,避免信息在传递过程中丢失或减弱。这种设计自2015年提出以来,已成为当今绝大多数大型语言模型的基石。可以说,没有残差连接,就没有现代AI的繁荣。

后来,研究者尝试拓宽这条路,变成了超连接(HC)——好比把单车道拓成四车道,并允许车辆在不同车道间自由变道。理论上,这能承载更复杂的交通流(信息流),但问题随之而来:没有规则的变道导致交通混乱,某些车道上车辆(信号)堆积如山,另一些却空空如也。在网络中,这就表现为信号在传递过程中被异常放大或缩小,训练变得极不稳定。

mHC:为信息流动加上交通规则

面对这一矛盾,DeepSeek团队提出了他们的解决方案——流形约束超连接(mHC, Manifold-Constrained Hyper-Connections)。它所做的就是在这条高速公路上加装智能导航和限速系统,让它既能跑得快,又能开得稳。

他们用一个巧妙的数学规则来约束车道间的变道行为:确保从任何一个车道流出的车辆总数,与流入该车道的车辆总数,都保持恒定。这就像在每个路口设置了智能信号灯系统,保证整个路网的车辆总数分布始终平衡。


三种神经网络“信息通道”设计对比。标准残差连接像一条单车道直路,信息从上一层直接流向下一层,简单稳定,但流通能力有限。HC将单车道拓宽为多车道,允许信息在通道间自由交互,能力更强。mHC在多车道系统中加入了智能交通信号灯,通过将连接矩阵约束在一个特定规则的空间中,确保信息在多通道间有序、均衡地流动,在提升能力的同时保障了训练稳定性。

这套交通规则通过一个名为Sinkhorn-Knopp的经典算法来实时计算和维持。算法不断微调变道比例,直到满足上述守恒条件。实践中只需迭代约20次即可达到很好的平衡,计算代价很小。这带来了很多好处:

信号不爆炸也不消失:无论网络多深,输入信号的能量都能大致保持稳定。

训练更平稳:梯度(指导模型调整的方向信号)的幅度受控,模型学习过程更稳健。

保留灵活性:车辆依然可以变道(信息依然能在多个通道间交互),只是变道方式更有序。

实验结果:更大、更稳、更强

团队在多个尺度的语言模型上验证了mHC的效果:

训练曲线平稳

在训练一个拥有270亿参数的模型时,使用原始超连接的方案在约1.2万步时出现了异常的损失值尖峰(相当于学习成绩突然暴跌)。而采用mHC的模型训练曲线平滑下降,最终效果比基线模型更好。


mHC与HC的训练稳定性对比


mHC与HC的传播稳定性对比

综合性能更强

在数学解题、常识推理、知识问答等8类不同的测试中,mHC模型全面领先。特别在需要多步推理的任务上(如BBH和DROP),mHC相比原始HC带来了约2%的额外提升——这意味着模型不仅更稳,还更聪明了。

大小模型均有效

从30亿、90亿到270亿参数规模的模型,mHC均能带来持续的性能增益,说明该方法在不同计算规模下都可靠。

让好想法跑得快、省内存

任何新设计若效率太低便难以实用。团队为此做了三层优化:

计算打包(内核融合):将多个连续的小操作合并成一个高效的大操作,减少数据搬运次数。

内存精算(选择性重计算):只在必要时临时重新计算中间结果,而非全部保存,使GPU内存占用大幅降低。

通信隐藏:在分布式训练中,让计算和网络传输尽可能同时进行,避免设备空等。

最终,即使将信息流宽度扩至4倍,mHC也仅带来约6.7%的额外训练时间开销,具备了真正的实用性。

在灵活与稳定之间寻找平衡

当前,AI模型正朝着更大规模、更复杂能力的方向发展,训练稳定性已成为制约其发展的关键瓶颈之一。mHC提供了一种优雅的思路:不是通过限制网络容量来求稳,而是通过引入基于流形约束的结构化灵活性,让网络在安全范围内探索更丰富的连接模式。

这项研究的深层意义便在于,它揭示了一条重要的设计原则:在增强神经网络表达能力的同时,必须通过恰当的数学约束来维持训练动态的稳定。

未来,这一框架还可能启发更多基于不同约束形状的设计,针对不同任务定制不同的信息流动规则,从而在AI的创造力与可控性之间找到更精细的平衡点。

编辑:郭郭

论文信息

发布期刊 arXiv

发布时间 2025年12月31日

论文标题mHC: Manifold-Constrained Hyper-Connections

(DOI:https://doi.org/10.48550/arXiv.2512.24880)


来源:https://www.163.com/dy/article/KIEAGFOA0511BKGA.html
上一篇Adobe 2026创意趋势:AI时代重建感官、情绪与文化连接 下一篇俄罗斯计划2030年前完成核动力航天发动机原型开发
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
年国家能源局充换电服务业用电量增速48.8%
科技数码 · 2026-06-29

年国家能源局充换电服务业用电量增速48.8%

2025年全社会用电量达103682亿千瓦时,同比增长5 0%。充换电服务业用电增速高达48 8%,信息传输与软件服务业增速17 0%。第三产业和居民用电对增长贡献率合计占一半。中国成为全球首个年度用电量超10 4万亿千瓦时的国家。

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元
科技数码 · 2026-06-29

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元

追风者冰川360S25液冷散热器售价429元,三联一体风扇便捷安装,冷头小体积纯铜底座噪音18dB,风扇转速300-2000RPM、风量75CFM、静压2 96mmAq,五年质保漏液包赔。

三星Galaxy Watch8用户反馈谷歌后台组件异常
科技数码 · 2026-06-29

三星Galaxy Watch8用户反馈谷歌后台组件异常

三星GalaxyWatch8、Watch5Pro、Watch6及Watch7用户反映,GooglePlayServices后台耗电异常,电量占比最高达99 97%,远超正常水平,严重影响续航。目前故障原因不明,谷歌尚未发布官方声明。

罗永浩批苹果iOS 27创新不足 盼新CEO改进
科技数码 · 2026-06-29

罗永浩批苹果iOS 27创新不足 盼新CEO改进

罗永浩批评苹果iOS27创新不足,称仅有双iPhone同号、音量分离等数十项细节改进,认为库克时代缺乏突破性创新,股市虽好但消费者只能被迫接受挤牙膏式升级。

年国产车出口710万辆,两家车企销量破百万
科技数码 · 2026-06-29

年国产车出口710万辆,两家车企销量破百万

2025年国产汽车出口总量达710万辆,同比增长21%。奇瑞以134万辆居首,比亚迪105万辆次之,上汽乘用车出口占比60%最高,长城出口51万辆。吉利、长安等主流品牌同步增长,小鹏、零跑等新兴品牌海外拓展加速。