1月1日传来消息,DeepSeek在新年到来之际送上了一份“贺礼”——他们在最新论文中提出了名为mHC(流形约束超连接)的新型网络架构,旨在解决传统架构在大规模模型训练中常遇到的稳定性难题。这项研究或许能为下一代基础架构的演进指明新的方向。

这篇题为《mHC:Manifold-Constrained Hyper-Connections》(《mHC:流形约束超连接》)的论文,由DeepSeek创始人兼CEO梁文锋参与署名,而解振达(Zhenda Xie)、韦毅轩(Yixuan Wei)和曹焕琪(Huanqi Cao)则是核心贡献者。
近年来,以超连接为代表的研究拓展了过去十年确立的通用残差连接范式,它通过拓宽神经网络的“信息传输通道”、增加通道间的连接,使模型性能得到提升。但这种多样化也引发了一系列问题,包括大规模训练中的不稳定性、可扩展性受限以及内存访问开销过大。
因此,DeepSeek在这篇论文中针对超连接架构的这些问题,提出了一个兼顾性能与效率的改进框架,即mHC架构。这类似于给超连接的“信息通道”加上了一套“交通规则”,在保留性能优势的同时,恢复了信息原样传递的特性,让模型训练变得更稳定、更容易扩展,从而推动大模型底层架构的工业化落地。
虽然这篇论文整体技术性较强,但通俗地讲,如果把AI模型想象成一条很长的“计算链条”,传统计算链条的问题在于,传递信息时是一条狭窄的管道,信息量大了就会“堵车”。后来的方法是将管道加宽(超连接),信息流更多,但水流太猛有时会把水管冲坏。DeepSeek提出的mHC相当于给水管加了“智能调节阀”,能确保水流的稳定,运行时也更省资源。
在论文中,DeepSeek表示,mHC为未来研究开辟了多个前景广阔的路径。研究团队希望mHC能重新激发学界对宏观架构设计的兴趣。通过深化对拓扑结构如何影响优化与表征学习的理解,mHC或将有助于突破当前限制,并可能为下一代基础架构的演进指明新方向。
从行业意义来看,mHC或许能让企业在训练更大规模的基础模型时,减少硬件投入、缩短训练周期。比如算力有限的中小AI企业,也能尝试开发更复杂的大模型,降低大模型研发的门槛。此外,训练稳定性和可扩展性的提升,能让大模型在更复杂的场景落地,比如需要超大规模参数的多模态模型、工业级的智能决策系统。
有行业人士评价认为,DeepSeek这项研究是底层创新,这次创新的架构着眼于Transformer最基础的问题,结合此前的积累,他预测DeepSeek有望在V4版本中做出重大的更新。
自2025年初引发广泛关注以来,这一年DeepSeek虽未正式推出R2或V4等重大版本,但在模型迭代与开源上持续发力:仅12月就同步推出了DeepSeek-V3.2与V3.2-Special,11月底也开源了数学推理模型DeepSeek-Math-V2,成为目前首个达到国际奥数金牌水平并开放使用的数学模型。
