梁文锋发布名论引爆DeepSeek，AI前沿新作深度解读

时间：2026-01-01 22:55

1月1日消息，DeepSeek赶在新年前发送了“贺礼”，在新论文中提出了名为mHC（流形约束超连接）的新网络架构，旨在解决传统架构在大规模模型训练中的不稳定性问题，这一研究或将为下一代基础架构的演进

1月1日传来消息，DeepSeek在新年到来之际送上了一份“贺礼”——他们在最新论文中提出了名为mHC（流形约束超连接）的新型网络架构，旨在解决传统架构在大规模模型训练中常遇到的稳定性难题。这项研究或许能为下一代基础架构的演进指明新的方向。

这篇题为《mHC：Manifold-Constrained Hyper-Connections》（《mHC：流形约束超连接》）的论文，由DeepSeek创始人兼CEO梁文锋参与署名，而解振达（Zhenda Xie）、韦毅轩（Yixuan Wei）和曹焕琪（Huanqi Cao）则是核心贡献者。

近年来，以超连接为代表的研究拓展了过去十年确立的通用残差连接范式，它通过拓宽神经网络的“信息传输通道”、增加通道间的连接，使模型性能得到提升。但这种多样化也引发了一系列问题，包括大规模训练中的不稳定性、可扩展性受限以及内存访问开销过大。

因此，DeepSeek在这篇论文中针对超连接架构的这些问题，提出了一个兼顾性能与效率的改进框架，即mHC架构。这类似于给超连接的“信息通道”加上了一套“交通规则”，在保留性能优势的同时，恢复了信息原样传递的特性，让模型训练变得更稳定、更容易扩展，从而推动大模型底层架构的工业化落地。

虽然这篇论文整体技术性较强，但通俗地讲，如果把AI模型想象成一条很长的“计算链条”，传统计算链条的问题在于，传递信息时是一条狭窄的管道，信息量大了就会“堵车”。后来的方法是将管道加宽（超连接），信息流更多，但水流太猛有时会把水管冲坏。DeepSeek提出的mHC相当于给水管加了“智能调节阀”，能确保水流的稳定，运行时也更省资源。

在论文中，DeepSeek表示，mHC为未来研究开辟了多个前景广阔的路径。研究团队希望mHC能重新激发学界对宏观架构设计的兴趣。通过深化对拓扑结构如何影响优化与表征学习的理解，mHC或将有助于突破当前限制，并可能为下一代基础架构的演进指明新方向。

从行业意义来看，mHC或许能让企业在训练更大规模的基础模型时，减少硬件投入、缩短训练周期。比如算力有限的中小AI企业，也能尝试开发更复杂的大模型，降低大模型研发的门槛。此外，训练稳定性和可扩展性的提升，能让大模型在更复杂的场景落地，比如需要超大规模参数的多模态模型、工业级的智能决策系统。

有行业人士评价认为，DeepSeek这项研究是底层创新，这次创新的架构着眼于Transformer最基础的问题，结合此前的积累，他预测DeepSeek有望在V4版本中做出重大的更新。

自2025年初引发广泛关注以来，这一年DeepSeek虽未正式推出R2或V4等重大版本，但在模型迭代与开源上持续发力：仅12月就同步推出了DeepSeek-V3.2与V3.2-Special，11月底也开源了数学推理模型DeepSeek-Math-V2，成为目前首个达到国际奥数金牌水平并开放使用的数学模型。

来源：https://www.163.com/dy/article/KI7H99720519DDQ2.html