DeepSeek推出mHC新架构：攻克超连接训练不稳定难题

时间：2026-01-02 12:34

1月1日，DeepSeek于今日下午公开一篇新论文，提出一种名为mHC（流形约束超连接）的全新架构。该研究聚焦于解决传统超连接在大规模模型训练过程中存在的训练不稳定问题，同时延续其带来的显著性能提升

就在1月1日下午，DeepSeek官方发布了一篇引人注目的新论文，其中正式提出了一种名为mHC（流形约束超连接）的全新架构。这项研究的核心目标，在于解决传统超连接技术在大规模模型训练过程中经常出现的稳定性难题，同时延续其带来的显著性能提升优势。

该论文由三位研究者共同担任第一作者，分别是谢振达（Zhenda Xie）、韦毅轩（Yixuan Wei）以及曹焕奇（Huanqi Cao）。值得一提的是，DeepSeek创始人兼首席执行官梁文锋也位列作者之中。

论文摘要部分的核心内容如下：

近年来，以超连接为代表的网络结构通过拓展残差连接的宽度并引入多样化的连接方式，成功突破了过去十年间广泛使用的标准残差连接范式。尽管这类方法带来了明显的性能增益，但其连接模式的多样化本质上削弱了残差连接所具备的恒等映射特性，进而引发了训练过程中的严重不稳定、可扩展性受限，并导致了较高的内存访问开销。

为了应对上述挑战，研究团队提出了流形约束超连接（mHC）。这是一个通用框架，能够将超连接中的残差连接空间投影至特定流形之上，从而恢复恒等映射属性，同时结合精细化的基础设施优化策略，保障整体计算效率。

实验结果表明，mHC在大规模训练场景下表现稳定，不仅实现了可观的性能提升，还展现出优异的扩展能力。研究团队认为，mHC作为对超连接机制的一次灵活且实用的改进方案，有望推动对神经网络拓扑结构设计的深入探索，并为基础模型的发展提供新的技术路径。

相关论文可通过以下链接获取：

https://huggingface.co/papers/2512.24880

https://arxiv.org/abs/2512.24880

来源：https://ai.zol.com.cn/1110/11101454.html

上一篇AMD重组中国显卡架构，剑指25%市场份额新目标 下一篇PS5核心秘钥泄露，引发破解热潮与收藏波动

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-03

泰坦军团战魂KG277VPLUS双模显示器27英寸4K165Hz/520Hz仅1888元

泰坦军团“战魂KG277VPLUS”27英寸显示器发售，支持4K165Hz与FHD520Hz双模切换，定价1888元。采用FastIPS面板，97%DCI-P3色域，配备升降支架及双HDMI2 1和双DP1 4接口。

科技数码 · 2026-07-03

苹果调价影响消费需求 2026年全球笔电出货量或降13.6%

迈入2026年，DRAM与NAND闪存的供应持续紧张及价格不断攀升，正逐步传导至终端消费市场。可以预见，下半年市场环境将更加严峻。上半年多家PC厂商已陆续上调产品定价，最终连苹果也不得不跟进，宣布提升iPad、Mac及家居设备的价格，以应对存储成本的快速上涨。 TrendForce分析指出，苹果全面