游乐游手机版
首页/科技数码/文章详情

DeepSeek推出mHC新架构:攻克超连接训练不稳定难题

时间:2026-01-02 12:34
1月1日,DeepSeek于今日下午公开一篇新论文,提出一种名为mHC(流形约束超连接)的全新架构。该研究聚焦于解决传统超连接在大规模模型训练过程中存在的训练不稳定问题,同时延续其带来的显著性能提升

就在1月1日下午,DeepSeek官方发布了一篇引人注目的新论文,其中正式提出了一种名为mHC(流形约束超连接)的全新架构。这项研究的核心目标,在于解决传统超连接技术在大规模模型训练过程中经常出现的稳定性难题,同时延续其带来的显著性能提升优势。

该论文由三位研究者共同担任第一作者,分别是谢振达(Zhenda Xie)、韦毅轩(Yixuan Wei)以及曹焕奇(Huanqi Cao)。值得一提的是,DeepSeek创始人兼首席执行官梁文锋也位列作者之中。

论文摘要部分的核心内容如下:

近年来,以超连接为代表的网络结构通过拓展残差连接的宽度并引入多样化的连接方式,成功突破了过去十年间广泛使用的标准残差连接范式。尽管这类方法带来了明显的性能增益,但其连接模式的多样化本质上削弱了残差连接所具备的恒等映射特性,进而引发了训练过程中的严重不稳定、可扩展性受限,并导致了较高的内存访问开销。

为了应对上述挑战,研究团队提出了流形约束超连接(mHC)。这是一个通用框架,能够将超连接中的残差连接空间投影至特定流形之上,从而恢复恒等映射属性,同时结合精细化的基础设施优化策略,保障整体计算效率。

实验结果表明,mHC在大规模训练场景下表现稳定,不仅实现了可观的性能提升,还展现出优异的扩展能力。研究团队认为,mHC作为对超连接机制的一次灵活且实用的改进方案,有望推动对神经网络拓扑结构设计的深入探索,并为基础模型的发展提供新的技术路径。

相关论文可通过以下链接获取:

https://huggingface.co/papers/2512.24880

https://arxiv.org/abs/2512.24880

来源:https://ai.zol.com.cn/1110/11101454.html
上一篇AMD重组中国显卡架构,剑指25%市场份额新目标 下一篇PS5核心秘钥泄露,引发破解热潮与收藏波动
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
泰坦军团战魂KG277VPLUS双模显示器27英寸4K165Hz/520Hz仅1888元
科技数码 · 2026-07-03

泰坦军团战魂KG277VPLUS双模显示器27英寸4K165Hz/520Hz仅1888元

泰坦军团“战魂KG277VPLUS”27英寸显示器发售,支持4K165Hz与FHD520Hz双模切换,定价1888元。采用FastIPS面板,97%DCI-P3色域,配备升降支架及双HDMI2 1和双DP1 4接口。

苹果调价影响消费需求 2026年全球笔电出货量或降13.6%
科技数码 · 2026-07-03

苹果调价影响消费需求 2026年全球笔电出货量或降13.6%

迈入2026年,DRAM与NAND闪存的供应持续紧张及价格不断攀升,正逐步传导至终端消费市场。可以预见,下半年市场环境将更加严峻。上半年多家PC厂商已陆续上调产品定价,最终连苹果也不得不跟进,宣布提升iPad、Mac及家居设备的价格,以应对存储成本的快速上涨。 TrendForce分析指出,苹果全面

苹果iPhone 18 Pro自研C2芯片或不支持5G毫米波
科技数码 · 2026-07-03

苹果iPhone 18 Pro自研C2芯片或不支持5G毫米波

苹果自研C2芯片仅支持Sub-6GHz,不支持5G毫米波。因此,美版iPhone18Pro继续采用高通基带方案以支持毫米波,而其他地区版本则搭载苹果自研C2芯片。这一差异将导致在毫米波覆盖的市场中,用户峰值速率可能显著低于美版用户。

纳睿雷达推出睿宸超精细化短时临近AI气象大模型
科技数码 · 2026-07-03

纳睿雷达推出睿宸超精细化短时临近AI气象大模型

纳睿雷达近日释放了一项重磅成果。2026年7月1日,公司正式对外发布了两款自主研发的全新产品:一款是“WDSPT0152型”S波段全极化多功能有源相控阵雷达,另一款则是名为“睿宸”的超精细化短时临近AI气象大模型。从产品战略来看,此次发布直指气象监测与灾害预警领域的技术制高点。 先来看这款S波段雷达

南航国际创新港一期交付 四大专业园区打造空天产业强磁场
科技数码 · 2026-07-03

南航国际创新港一期交付 四大专业园区打造空天产业强磁场

近日,南京航空航天大学与六合区深度合作的标杆项目——南航国际创新港一期正式交付投用。两个地块陆续启用,成功串联起高校科研能量、地方产业载体与市场创新主体,为南京打造全国领先的航空航天产业创新中心、助力江苏布局商业航天全产业链,提供了坚实的物理支撑。 该创新港一期位于六合区雄州街道,分为3号和4号两个