DeepSeek新版mHC上线,R2模型距我们还有多远?
去年1月,春节前夕,“DeepSeek冲击波”席卷业界,中美同时“破圈”,成为年度现象级事件。而2026年一开年,DeepSeek又惊喜时刻进一步提前。
1月1日,DeepSeek在AI开源社区HuggingFacear和研究分享平台arXiv发布论文,提出了名为mHC(Manifold-Constrained Hyper-Connections)的新型神经网络架构优化方案,再次引发讨论热潮,其对AI产业,包括大模型、芯片等领域可能产生的影响也备受瞩目。

图片来自DeepSeek论文“mHC:Manifold-Constrained Hyper-Connections“
mHC架构让大模型训练更稳、更快、更省
DeepSeek此次提出的mHC架构,建立在字节豆包大模型Foundation团队2024年11月发布的Hyper-Connections(HC)基础上。
彼时,豆包团队宣称HC有望替代大模型开发领域沿用近10年的ResNet残差神经网络架构,通过拓宽残差连接宽度,增加连接模式多样性,提升大模型性能和灵活性。
不过,HC只在理论推演和小模型实验中取得了成绩,在大模型训练中,残差连接通道间的交互极易导致信号爆炸或消失,进而全盘失控,无法取得稳定的训练结果,可扩展性也随之降低,成本则大幅升高。
DeepSeek在论文中称,mHC的核心创新在于引入Manifold-Constrained(流形约束),通过Sinkhorn-Knopp算法将残差映射矩阵投影到“双随机矩阵”构成的Birkhoff多面体上。
简单来说,这相当于为上述“易爆”的信号传播环节加上稳定器,确保信号在多层传递过程中受到约束,均值不变、总量守恒,以此解决HC在大模型训练中的稳定性、可扩展性问题。
DeepSeek给出了HC和mHC在270亿参数级别训练中的演示数据,HC在训练到1.2万步左右时信号放大倍数已暴增至3000倍,训练随之崩溃。
而mHC在同等训练中,信号放大倍数仅为1.6倍,全程平稳运行。与此同时,相较于传统架构,mHC训练时的损失显著下降,BBH数据集评测的困难任务推理能力和DROP数据集评测的阅读理解表现均提升2%以上。

图片来自DeepSeek论文“mHC:Manifold-Constrained Hyper-Connections“
另外,DeepSeek延续了“高性价比”“效率优先”的一 贯风格,论文称研究团队同时设计了高效的基础设施优化方案,最终,在残差通道扩展4倍后,mHC的额外训练时间开销仅为6.7%。
DeepSeek在论文中总结称,实验证明mHC在大规模训练中表现稳定,性能优越,具备良好的可扩展性,期望其能为拓扑结构设计提供新视角,并推动基础模型的演进。
值得一提的是,论文作者署名多达19人,核心作者为解振达、韦毅轩、曹焕奇,前两者均为清华大学高等研究院博士,也均进入过微软亚洲研究院联培项目,而DeepSeek创始人、CEO梁文锋的名字则列于最后。
在HuggingFacear上,从2024年1月的LLM论文至今,DeepSeek共发布了23篇重要论文,11篇中有梁文锋署名,包括MoE、Coder、R1、V3等节点性重要成果。
或引发AI架构连锁反应,英伟达生态再获加持
mHC发布后,在研究者、业界、媒体中都有较高的讨论度。相较于此前聚焦专门领域的OCR、Math-V2和在V3基础上更新的V3.2,mHC更被视为是一种底层创新,再加之新年伊始的节点,也更多被赋予了一层象征意义。
科技研究机构Odmia首席分析师苏连杰接受Business Insider采访时称,DeepSeek可能会在AI领域引发连锁反应,竞争对手可能会着手开发类似的架构。
实际上,就在DeepSeeK发布论文的次日,普林斯顿和UCLA的研究团队就提出了名为Deep Delta Learning的架构,同样旨在更新ResNet的基本架构。
接连涌现的新研究,提升了业界对2026年大模型架构产生重大范式更新和迭代的期待。
苏连杰还认为,相关研究成果会在DeepSeek其后的新模型中有所体现。
不少机构预计DeepSeek将在春节前后进行重大发布,很可能是备受期待却推迟已久的R2,并以此复刻去年的“冲击效应”,也可能是更新更快的通用模型V4,进一步激发实用性和经济价值。
不过,目前尚无可靠消息论证mHC是否会进入新模型。
去年春节期间,DeepSeek R1给AI芯片产业带来巨大冲击,甚至一度被认为将颠覆“算力为王”的逻辑,让以英伟达为代表的美股AI芯片产业链公司股价大跌。此次,mHC对算力、硬件端的影响也受到关注。
一份专家调研纪要显示,mHC架构虽然通过效率提升、工程优化提升了整体算力的质效比,延续了“无需堆算力就能打造顶尖大模型”的叙事,但其本身依赖FP32高精度计算格式,对内存带宽和高速互联带宽也提出了更高要求,尤需高端芯片的支持。
而且,目前该架构主要针对英伟达超节点链路设计,更适配英伟达生态,而对国产芯片兼容性较弱。
实际上,此前DeepSeek推迟R2发布时,即有分析称缺少英伟达芯片是原因之一。如果这种架构规模化铺开,英伟达的生态短期内会得到优势强化,国产芯片则需着力强化编译层的适配。而长期来看,供应mHC架构的AI芯片需要提升存储带宽,并转向更加精细化的设计。
不过,值得注意的是,2025年英伟达等制造商的美国AI芯片受地缘、政策因素影响逐渐淡出中国市场后,国产芯片替代大幅加速。相关厂商在提升性能以追赶领先者的同时,也逐渐在生态构建层面大举布局,华为昇腾、摩尔线程等都宣布适配DeepSeek大模型,不过其精度格式仍与英伟达有明显差距。
在国产芯片的生态突围中,与DeepSeek等领先大模型的深度耦合被认为至关重要。2026年,英伟达、AMD等国际巨头重返中国的努力、国产芯片的继续成长,以及大模型创新带来的变量,可能会让故事变得更加精彩。(作者|胡珈萌,编辑|李程程)
相关攻略
韩国SK海力士市值逼近万亿美元,有望成为亚洲第三家万亿级芯片企业。其股价飙升主要受全球AI浪潮对高性能存储芯片的强劲需求驱动。目前亚洲市值前三均为芯片公司,行业高景气也带动韩国股市创下多年最佳年度表现。三星的劳资纠纷可能短期利好竞争对手,但长期或影响供应链稳定。
中芯国际透露芯片涨价潮已蔓延至代工环节,供不应求产品价格已上调。AI芯片需求强劲挤压传统芯片产能,促使消费电子及物联网订单加速回流中国大陆。公司产能利用率达93 1%,关键产品线满载,预计二三季度涨价效应更明显,全年展望乐观。
周二(12日)的美股市场,可谓冰火两重天。三大股指最终涨跌不一,但盘面下的暗流涌动,却透露出投资者情绪的显著变化——芯片股遭遇重挫,油价再次走高,市场的避险情绪正在升温。 截至收盘,道琼斯工业指数微涨56 09点,涨幅0 11%,报49760 56点;而以科技股为主的纳斯达克综合指数则下跌185 9
周二的美股市场,可谓冰火两重天。一边是道指勉力收红,另一边却是纳指与标普500指数双双下挫。市场情绪在通胀数据与地缘整治的双重夹击下,显得格外谨慎。 截至收盘,道琼斯工业平均指数微涨56 09点,涨幅0 11%,报49760 56点;纳斯达克综合指数则下跌185 92点,跌幅0 71%,报26088
成都华微发布128GSPS超高速ADC芯片,输入带宽达37GHz,支持Ka波段射频直采,适用于OCS光学通信系统。该芯片及公司高速ADC产品线可简化800G 1 6T光模块架构,提升性能与可靠性,为下一代设计提供新思路。目前技术已取得关键进展,但大规模商业化仍需通过客户验证与生态构建,对当前经营影响有限。
热门专题
热门推荐
钉钉文档官网 在探讨企业级协同办公解决方案时,钉钉文档无疑是备受瞩目的核心工具之一。作为阿里巴巴钉钉官方推出的旗舰级应用套件,它深度融合了在线文档编辑、智能表格、思维导图等多种高效创作工具。其核心优势在于与钉钉平台生态的无缝衔接,能够直接同步企业内部组织架构与通讯录,实现团队成员间的即时协作与信息流
在数字化转型浪潮中,高效、易用的数据分析工具已成为企业提升决策效率的关键。商汤科技推出的“办公小浣熊”智能助手,正是基于自研大语言模型打造的一款创新产品,旨在彻底降低数据分析的技术门槛。用户无需掌握编程知识或复杂操作,即可通过自然对话完成从数据查询、处理到可视化洞察的全流程,让数据价值触手可及。 办
在人工智能技术快速发展的今天,MiniMax作为一家专注于全栈自研的AI公司,正以其独特的技术路径和前瞻性的布局,在业界脱颖而出。公司致力于构建覆盖文本、图像、语音和视频的新一代多模态智能模型矩阵,这不仅体现了对核心底层技术自主权的深度掌控,也展现了对未来人机交互与内容生成形态的前瞻思考。 那么,M
ApolloCreditFund(ACRED)作为连接传统信贷与DeFi的桥梁,其价格受市场情绪、协议基本面及宏观环境影响。其价值逻辑根植于现实世界资产(RWA)的收益捕获与链上流动性释放。短期价格波动难以预测,但长期发展取决于信贷资产质量、协议安全性和市场采用度。投资者需关注其底层资产表现、代币经济模型及整个RWA赛道的发展趋势。
在数字化转型浪潮中,一套能够深度适配业务、彰显品牌特色的智能客服系统,已成为企业提升服务效率与用户体验的关键工具。然而,市场上许多解决方案往往模式固化,难以满足个性化需求。如何让AI客服不仅具备基础的自动化应答能力,更能承载独特的品牌文化与服务哲学?其核心在于系统是否支持深度的自定义与持续的AI训练





