首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
DeepSeek新版mHC上线,R2模型距我们还有多远?

DeepSeek新版mHC上线,R2模型距我们还有多远?

热心网友
80
转载
2026-01-04

去年1月,春节前夕,“DeepSeek冲击波”席卷业界,中美同时“破圈”,成为年度现象级事件。而2026年一开年,DeepSeek又惊喜时刻进一步提前。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

1月1日,DeepSeek在AI开源社区HuggingFacear和研究分享平台arXiv发布论文,提出了名为mHC(Manifold-Constrained Hyper-Connections)的新型神经网络架构优化方案,再次引发讨论热潮,其对AI产业,包括大模型、芯片等领域可能产生的影响也备受瞩目。


图片来自DeepSeek论文“mHC:Manifold-Constrained Hyper-Connections“

mHC架构让大模型训练更稳、更快、更省

DeepSeek此次提出的mHC架构,建立在字节豆包大模型Foundation团队2024年11月发布的Hyper-Connections(HC)基础上。

彼时,豆包团队宣称HC有望替代大模型开发领域沿用近10年的ResNet残差神经网络架构,通过拓宽残差连接宽度,增加连接模式多样性,提升大模型性能和灵活性。

不过,HC只在理论推演和小模型实验中取得了成绩,在大模型训练中,残差连接通道间的交互极易导致信号爆炸或消失,进而全盘失控,无法取得稳定的训练结果,可扩展性也随之降低,成本则大幅升高。

DeepSeek在论文中称,mHC的核心创新在于引入Manifold-Constrained(流形约束),通过Sinkhorn-Knopp算法将残差映射矩阵投影到“双随机矩阵”构成的Birkhoff多面体上。

简单来说,这相当于为上述“易爆”的信号传播环节加上稳定器,确保信号在多层传递过程中受到约束,均值不变、总量守恒,以此解决HC在大模型训练中的稳定性、可扩展性问题。

DeepSeek给出了HC和mHC在270亿参数级别训练中的演示数据,HC在训练到1.2万步左右时信号放大倍数已暴增至3000倍,训练随之崩溃。

而mHC在同等训练中,信号放大倍数仅为1.6倍,全程平稳运行。与此同时,相较于传统架构,mHC训练时的损失显著下降,BBH数据集评测的困难任务推理能力和DROP数据集评测的阅读理解表现均提升2%以上。


图片来自DeepSeek论文“mHC:Manifold-Constrained Hyper-Connections“

另外,DeepSeek延续了“高性价比”“效率优先”的一 贯风格,论文称研究团队同时设计了高效的基础设施优化方案,最终,在残差通道扩展4倍后,mHC的额外训练时间开销仅为6.7%。

DeepSeek在论文中总结称,实验证明mHC在大规模训练中表现稳定,性能优越,具备良好的可扩展性,期望其能为拓扑结构设计提供新视角,并推动基础模型的演进。

值得一提的是,论文作者署名多达19人,核心作者为解振达、韦毅轩、曹焕奇,前两者均为清华大学高等研究院博士,也均进入过微软亚洲研究院联培项目,而DeepSeek创始人、CEO梁文锋的名字则列于最后。

在HuggingFacear上,从2024年1月的LLM论文至今,DeepSeek共发布了23篇重要论文,11篇中有梁文锋署名,包括MoE、Coder、R1、V3等节点性重要成果。

或引发AI架构连锁反应,英伟达生态再获加持

mHC发布后,在研究者、业界、媒体中都有较高的讨论度。相较于此前聚焦专门领域的OCR、Math-V2和在V3基础上更新的V3.2,mHC更被视为是一种底层创新,再加之新年伊始的节点,也更多被赋予了一层象征意义。

科技研究机构Odmia首席分析师苏连杰接受Business Insider采访时称,DeepSeek可能会在AI领域引发连锁反应,竞争对手可能会着手开发类似的架构。

实际上,就在DeepSeeK发布论文的次日,普林斯顿和UCLA的研究团队就提出了名为Deep Delta Learning的架构,同样旨在更新ResNet的基本架构。

接连涌现的新研究,提升了业界对2026年大模型架构产生重大范式更新和迭代的期待。

苏连杰还认为,相关研究成果会在DeepSeek其后的新模型中有所体现。

不少机构预计DeepSeek将在春节前后进行重大发布,很可能是备受期待却推迟已久的R2,并以此复刻去年的“冲击效应”,也可能是更新更快的通用模型V4,进一步激发实用性和经济价值。

不过,目前尚无可靠消息论证mHC是否会进入新模型。

去年春节期间,DeepSeek R1给AI芯片产业带来巨大冲击,甚至一度被认为将颠覆“算力为王”的逻辑,让以英伟达为代表的美股AI芯片产业链公司股价大跌。此次,mHC对算力、硬件端的影响也受到关注。

一份专家调研纪要显示,mHC架构虽然通过效率提升、工程优化提升了整体算力的质效比,延续了“无需堆算力就能打造顶尖大模型”的叙事,但其本身依赖FP32高精度计算格式,对内存带宽和高速互联带宽也提出了更高要求,尤需高端芯片的支持。

而且,目前该架构主要针对英伟达超节点链路设计,更适配英伟达生态,而对国产芯片兼容性较弱。

实际上,此前DeepSeek推迟R2发布时,即有分析称缺少英伟达芯片是原因之一。如果这种架构规模化铺开,英伟达的生态短期内会得到优势强化,国产芯片则需着力强化编译层的适配。而长期来看,供应mHC架构的AI芯片需要提升存储带宽,并转向更加精细化的设计。

不过,值得注意的是,2025年英伟达等制造商的美国AI芯片受地缘、政策因素影响逐渐淡出中国市场后,国产芯片替代大幅加速。相关厂商在提升性能以追赶领先者的同时,也逐渐在生态构建层面大举布局,华为昇腾、摩尔线程等都宣布适配DeepSeek大模型,不过其精度格式仍与英伟达有明显差距。

在国产芯片的生态突围中,与DeepSeek等领先大模型的深度耦合被认为至关重要。2026年,英伟达、AMD等国际巨头重返中国的努力、国产芯片的继续成长,以及大模型创新带来的变量,可能会让故事变得更加精彩。(作者|胡珈萌,编辑|李程程)

来源:https://www.163.com/dy/article/KIEDT4AS05118O92.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

Mac Pro停产确认,苹果工作站未来无更新计划
科技数码
Mac Pro停产确认,苹果工作站未来无更新计划

据 9to5Mac 报道,苹果公司已停产 Mac Pro,并将其从正式移除。苹果表示,目前没有计划设计新款 Mac Pro,未来也不会推出任何新机型。Mac Pro 的最后一次更新是在 2024 年

热心网友
03.27
菜鸟集团与泰国正大旗下CP AXTRA达成合作,510出货超50万片
科技数码
菜鸟集团与泰国正大旗下CP AXTRA达成合作,510出货超50万片

大公司:日本ispace公司将美国国家航空航天局(NASA)资助的登月任务推迟至2030年日本航天器初创企业ispace周五表示,在两次登月着陆器任务失败后,公司进行战略调整,将把一项由美国政府资助

热心网友
03.27
平头哥计算芯片出货超50万,AI场景解决方案解析
科技数码
平头哥计算芯片出货超50万,AI场景解决方案解析

新京报贝壳财经讯(记者罗亦丹)3月27日,在2026CFMS闪存峰会上,平头哥半导体宣布SSD主控芯片镇岳510累计出货量已超50万片,是国内近期出货量最高的主控芯片之一。目前,镇岳510已在阿里云

热心网友
03.27
小米MIX Fold 5曝光:全自研芯片与铰链,屏幕再进化
网络安全
小米MIX Fold 5曝光:全自研芯片与铰链,屏幕再进化

手机摄影卷了这么多年,大家似乎走进了一个死胡同:底越做越大,镜头越来越凸,但物理极限就摆在那里。想要一英寸以上的传感器,机身厚度就得奔着15mm去,想保留轻薄手感,影像就得妥协,这个矛盾在折叠屏上尤

热心网友
03.27
MacBook Neo散热有硬伤?加装铜片游戏性能翻倍实测
娱乐
MacBook Neo散热有硬伤?加装铜片游戏性能翻倍实测

快科技3月27日消息,博主ETA Prime近日对苹果MacBook Neo进行了一项简单散热改造,仅靠一块铜片就让这款无风扇笔记本的游戏帧数翻倍,综合性能提升达18 6%。MacBook Neo搭

热心网友
03.27

最新APP

你比我猜
你比我猜
休闲益智 03-26
锦绣商铺
锦绣商铺
模拟经营 03-26
儿童画画
儿童画画
休闲益智 03-25
疯狂猜词
疯狂猜词
休闲益智 03-25
诸神皇冠
诸神皇冠
棋牌策略 03-25

热门推荐

学习通官网登录入口及网页版使用指南
电脑教程
学习通官网登录入口及网页版使用指南

学习通网页版入口为https: www chaoxing com,平台提供分类课程导航、分段视频播放、在线文档预览、交互式习题、多端同步、扫码登录、离线缓存、讨论区管理、直播互动

热心网友
03.27
PPT取色器技巧:轻松复制专业配色方案
手机教程
PPT取色器技巧:轻松复制专业配色方案

在制作ppt时,巧妙运用取色器可以让页面色彩搭配更加协调、美观,提升整体视觉效果。那么,ppt该如何使用取色器来吸取屏幕颜色呢?一、常见ppt软件中的取色器位置不同的ppt软件,取

热心网友
03.27
咸鱼卡组绽放卡塔进阶阵容搭配推荐指南
游戏攻略
咸鱼卡组绽放卡塔进阶阵容搭配推荐指南

《我的咸鱼卡组》绯塔进阶队:英雄选用冥王之眼潘多拉,核心士兵搭配哪吒、仙灵女巫,辅以旅行青蛙和萨满大祭司。阵容成型快,攻防兼备,兼顾PVE推图与PVP竞技,属万金油配队。英雄与士兵

热心网友
03.27
OPPO Enco Clip 2耳机亮相,高光金与深空灰双色可选
娱乐
OPPO Enco Clip 2耳机亮相,高光金与深空灰双色可选

IT之家 3 月 27 日消息,OPPO 最新今天在微博公布了 Enco Clip 2 耳机的外观,4 月正式登场。从渲染图片可以看到,这款耳机拥有高光金、深空灰两种配色可选,采用耳夹式设计,高光金

热心网友
03.27
OPPO K15 Pro官网上线:12+512GB顶配版 4月1日发布
网络安全
OPPO K15 Pro官网上线:12+512GB顶配版 4月1日发布

IT之家 3 月 27 日消息,OPPO K15 Pro 系列手机已官宣将于 4 月 1 日发布。IT之家注意到,OPPO K15 Pro 手机已现身 OPPO 正式,公布了部分配色、设计、版本等信

热心网友
03.27