DeepSeek新论文解读:全新mHC架构,作者梁文锋现身新年首刊
1月1日,IT之家传来消息:今日下午,DeepSeek团队发布了一篇重磅论文,提出了一种名为mHC(流形约束超连接)的全新神经网络架构。根据论文介绍,这项研究旨在解决传统超连接技术在大规模模型训练中普遍存在的不稳定性问题,同时又能充分保留其带来的显著性能提升。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
该论文的第一作者共有三位,分别是解振达(Zhenda Xie)、韦毅轩(Yixuan Wei)以及曹焕奇。值得一提的是,DeepSeek创始人兼CEO梁文锋亦位列作者名单之中。

IT之家摘录了论文摘要的核心内容,大意如下:
近年来,以超连接(HC)为代表的研究通过扩展残差宽度和多样化连接模式,极大地拓展了过去十年间建立的、无处不在的残差连接范式。尽管这种多样化带来了显著的性能提升,但它也从根本上损害了残差连接固有的恒等映射属性,从而导致了严重的训练不稳定性和受限的可扩展性,同时还会产生显著的内存访问开销。为了应对这些挑战,我们提出了流形约束超连接(mHC)。这是一个通用框架,能够将HC的残差连接空间投影到特定的流形上,以恢复恒等映射属性,同时结合严格的基础设施优化以确保训练效率。实验结果表明,mHC对于大规模训练是行之有效的,能够带来切实的性能改进和卓越的可扩展性。我们预计,mHC作为HC的一种灵活且实用的扩展,将有助于更深入地理解拓扑架构设计,并为基础模型的演进指明富有希望的方向。
论文相关链接
Hugging Face:https://huggingface.co/papers/2512.24880Arxiv:https://arxiv.org/abs/2512.24880
相关攻略
IT之家 3 月 28 日消息,谷歌研究院 3 月 25 日推出全新极端压缩算法 TurboQuant,有望重塑 AI 运行效率并解决大模型键值缓存(KV Cache)的内存瓶颈,据称可以使 AI
新智元报道编辑:好困 Aeneas【新智元导读】把闪存股一夜干崩的谷歌顶会论文,出大事了。TurboQuant的核心方法,两年前就被一位华人学者做完、发完顶会、代码全部开源了。谷歌不仅没正面提及,而
机器之心编辑部就在刚刚,正在舆论风口上左摇右摆的 AI 顶会 NeurIPS 发布了一条长推文,针对此前的「NeurIPS 限制华为等实体机构投稿」事件做了解释、道歉、承诺三件事:解释:在编制 Ne
在中国科学技术协会、中国计算机学会、中国自动化学会相继发布声明宣布“抵制”后,人工智能学术会议NeurIPS低头道歉。 3月27日,NeurIPS通过社交平台“X”发布了一份声明,就征稿指南中的不
智东西作者 杨京丽编辑 李水青智东西3月27日报道,今天下午,AI三大顶会之一NeurIPS最新在X平台发布声明,就此前引发轩然大波的制裁合规条款正式致歉。▲NeurIPS最新在X平台发布声明(中文
热门专题
热门推荐
首先使用系统内置工具校准显示器颜色,调整伽马、亮度、对比度和色彩平衡;其次可借助专业校色仪进行硬件级校准并生成ICC配置文件;接着检查并更换高质量视频线缆以确保信号稳定;然后更新显
1、第一步,在手机中打开萤石云应用程序,然后单击萤石云智能相机设备进入,见下图,转到下面的步骤。2、第二步,执行完上面的操作之后,可以检查摄像机的实时监控屏幕,此时,单击右上角的三
《洛克王国:世界》是由腾讯IEG魔方工作室群开发的大世界精灵收集养成战斗游戏,在游戏中有许许多多不同的精灵,游戏中可以用果实来产生精灵,那么有不少小伙伴好奇机械方方果实怎么获得,下
近日,泰国普吉岛的一则噩耗引发全球关注——33岁的英国真人秀男明星乔丹·赖特,被发现溺亡于当地一处排水沟中。无独有偶,就在上个月,一名中国女子在泰国芭提雅参加泳池派对后失联,最终被警方发现其不幸遇害
CPU位于主板中央偏上、散热器正下方的专用插槽中,可通过机箱目视、系统软件(如msinfo32、HWiNFO64)或主板说明书图示三步精准定位。如果您想定位电脑中负责核心运算与指令





