DeepSeek新论文解读:全新mHC架构,作者梁文锋现身新年首刊
1月1日,IT之家传来消息:今日下午,DeepSeek团队发布了一篇重磅论文,提出了一种名为mHC(流形约束超连接)的全新神经网络架构。根据论文介绍,这项研究旨在解决传统超连接技术在大规模模型训练中普遍存在的不稳定性问题,同时又能充分保留其带来的显著性能提升。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
该论文的第一作者共有三位,分别是解振达(Zhenda Xie)、韦毅轩(Yixuan Wei)以及曹焕奇。值得一提的是,DeepSeek创始人兼CEO梁文锋亦位列作者名单之中。

IT之家摘录了论文摘要的核心内容,大意如下:
近年来,以超连接(HC)为代表的研究通过扩展残差宽度和多样化连接模式,极大地拓展了过去十年间建立的、无处不在的残差连接范式。尽管这种多样化带来了显著的性能提升,但它也从根本上损害了残差连接固有的恒等映射属性,从而导致了严重的训练不稳定性和受限的可扩展性,同时还会产生显著的内存访问开销。为了应对这些挑战,我们提出了流形约束超连接(mHC)。这是一个通用框架,能够将HC的残差连接空间投影到特定的流形上,以恢复恒等映射属性,同时结合严格的基础设施优化以确保训练效率。实验结果表明,mHC对于大规模训练是行之有效的,能够带来切实的性能改进和卓越的可扩展性。我们预计,mHC作为HC的一种灵活且实用的扩展,将有助于更深入地理解拓扑架构设计,并为基础模型的演进指明富有希望的方向。
论文相关链接
Hugging Face:https://huggingface.co/papers/2512.24880Arxiv:https://arxiv.org/abs/2512.24880
相关攻略
《自然》:一桩悬案了结? “砷基生命”论文终遭撤稿,但争议远未结束 科学界一桩持续了15年的公案,最近有了新进展。顶级期刊《科学》(Science)正式撤回了那篇曾引发轰动的争议性论文——该研究当年声称,在美国加州莫诺湖发现的一种细菌,能够用有毒的砷元素替代生命必需的磷来构建DNA,这直接挑战了我们
中国科研产出激增背后:学术出版话语权与经济成本的双重挑战 近期,在上海科学会堂举行的Insight Press(睿见出版)首批高质量学术期刊创刊仪式暨第十一期“好望角科学沙龙”上,科学家、出版机构负责人与期刊主编们齐聚一堂,共同探讨中国一流学术期刊的未来发展路径。当前,中国科学家正以前所未有的速度产
中国科学技术协会2026年3月31日发布告示:中国科协曾于2026年3月27日就2026年NeurIPS会议发表声明,本意是尽力维护我国关涉学者正当利益,其措施原则是清晰、适当的,没有发生变化。现就
Cornell University 图源:wikipedia撰文|张天如果有一天,全球科研人员突然无法访问arXiv,许多领域的研究节奏可能会被打乱。每天清晨刷新论文列表,已经成为部分数学家、物理
据微信公众号“中国科协之声”消息,3月31日,中国科学技术协会发布告示: 中国科协曾于2026年3月27日就2026年NeurIPS会议发表声明,本意是尽力维护我国关涉学者正当利益,其措施原则是清
热门专题
热门推荐
领克首款GT概念跑车亮相北京车展,由中欧团队联合打造。新车采用经典GT比例与低趴宽体设计,配备液态金属蓝涂装与2+2座舱,设有高性能模式按键可激活空气动力学套件。车辆采用后驱布局与AI智能运动控制系统,百公里加速约2秒,设计融合瑞典极简美学并参考全球用户反馈。
英伟达推出12GB显存版RTX5070移动GPU,与8GB版同步上市。两者均基于Blackwell架构,核心规格相同,仅显存容量不同。此举旨在缓解GDDR7芯片供应压力,为OEM提供灵活配置,加速笔记本产品布局,更大显存可更好满足游戏与AI应用需求。
微星将于5月15日推出两款26 5英寸雾面WOLED显示器MAG276QRY28和276QRDY54,售价分别为2499元和6299元。均采用第四代WOLED面板,具备QHD分辨率、VESADisplayHDRTrueBlack500认证、1500尼特峰值亮度及99 5%DCI-P3色域覆盖。276QRY28刷新率为280Hz,高阶款276QRDY54支持4
中芯国际2026年第一季度营收176 17亿元,同比增长8 1%;净利润13 61亿元,同比增长0 4%。公司预计第二季度收入环比增长14%至16%,毛利率指引上调至20%至22%。这反映出公司在行业复苏中展现出财务韧性,并通过运营优化增强了短期增长势头。
手机修图、相机降噪、视频去雾……这些我们日常使用的图像处理功能,其背后都离不开人工智能(AI)技术的驱动。通常,AI模型的训练逻辑是:向模型展示大量“低质图像”与“优质图像”的配对数据,让它学习如何将前者转化为后者。然而,天津大学计算机视觉团队近期发表的一项研究(arXiv:2604 08172)揭





