游乐游手机版
首页/科技数码/文章详情

DeepSeek与字节跳动:AI大模型背后的技术脉络

时间:2026-01-15 09:07
新年前夕,DeepSeek发表了一篇聚焦神经网络架构创新的核心论文,梁文锋以通讯作者身份署名。论文提出了流形约束超连接(manifold-constrained HyperConnection, m

新年前夕,DeepSeek发表了一篇聚焦神经网络架构创新的核心论文,梁文锋以通讯作者身份署名。论文提出了流形约束超连接(manifold-constrained HyperConnection, mHC)架构,直指大规模模型训练中的稳定性难题。

这一工作为硬件受限的中国AI企业开辟了一条兼顾性能与效率的路径,也与字节跳动早前在残差流优化上的探索形成关键呼应,二者均瞄准残差连接这一模型基础架构进行改造。

DeepSeek的研究,恰恰是对字节跳动“超连接”技术短板的系统性补位。这一成果不仅为大模型底层架构的工业化落地提供了新方案,再度印证了硬件约束可转化为创新动力的产业演进逻辑。

自2016年ResNet 提出以来,残差连接已成为深度学习的骨架式设计。其通过“捷径连接”绕开层层非线性变换,从根本上缓解了梯度消失或爆炸的难题,支撑起越来越深的模型结构。

长期以来,业界创新多集中于注意力机制、MoE(混合专家)等模块,残差流本身处于一种“静默的稳定”中,直至2024 年字节跳动以超连接(HyperConnection)技术打破这一局面。

字节跳动的超连接通过拓宽残差流宽度、构建多路并行信号流,并让模型学习流间的交互模式,显著提升了模型表达能力。然而,该技术在规模化训练中暴露出致命短板:信号发散。

DeepSeek的测试显示,在270亿参数模型的训练中,约12000步后梯度范数剧烈波动,训练崩溃;更严重的是,信号强度在第60层膨胀至输入值的3000倍。问题的核心在于,超连接为追求表达力,放弃了残差连接原有的恒等映射约束——小规模下尚可调参掩盖,但在大规模训练中,这一缺陷被急剧放大。

mHC的核心创新,是将可学习的变换矩阵约束在双重随机矩阵(doubly stochastic matrix)构成的流形上。这相当于为信号传播设立“刚性预算”:矩阵每行、每列元素之和均为1且非负,确保输出信号强度严格介于输入信号的最大最小值之间,从而杜绝信号爆炸。

更关键的是,双重随机矩阵具有组合不变性——多层叠加后仍保持稳定。实验表明,在超连接出现3000倍信号放大的同一场景中,mHC的信号放大峰值仅为1.6倍。为控制计算开销,DeepSeek 采用Sinkhorn-Knopp 迭代进行投影,仅需20轮迭代即可收敛,额外训练成本被压制在6.7%。

硬件约束倒逼的不仅是算法创新,更是全链路的系统级优化。超连接拓宽残差流后,每层数据读写量倍增,在A800/A100的有限互联带宽下,芯片极易陷入“等待数据远多于计算”的效率陷阱。DeepSeek通过三项关键技术破局:

1.算子融合:将内存访问模式相近的操作合并为单一GPU内核,减少数据搬运;

2.反向传播重计算:不存储中间激活值,改为实时重算,以计算换内存;

3.流水线并行优化:重叠跨GPU通信与本地计算,用计算掩盖通信延迟。

这些优化将原本随层数线性增长的内存开销,转化为可由模块大小控制的有界开销。配合基于 TileLang 编写的混合精度内核(bfloat16 为主,float32 保关键精度),实现了全参数规模下的稳定性性能提升。测试中,30亿至270 亿参数模型搭载mHC后均表现优异,270亿模型在BIG-Bench Hard复杂推理任务上提升 2.1%,在 DROP阅读理解任务上提升2.3%。

此前,V3架构论文对应V3模型,R1推理论文对应R1模型;本次mHC论文在 2026 年春节前三周发布,外界普遍预期下一代旗舰模型(R2)即将亮相。

这种“论文先行”的策略,既通过同行评议建立技术公信力,又在复杂地缘环境中为原创性留下时间戳,更向全球传递一个明确信息:中国AI企业的核心竞争力,并非依赖尖端算力芯片。

DeepSeek选择通过arXiv、Hugging Face等开放平台而非传统期刊发布成果,虽牺牲部分学术声望,却换来了技术传播的速度与可达性。这种开放模式加速了知识扩散,也对同行构成直接竞争压力:当 mHC 的性能增益可量化、实现可复现时,西方实验室要么跟进类似技术,要么必须论证自身路径的优越性。

此前R1 型已触发推理模型研发热潮,mHC架构很可能推动残差流优化进入新一轮迭代。更重要的是,这一模式向技术管制者传递了清晰信号:硬件限制并未扼杀创新,反而迫使中国AI企业走向“从数学根源解决问题”的最本质路径。

字节跳动与 DeepSeek,先后踏入同一条“突破传统残差流”的创新之河。前者率先探路,却止步于规模化瓶颈;后者在硬件约束的倒逼下,凭借数学约束与系统级优化,架起了一座可通航的技术之桥。

距离2026年春节仅剩六周,R2模型的发布将检验mHC架构的工业化成色。无论最终基准测试结果如何,这条“在约束中创新”的路径已具备里程碑意义——它清晰证明,AI竞赛不只有“烧钱堆算力”这一条赛道。硬件限制从来不是创新的绊脚石,而是催生真正核心突破的催化剂。

来源:https://36kr.com/p/3639929061870983
上一篇格陵兰冰盖7000年前曾完全消融?西班牙研究揭秘 下一篇Redmi Turbo 5 与 Pad 2 Pro 发布在即:搭载天玑9500S/骁龙7s Gen4
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
优必选CEO周剑:家庭机器人生态核心投入过半精力
科技数码 · 2026-07-01

优必选CEO周剑:家庭机器人生态核心投入过半精力

先说几个核心判断:优必选正在布局一盘长远战略。创始人兼CEO周剑在近期一场媒体沟通会上,直接亮出了公司未来的发展路线——工业、商用、家庭陪伴机器人三条业务主赛道并行推进,现阶段每条线各占约一半精力。一边是已经能够稳定创造收入的工业场景,另一边则是他眼中“最具想象力与未来空间”的家庭陪伴领域。工业人形

CPO/NPO/OIO开启封装级光连接价值空间,技术路线尚未收敛
科技数码 · 2026-07-01

CPO/NPO/OIO开启封装级光连接价值空间,技术路线尚未收敛

6月30日,申银万国在光连接系列研报中重点指出,MPO光连接器领域的投资机会值得高度关注。通俗来说,随着AI算力集群持续扩张,光互联升级带来的连锁效应——数据中心光纤通道数量、前面板端口密度、机柜内光纤管理复杂度——均在同步攀升。光连接器的角色早已超越传统的低价值标准件,如今它直接决定着链路插损、可

龙岗AR实景剧本游内测体验短板有效破解之道
科技数码 · 2026-07-01

龙岗AR实景剧本游内测体验短板有效破解之道

在今年龙岗区第二届人工智能与机器人发展大会上,区级部门一次性推出了7个AI“龙搭子”。其中,名为“龙导游”的成果成为文商旅融合领域的核心亮点。据南都N视频记者了解,依托“龙导游”打造的全区全域AR实景剧本游“龙岗大陆”,已在今年五一假期发布了内测版本。经过一个月市场验证后,该项目正式启动面向全社会的

南下资金6月30日净买入中芯国际与建滔积层板
科技数码 · 2026-07-01

南下资金6月30日净买入中芯国际与建滔积层板

6月30日,南下资金持续大举买入港股,单日净流入金额高达58 95亿港元。接下来,我们直接盘点哪些个股获得资金青睐、哪些遭到减持: 净买入方面,中芯国际领跑全场,单日吸金19 33亿港元;建滔积层板紧随其后,净买入10 59亿港元;腾讯控股获得7 65亿港元净流入;智谱(02513 HK)也有6 5

电动汽车电池新国标7月实施热失控不起火不爆炸
科技数码 · 2026-07-01

电动汽车电池新国标7月实施热失控不起火不爆炸

自2026年7月1日起,两项关乎电动汽车安全的核心强制性国家标准将正式实施,为行业加装“安全锁”——《电动汽车安全要求》(GB 18384-2025)与《电动汽车用动力蓄电池安全要求》(GB 38031-2025)同步落地。此次标准升级,从整车架构与电池系统两大维度,精准填补了近年来多起事故暴露出的