全面深度解读DeepSeek-v3基础设施演进核心技术要点_AI热点日报

全面深度解读DeepSeek-v3基础设施演进核心技术要点

类型：热点整理2026-06-30

DeepSeek-v3团队将算法与基础设施深度绑定，算力被视为联合优化变量而非约束。底层硬件通信优化与代数拓扑、范畴论等数学原理的应用，可能推动大模型向图灵完备处理器演进。NetDAM等框架通过内存语义融合跨主机与主机内通信，提升效率。

DeepSeek-v3团队的成果之所以亮眼，很大程度上要归功于他们将算法与基础设施进行了深度绑定。这种“算法与Infra不分家”的做法，在如今的大模型圈子里其实相当稀缺。能同时吃透算法和底层系统的人才本就不多，而DeepSeek恰恰是那支底蕴深厚的团队之一。不少核心成员都有OI（信息学竞赛）背景，对于这类人来说，优化计算策略、深挖处理器体系结构，几乎是刻在骨子里的本能。反观当下，不少算法岗的新人代码能力确实偏弱，能打通算法与工程的更是凤毛麟角。

当然，在更底层的芯片互联以及数学层面，这个领域里同样不乏其他深耕者。比如FP8训练这类量化技术，本质上就是一套精巧的“精度换效率”的把戏，理解其背后的数学逻辑往往比单纯会调库更重要。

1. 算力不再应当只是约束，而是一个可以联合优化的变量

其实在很多年前，阿里妈妈团队在将深度学习引入推荐系统时，就已经实践过大量算法与算力基础设施协同的工作。当时周国睿老师的一句话至今看来仍是金玉良言：“算力不再应当只是约束，而是一个可以联合优化的变量。” 这种思路放在今天的大模型训练上，依然极具指导意义。

量化交易领域的情况与此高度相似。它同样要求在严格的时间约束下，实现算力与算法的精妙平衡。高频交易策略更是把这一挑战推向了极致——涉及到硬件、算法、算力三者的协同作战。为了换取那微秒级的优势，有的团队甚至不惜牺牲稳定性，用家用CPU超频来压榨运算速度，或在网卡上抠掉一个看似不重要的寄存器。当然，这类涉及交易网络底层设计的工作，往往受到严格的合规约束，并非所有人都能涉足。

需要指出的是，对于当前主流的Transformer架构，业界其实存在不少保留意见。一个核心观点是：依赖极端算力堆砌的Scaling Law，未必是通往通用人工智能的正确路径。这促使了更多的工作聚焦于底层的算力优化，以及顶层算法背后的数学原理。

在底层算力方面，例如GPU微架构分析、Tensor运算优化和AI翻跟斗互联都是关键方向。而在数学层面，有一个相当大胆的判断：这一次人工智能革命，可能会首次将范畴论、代数拓扑、代数几何这些二十世纪的数学大规模搬上商用计算的舞台。比如，最近出现的基于Topos视角的多模态大模型研究，或是Grothendieck图神经网络，似乎隐约透露出一丝光芒。这些代数结构与GNN所面临的稀疏计算效率问题，看似与AGI无关，但它们极有可能是模拟人脑认知方式中最精妙的部分。

顺着这个思路，甚至可以将当前的模型训练过程与CPU体系结构做一个类比：

原始的GPT模型就像一个顺序执行的处理器：预测下一个token，类似于PC++，在历史token的“栈”上操作。
到了o1/o3这类大推理模型，无论是通过MoE还是强化学习中的PRM，本质上都在token预测上引入了“分支”：跳转、循环、回溯。PRM就好比CPU的分支预测器。从体系架构角度看，这正在让大模型逐步逼近图灵完备的处理能力。
基于这个观点，当前的GPU TensorCore/CUDA Core扮演了执行引擎的角色，但还需要控制单元、译码器、LSU等配套。基础设施的演进因此有了更多值得探索的话题。

一个更进一步的判断是：当前的Transformer模型本身负责生成token的“数据路径”，而Grothendieck图神经网络这类代数结构，有望成为模型的“控制路径”——这或许是通往大推理模型的一条可行之路。

2. 硬件和体系架构的演进

DeepSeek-v3的实现堪称优雅，比如它充分考虑了H800芯片因制裁而被阉割的影响，在训练中果断放弃了TP并行。针对MoE架构的AlltoAll通信，它做了极致的优化，涉及PXN、IBGDA、warp specialization以及dual pipe等技术。相比之下，其他一些头部团队处理AlltoAll时还在苦苦挣扎，前两年OCP上甚至还有人呼吁“Call for Action”。Meta的Llama 3在训练MoE时据说就遭遇了失败，这恐怕也是为什么他们训练成本高出十倍的原因。

回到DeepSeek团队对未来硬件的需求上：当前H800的132个SM中，竟有20个被用于通信，这显然是一种浪费。他们需要通信协处理器，并希望从计算单元的角度，统一ScaleOut和ScaleUp网络，让计算单元能通过简单的原语提交通信请求。值得留意的是，这些构想其实在几年前就已经被论证并实现了。

早在2018年，随着Transformer模型兴起和模型变大导致通信成为瓶颈，就有团队开始AI基础设施的预研，甚至率先将深度学习模型引入路由器以应对性能和安全场景。随后，NetDAM的设计与实现被提出。直到今天你会发现，Tesla的TTPoE本质上也是在解决同样的问题。

时至今日，DeepSeek对未来硬件的这些演进设想，几乎都能在这一套框架内实现。

这套方案的核心思路是：在GPU侧呈现为一个标准的内存接口，通过NetDAM上的一片内存，基于内存语义彻底融合了ScaleOut（跨主机）和ScaleUp（主机内部）的通信。DeepSeek提到的Read/Write/Multicast/Reduce等操作，本就是这个框架一开始就设计的功能。而传统方案如RoCE，则需要多次访问GPU内存并引入CPU控制流，效率远不及直接在NetDAM上卸载。至于后续的量化与Scale相关的近内存计算，NetDAM更是天然的附着点。通过直接旁路PCIe，延迟可以轻松超越传统方案。

当然，这个世界并不完美，产业格局决定了“人总归是有屁股的”。比如Cisco的重心曾全部押注Silicon One，Intel守着UPI在CXL上犹犹豫豫，而Nvidia在B200这一代虽然尝试将IB和NVSwitch的交换芯片融合，最终迫于现实还是分开了。技术演进，终究是理想与现实妥协的产物。

来源：https://www.53ai.com/news/LargeLanguageModel/2025021794537.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。