DeepSeek-v3团队的成果之所以亮眼,很大程度上要归功于他们将算法与基础设施进行了深度绑定。这种“算法与Infra不分家”的做法,在如今的大模型圈子里其实相当稀缺。能同时吃透算法和底层系统的人才本就不多,而DeepSeek恰恰是那支底蕴深厚的团队之一。不少核心成员都有OI(信息学竞赛)背景,对于这类人来说,优化计算策略、深挖处理器体系结构,几乎是刻在骨子里的本能。反观当下,不少算法岗的新人代码能力确实偏弱,能打通算法与工程的更是凤毛麟角。
当然,在更底层的芯片互联以及数学层面,这个领域里同样不乏其他深耕者。比如FP8训练这类量化技术,本质上就是一套精巧的“精度换效率”的把戏,理解其背后的数学逻辑往往比单纯会调库更重要。
1. 算力不再应当只是约束,而是一个可以联合优化的变量
其实在很多年前,阿里妈妈团队在将深度学习引入推荐系统时,就已经实践过大量算法与算力基础设施协同的工作。当时周国睿老师的一句话至今看来仍是金玉良言:“算力不再应当只是约束,而是一个可以联合优化的变量。” 这种思路放在今天的大模型训练上,依然极具指导意义。
量化交易领域的情况与此高度相似。它同样要求在严格的时间约束下,实现算力与算法的精妙平衡。高频交易策略更是把这一挑战推向了极致——涉及到硬件、算法、算力三者的协同作战。为了换取那微秒级的优势,有的团队甚至不惜牺牲稳定性,用家用CPU超频来压榨运算速度,或在网卡上抠掉一个看似不重要的寄存器。当然,这类涉及交易网络底层设计的工作,往往受到严格的合规约束,并非所有人都能涉足。
需要指出的是,对于当前主流的Transformer架构,业界其实存在不少保留意见。一个核心观点是:依赖极端算力堆砌的Scaling Law,未必是通往通用人工智能的正确路径。这促使了更多的工作聚焦于底层的算力优化,以及顶层算法背后的数学原理。
在底层算力方面,例如GPU微架构分析、Tensor运算优化和AI翻跟斗互联都是关键方向。而在数学层面,有一个相当大胆的判断:这一次人工智能革命,可能会首次将范畴论、代数拓扑、代数几何这些二十世纪的数学大规模搬上商用计算的舞台。比如,最近出现的基于Topos视角的多模态大模型研究,或是Grothendieck图神经网络,似乎隐约透露出一丝光芒。这些代数结构与GNN所面临的稀疏计算效率问题,看似与AGI无关,但它们极有可能是模拟人脑认知方式中最精妙的部分。
顺着这个思路,甚至可以将当前的模型训练过程与CPU体系结构做一个类比:
原始的GPT模型就像一个顺序执行的处理器:预测下一个token,类似于PC++,在历史token的“栈”上操作。
到了o1/o3这类大推理模型,无论是通过MoE还是强化学习中的PRM,本质上都在token预测上引入了“分支”:跳转、循环、回溯。PRM就好比CPU的分支预测器。从体系架构角度看,这正在让大模型逐步逼近图灵完备的处理能力。
基于这个观点,当前的GPU TensorCore/CUDA Core扮演了执行引擎的角色,但还需要控制单元、译码器、LSU等配套。基础设施的演进因此有了更多值得探索的话题。
一个更进一步的判断是:当前的Transformer模型本身负责生成token的“数据路径”,而Grothendieck图神经网络这类代数结构,有望成为模型的“控制路径”——这或许是通往大推理模型的一条可行之路。
2. 硬件和体系架构的演进
DeepSeek-v3的实现堪称优雅,比如它充分考虑了H800芯片因制裁而被阉割的影响,在训练中果断放弃了TP并行。针对MoE架构的AlltoAll通信,它做了极致的优化,涉及PXN、IBGDA、warp specialization以及dual pipe等技术。相比之下,其他一些头部团队处理AlltoAll时还在苦苦挣扎,前两年OCP上甚至还有人呼吁“Call for Action”。Meta的Llama 3在训练MoE时据说就遭遇了失败,这恐怕也是为什么他们训练成本高出十倍的原因。
回到DeepSeek团队对未来硬件的需求上:当前H800的132个SM中,竟有20个被用于通信,这显然是一种浪费。他们需要通信协处理器,并希望从计算单元的角度,统一ScaleOut和ScaleUp网络,让计算单元能通过简单的原语提交通信请求。值得留意的是,这些构想其实在几年前就已经被论证并实现了。
早在2018年,随着Transformer模型兴起和模型变大导致通信成为瓶颈,就有团队开始AI基础设施的预研,甚至率先将深度学习模型引入路由器以应对性能和安全场景。随后,NetDAM的设计与实现被提出。直到今天你会发现,Tesla的TTPoE本质上也是在解决同样的问题。
时至今日,DeepSeek对未来硬件的这些演进设想,几乎都能在这一套框架内实现。
这套方案的核心思路是:在GPU侧呈现为一个标准的内存接口,通过NetDAM上的一片内存,基于内存语义彻底融合了ScaleOut(跨主机)和ScaleUp(主机内部)的通信。DeepSeek提到的Read/Write/Multicast/Reduce等操作,本就是这个框架一开始就设计的功能。而传统方案如RoCE,则需要多次访问GPU内存并引入CPU控制流,效率远不及直接在NetDAM上卸载。至于后续的量化与Scale相关的近内存计算,NetDAM更是天然的附着点。通过直接旁路PCIe,延迟可以轻松超越传统方案。
当然,这个世界并不完美,产业格局决定了“人总归是有屁股的”。比如Cisco的重心曾全部押注Silicon One,Intel守着UPI在CXL上犹犹豫豫,而Nvidia在B200这一代虽然尝试将IB和NVSwitch的交换芯片融合,最终迫于现实还是分开了。技术演进,终究是理想与现实妥协的产物。
