今天我们来深入探讨DeepSeek这一备受关注的AI热点话题。三个月前,我曾与中国科学院院士、清华大学计算机系教授张钹就一个核心问题展开对话:“为什么在提升算法效率方面,中国团队往往能做得更出色?”
张钹给出了一个非常直白的判断:“对中国企业而言,算法效率关乎生死存亡,我们必须全力以赴。或许因为美国企业拥有强大的算力支撑,算法效率对他们而言更像是锦上添花。”
当时对这句话的体会尚未如此深刻,直到后来查阅DeepSeek-V3的技术报告,被其中一张表格所震撼。

简而言之,DeepSeek-V3仅凭借2048块英伟达H800 GPU,以557.6万美元的成本完成了训练。相比之下,同等规模的模型如GPT-4、GPT-4o、Llama 3.1,其训练费用大幅提高。
这一表述本身并无问题,但在复杂的舆论环境中却引发了一些误读。例如,“中国AI企业用几百万美元击败了美国AI企业数亿美元的投入”、“成本仅为国外的三十分之一,硅谷感到恐慌”等说法广为流传。
这种误读部分源于客观因素——OpenAI、Meta官方从未公开过GPT-4、GPT-4o、Llama 3.1的训练成本,多数人对模型训练成本的结构并不熟悉。但更主要的还是主观因素——情绪驱动。
在AI大模型领域,中国AI企业长期扮演着“追随者”的角色。此次能与硅谷巨头“一较高下”,就如同霍元甲站上了与西洋力士的比武擂台,谁不想为之喝彩呢?
这种民族情感本身无可厚非,但在一定程度上也模糊了DeepSeek团队在算法、框架与硬件协同优化设计上的真正价值——而这正是DeepSeek-V3实现降本增效的关键所在。
1. 训练成本差距真的如此巨大吗?
通过查阅技术报告可以发现,DeepSeek仅公开了基座模型V3的训练成本,并未披露推理模型R1的相关费用。
DeepSeek-V3技术报告显示,该模型的正式训练成本涵盖三个阶段:预训练(pre-training)、扩展上下文(context extension)以及后训练(post-training),总计为557.6万美元。
但需要特别指出的是,这557.6万美元并不包括前期研究以及关于架构、算法或数据的消融实验所产生的成本。
前期研究与消融实验属于“隐性成本”,却不容忽视。在正式训练一个模型之前,需要开展大量的前期工作,包括算法理论研究、硬件性能探索以及数据集分析等。
消融实验(Ablation Study)是机器学习和深度学习中广泛采用的分析方法,用于评估模型各组件或特征的重要性。它类似于“减法游戏”或“排除法”,通过逐一移除或修改模型的某些部分,观察模型性能的变化,从而确定每个部分的相对重要性。此外,训练模型之前还存在一定的试错成本。
为什么称这些成本为“隐性成本”?因为大模型的前期研发往往分散在数月甚至数年中,难以量化统计;消融实验可能反复进行,但最终仅保留最优方案,失败案例的成本常被忽视;企业通常不会公开内部研发细节(如试错次数),导致外部估算容易产生偏差。
除了“隐性成本”,不同的成本计算方式也会导致截然不同的结果。
DeepSeek-V3这557.6万美元的训练成本是如何计算得出的呢?根据DeepSeek-V3技术报告的逻辑,计算公式很简单:
训练耗时(GPU小时)与H800每GPU小时租赁价格(美元)的乘积,即为DeepSeek-V3的训练成本(美元)。
正式训练所耗费的时间包括:预训练阶段耗时266.4万(2664K)GPU小时,扩展上下文长度阶段耗时11.9万(119K)GPU小时,后训练阶段耗时0.5万(5K)GPU小时。因此,DeepSeek-V3的正式训练共耗费278.8万(2788K)GPU小时。
而DeepSeek在技术报告中假设H800每GPU小时的租赁价格为2美元,这样DeepSeek-V3的训练成本即为:
2,788,000×2=5,576,000(美元)
需注意,这里是按GPU小时而非GPU数量计算,单价则是按GPU租赁价格而非GPU购买价格来核算。
采用不同的计算方式,训练成本会大相径庭。例如,为了训练Llama 3.1 405B,Meta使用了超过1.6万个英伟达H100 GPU。如果按H100 GPU的购买价格计算,其训练成本已高达数亿美元。
也可以参照DeepSeek-V3的租赁逻辑来估算。尽管Meta没有透露Llama 3.1具体的训练成本,但其技术报告显示,Llama 3.1 405B的预训练(此处指预训练时间而非完整训练时间)时长为54天。那么,Llama 3.1 405B预训练阶段耗费的GPU小时为:
天数×24小时×H100 GPU数量=预训练阶段耗费的GPU小时
54×24×16,000=20,736,000
Llama 3.1 405B于2024年7月推出。按照2024年初海外市场H100 GPU每GPU小时2.8美元的租赁价格(此为参考价格,会有浮动)计算,其预训练成本约为5800万美元。相比之下,DeepSeek-V3的532.8万美元预训练成本确实大幅降低。
而OpenAI官方从未公布过其训练成本。不过,可以从侧面进行推算。英伟达CEO黄仁勋在NVIDIA GTC 2024主题演讲中提到,若要训练一个拥有1.8万亿参数的GPT模型,采用Hopper(H100)架构大约需要8000个GPU,耗电15兆瓦,用时90天。
虽然黄仁勋并未明确说明,但根据此前多个渠道的爆料信息,这个1.8万亿参数的GPT模型就是GPT-4。

黄仁勋在演讲中解释道:“这样便能训练出开创性的AI模型。这显然没有人们想象中那么昂贵,但8000个GPU仍然是一笔巨大的投资。”
同样可以按照租赁逻辑来估算与GPT-4规模相当的模型训练成本。为什么说是估算?因为H100 GPU于2022年3月发布,但实际大规模供货和云服务商部署通常在2022年底至2023年初才开始。而GPT-4于2023年3月发布,所以GPT-4的训练更多依赖A100。
假设在2024年初,即黄仁勋发表演讲之前,训练一个与GPT-4规模相当的大模型,其训练成本为:
天数×24小时×H100 GPU数量=训练阶段耗费的GPU小时
90×24×8,000=17,280,000(小时)
训练耗费的GPU小时×H100每GPU小时租赁价格=训练成本
17,280,000×2.8=48,384,000(美元)
大约4800万美元的训练费用,确实如黄仁勋所言“没有人们想象中那么昂贵”。
而根据SemiAnalysis在2023年7月发布的分析报告,OpenAI在GPT-4的训练中使用了约2.5万个A100 GPU,训练了90到100天,利用率(MFU)约为32%至36%。这种极低的利用率部分源于大量故障需要重新启动检查点。如果每个A100 GPU的使用成本约为每小时1美元,那么仅此次训练的成本就将达到约6300万美元。
DeepSeek-V3所对标的Claude 3.5 Sonnet,其训练成本又是多少?此前Anthropic也未公布具体数字。但Anthropic CEO达里奥·阿莫迪近期在一篇评价DeepSeek的文章中透露,Claude 3.5 Sonnet的训练成本在数千万美元(cost a few $10M's to train),他还特意强调:“我不会给出具体的数字。”
“A few”在英语中通常指3到5个,因此估计Claude 3.5 Sonnet的训练费用在3000万到5000万美元之间。
统一按照DeepSeek-V3的GPU租赁逻辑计算,不考虑其他“隐性成本”,可以发现,DeepSeek-V3的训练成本相比其对标模型确实大幅降低,但并未达到某些人所称的“几十分之一”那样夸张的程度。
值得注意的是,随着技术和市场的发展,GPU租赁价格的下降使得企业和研究机构能够以更低的成本配置更多GPU,从而实现模型训练的降本增效。企业还可以采用更先进的GPU来降低训练能耗。
还记得黄仁勋举的例子吗?要训练一个拥有1.8万亿参数的GPT模型,采用Hopper(H100)架构需要约8000个GPU,耗电15兆瓦,用时90天;而采用Blackwell(GB200)架构则只需2000个GPU,耗电仅4兆瓦,约为Hopper的四分之一。
这是先进GPU带来的效率提升。然而,国内AI企业受管控限制,无法获得最先进的GPU,又是如何实现降本增效的呢?
Meta技术报告显示,Llama 3.1 405B的预训练时长为54天,使用了15万亿(15T)个tokens以及1.6万个英伟达H100 GPU进行训练。
DeepSeek-V3在预训练阶段,使用了14.8万亿(14.8T)个tokens进行训练,预训练耗时也是54天。DeepSeek-V3技术报告中同样提到“不到两个月”:
预训练阶段耗费的GPU小时÷H800 GPU数量÷24小时=天数
2,664,000÷2048÷24≈54(天)
但是,DeepSeek-V3仅使用了2048块英伟达H800 GPU,尽管可能存在利用率差异,但这与Llama 3.1 405B训练使用的1.6万个英伟达H100 GPU形成了鲜明对比。而且H800是英伟达为满足出口限制而设计的GPU,性能低于H100。
也就是说,DeepSeek-V3在GPU数量使用更少、性能也更弱的情况下,于相同时间内完成了与Llama 3.1 405B差不多的训练量。
DeepSeek-V3技术报告中的这句话“DeepSeek-V3每训练一万亿(trillion)个token仅需18万(180K)H800 GPU小时”成为了关键。
DeepSeek-V3大幅提升了模型训练效率。
2. DeepSeek如何实现降本增效?
DeepSeek-V3是一个混合专家模型(Mixed Expert Models,简称MoE),旨在通过整合多个模型或“专家”的预测来提升整体模型性能。
清华大学计算机系长聘教授、高性能计算研究所所长翟季冬在《夜话DeepSeek:技术原理与未来方向》直播中介绍,此前发布的一些MoE模型,普遍采用“专家数量少、每个专家规模大”的架构,而DeepSeek则采用了“大量细粒度的专家”模式。
“大量细粒度的专家”可以更灵活地处理各种输入数据,提高模型的适应性和泛化能力。由于每个专家的规模较小,计算效率更高,训练和存储成本也相对较低。不过,专家数量众多可能会导致模型的管理与调度变得更加复杂。
翟季冬分析指出,为提升DeepSeek-V3的模型训练效率,DeepSeek团队在四个方面进行了优化,分别是:负载均衡优化、通信优化、内存优化、计算优化。
首先是负载均衡优化。在MoE架构中,负载均衡是指将输入数据合理分配给各个专家,确保每个专家都能充分发挥其性能,同时避免某些专家过度负载而其他专家处于空闲状态。
负载均衡是MoE训练中面临的巨大挑战。如果处理不当,模型在大规模GPU集群上训练时,利用率将很难得到提升。
为解决负载均衡的挑战,DeepSeek团队创新性地提出了“Auxiliary-loss-free(无辅助损失)”负载均衡方案。
在传统MoE中,为保证各专家负载均衡,通常会引入一个Auxiliary Loss(辅助损失)。这个Auxiliary Loss会强制要求每个专家处理的任务量尽量均匀。但它可能使模型在优化过程中过度关注负载均衡,从而忽视模型自身的性能。
而DeepSeek的Auxiliary-Loss-Free方案,不再依赖额外的辅助损失,而是在每个token的专家分配过程中直接施加一个bias(偏差值)来实现负载均衡,从而动态调整专家的负载。
由于这种bias的引入已在专家选择过程中起到调控作用,使得各专家之间的token分配趋于均衡,因此无需再设计和调节额外的辅助损失项来“强制”负载平衡。这不仅简化了训练目标,也避免了因辅助损失权重设置不当而可能引发的训练不稳定问题。
简单来说,这就类似于红绿灯路口:Auxiliary loss像是固定时长的红绿灯,车流量大时路口通行效率会降低;而Auxiliary-Loss-Free中的bias则像是根据实时车流量动态调整时长的红绿灯,基于当前状态(交通流量或专家负载)动态分配资源,以达到整体平衡和高效利用。
第二是通信优化。在MoE训练中,采用专家并行会引入非常大的All to All通信开销。
什么是All to All通信开销?假设在一个MoE中,有10个专家,每个专家被放置在一个独立的计算节点上。训练过程中,每个专家需与其他所有专家进行数据交换,以更新模型参数和同步训练状态。这种情况下,每个节点都需要与其余9个节点进行通信,形成了All to All的通信模式。随着专家数量的增加,通信开销也会显著增长,导致训练效率下降。
DeepSeek-V3就包含1个共享专家和256个路由专家,它采用的并行训练策略为:16路流水线并行、64路专家并行,跨8个物理节点。
DeepSeek团队为降低通信开销,提出了DualPipe算法。
DualPipe算法的核心创新在于能够将计算和通信阶段重叠进行。在传统训练过程中,计算和通信是分开进行的,这会导致GPU在等待数据传输时出现空闲期,即所谓的“流水线气泡”(pipeline bubbles)。DualPipe算法通过确保一个微批量(micro-batch)被计算的同时,另一个微批量可以进行通信,精细地编排计算与通信,从而最大限度地减少这些空闲期,提高GPU的利用率。
DualPipe算法还采用了双向流水线机制,同时从流水线的两端处理微批量。这种策略确保在整个训练过程中GPU始终保持活跃。通过这种方式,DeepSeek能够保持良好的计算与通信比例,减少延迟,提高吞吐量。
“这里有一个需要注意的点:如果采用双向流水线,需在GPU显存里存储两份模型参数。大模型训练中内存使用至关重要。为解决这个问题,它采用了64路专家并行,双流水线可以非常有效地降低流水线气泡。”翟季冬说。
此外,DeepSeek的通信优化还包括跨节点通信优化以及Warp Specialization技术。
第三是内存优化。包括重计算、使用CPU内存以及参数共享。
大模型训练往往面临显存瓶颈。重计算的核心思想是:在前向传播过程中,只保留少量关键的中间结果,而将其他中间结果释放。当反向传播过程中需要用到这些已释放的中间结果时,再重新执行前向传播中的相应部分来计算得到。这种方法通过增加一定的计算量,显著降低内存消耗,是一种“以时间换空间”的策略。
这可以理解为一种在大模型训练过程中“偷懒”的技巧。
同时,DeepSeek还将一些数据,如模型参数的指数移动平均(EMA),存储到CPU内存,从而节约GPU显存;并将主模型与MTP(Multi-Token Prediction)模块的output head和embedding部署在相同节点,最大化地共享参数空间。
第四是计算优化。为提升训练效率,DeepSeek采用了混合精度训练策略。
DeepSeek引入了英伟达FP8混合精度训练框架,并首次在超大规模模型上验证了其有效性。通过支持FP8计算和存储,DeepSeek实现了加速训练和减少GPU内存使用。FP8训练在相同加速平台上的峰值性能显著超越FP16/BF16,并且模型参数越大,训练加速效果越好。
总的来说,翟季冬认为:DeepSeek充分挖掘了算法、软件、硬件的性能,实现了协同创新;其软件相对灵活,软件赋能硬件,弥补了硬件的诸多限制;优秀的系统软件能够充分释放底层硬件的潜力。
DeepSeek正是通过这一步步的优化,使得整个模型的训练效率得到提升,并降低了训练成本。
3.“小米加步枪”式的成功之路
经历了春节假期的喧嚣,对DeepSeek的讨论应回归理性。
不应神话DeepSeek,也不要因外部的贬低而轻视DeepSeek,这些对DeepSeek团队都不公平。其实,DeepSeek就是一种“小米加步枪”式的成功。
行云集成电路创始人季宇最近谈及DeepSeek时表示,创新的意识在国内其实并不缺乏,但缺乏Known-Why的创新往往会走向类似赌徒的歧途。
“创新并非简单的不一样的技术路线。国内其实不缺乏创新性和天马行空的想象。无论AI行业还是算力芯片行业,都有无数走非Transformer架构、非GPU架构、非冯·诺伊曼架构的差异化路线,但基本都陷入了将差异化技术路线作为主流技术路线替代品的逻辑里。”季宇说。
然而,DeepSeek的创新是一步一个脚印的。季宇告诉我们,很多人都在讲第一性原理思考问题,但实际上真正做到非常困难。第一性原理需要深入推敲,需要对每个论断的边界条件进行审视,需要深入考虑各层级技术的细节。
“之前与DeepSeek的一位师弟交流时了解到,梁老板(DeepSeek创始人梁文锋)对他写的CUDA Kernel里每个线程具体在干什么事情都了如指掌。只有这样才能从全局视角去思考突围方式,真正将创新落到实处。”季宇说。
这一点在另一位投资人那里也得到了印证。这位投资人去年曾问DeepSeek的人:“为什么你们的模型做得这么好?”
DeepSeek的人回答,因为我们的老板自己在读论文、写代码、搞招聘。
关于DeepSeek的成功,你可以说他们拥有丰富的GPU储备,也可以说他们对模型架构进行了创新,但其成功的核心往往是朴实而简单的。
DeepSeek创始人梁文锋去年接受《暗涌》采访时说的一句话,既谦虚又意味深长。他说:“我们不是有意成为一条鲶鱼,只是不小心成了一条鲶鱼。”
