全面揭秘DeepSeek大模型算力规模与实际GPU使用数量_AI热点日报

DeepSeek与幻方量化共享资源，GPU投资超5亿美元，使用约5万个HopperGPU（含H800、H100及H20），总资本支出约16亿美元。其训练成本远非仅600万美元预训练费用，还包括研发与硬件总拥有成本。技术创新如多头潜在注意力大幅降低推理成本。

AI大模型DeepSeek凭借其极低的定价策略与出色的运算效率，在全球范围内引发了广泛关注。其背后的GPU资源投入规模，也因此成为了业界讨论的焦点。

核心内容：

DeepSeek的低价策略及其对AI算力市场观念的冲击
DeepSeek与幻方量化的渊源及GPU资源配置详情
DeepSeek的GPU投资规模与全球资源分布状况

DeepSeek到底用了多少GPU？

针对这一问题，网络上众说纷纭，甚至连被誉为“硅谷钢铁侠”的马斯克也对DeepSeek提出了强烈的质疑：他不相信这家公司仅仅使用了极少的芯片就能达成如此效果。

那么，DeepSeek到底使用了多少GPU呢？近期，海外分析机构SemiAnalysis对此话题进行了深度剖析，其中许多判断较为符合现实情况。以下将结合该机构的核心观点展开详细解读。

DeepSeek与幻方量化

对于长期关注AI大模型领域的人士而言，DeepSeek严格意义上并不算一家完全从零起步的新公司。

其创始人梁文锋1985年出生于广东湛江，于2015年与友人共同创立了幻方量化（High-Flyer），该公司是最早在交易算法中引入人工智能技术的机构之一。他们很早就洞察到AI在金融领域之外的巨大潜力，以及算力扩展的重要性，因此持续扩充GPU储备。在2021年出口管制政策实施之前，High-Flyer就已经投资了1万个A100 GPU，这一前瞻性举措为其带来了丰厚的回报。

随着High-Flyer技术的不断精进，2023年5月，团队意识到是时候将“DeepSeek”分拆出来，以便更专注地探索更深层次的人工智能能力。当时，外部投资者对AI领域兴趣寥寥，主要顾虑在于缺乏清晰的商业模式。因此，High-Flyer选择自行注资成立这家公司——这在今天看来，堪称一次极其明智的布局。由于这层渊源，如今High-Flyer与DeepSeek在人力资源和计算资源上经常共享。

DeepSeek已经发展成为一项严肃且有组织架构的战略项目，绝非许多媒体所宣称的“副业”。SemiAnalysis认为，即便考虑到出口管制的影响，DeepSeek在GPU上的累计投资也已超过了5亿美元。

DeepSeek的GPU资源分布

SemiAnalysis预估，DeepSeek训练模型大约使用了5万个Hopper架构的GPU，但这并不等同于5万个H100。英伟达根据不同地区的法规，生产了H100的不同变体（如H800、H20），目前仅有H20可供中国的模型供应商合法使用。需要注意的是，H800的计算能力与H100相同，但其网络带宽相对较低。

SemiAnalysis判断，DeepSeek大约动用了1万个H800和1万个H100来执行训练任务。此外，他们还订购了数量更多的H20——英伟达在过去9个月中，已经生产了超过100万个专门为中国市场设计的GPU。这些GPU资源在High-Flyer和DeepSeek之间共享，并在一定程度上实现了地理上的分散部署，用于交易执行、模型推理、算法训练和研究开发等多个环节。

分析数据显示，DeepSeek的服务器总资本支出约为16亿美元，其中运营这些集群的相关成本相当可观，达到了9.44亿美元。同样，所有AI实验室和超大规模云服务商都会将大量GPU用于研究、训练等多样化任务，而非仅仅服务于单次训练运行。因此，如何高效集中资源应对特定任务的训练，也是DeepSeek所面临的现实挑战之一。

在人才招募方面，DeepSeek专注于从中国本土招聘人才，不过分看重过往资历，而是重点考察候选人的实际能力与好奇心。据了解，DeepSeek定期在北京大学和浙江大学等顶尖高校举办招聘会，许多核心员工均毕业于这些学府。职位描述也并非预先严格定义，招聘人员被赋予了充分的灵活性，甚至在招聘广告中宣称可以“无限制使用数万个GPU”。

DeepSeek极具竞争力，据称可为有潜力的候选人提供超过130万美元的年薪，远高于国内其他竞争对手（如月之暗面 Moonshot）。公司目前拥有约150名员工，但正处于快速扩张阶段。

正如历史一再证明的那样，一个资金充裕且目标专注的小型初创公司，往往能够突破现有的边界。DeepSeek没有谷歌那样的臃肿官僚体系，并且由于是自筹资金，他们可以迅速推进创新想法。与谷歌类似，DeepSeek（在大多数情况下）自主运营数据中心，不依赖外部服务商或提供商——这为实验探索打开了更多空间，使其能够在整个技术栈中实现创新。

SemiAnalysis认为，DeepSeek是当今最优秀的“开放灵活”实验室，其表现甚至超越了Meta的Llama项目、Mistral等知名团队。

DeepSeek的训练成本与性能表现

近期，一则新闻头条宣称DeepSeek的价格与效率引发了全球热潮，标题中提到“DeepSeek V3的训练成本仅为600万美元”，这一说法是错误的。这无异于指出产品物料清单中的某个特定部件，并试图将其视作全部成本。事实上，预训练成本只是总成本中一个非常狭窄的组成部分。

下面我们来梳理DeepSeek整体的训练成本构成。预训练的成本远远不是模型实际花费的全部。SemiAnalysis认为，在整个公司的发展历程中，DeepSeek在硬件上的支出已远超5亿美元。在模型开发过程中，为了探索新的架构创新，团队需要在测试新想法、新架构方案以及消融实验上投入相当可观的资金。

例如，多头潜在注意力（Multi-Head Latent Attention, MLA）是DeepSeek的一项关键创新，其开发耗费了团队数月时间，涉及了大量的人力与GPU资源。

文中所提及的600万美元成本，仅被归因于一次预训练运行的GPU成本，这仅仅是模型总成本中的一小部分。被排除在外的，还包括研发投入以及硬件本身的总拥有成本（TCO）等重要组成部分。

作为参考，Claude 3.5 Sonnet的训练成本高达数千万美元——如果这就是Anthropic所需的全部成本，那么他们就没有必要从谷歌筹集数十亿美元、从亚马逊筹集数百亿美元了。因为实际的成本还包括进行实验、提出新架构、收集与清理数据、支付员工薪酬等众多环节。

那么，DeepSeek是如何拥有如此庞大的GPU集群的呢？出口管制的滞后效应是一个关键因素。此外，他们还大量订购了专为中国市场需求而生产的H20型号GPU。

接下来看V3的性能表现。V3无疑是一款令人印象深刻的模型，但值得注意的是，这种“令人印象深刻”是相对于什么参照物而言的。许多人将V3与GPT-4o进行比较，并强调V3的性能超越了4o——这一说法本身属实，但GPT-4o是在2024年5月发布的。在AI领域，这段时间已经足以带来显著的算法进步。

随着时间的推移，使用较少的计算资源实现相同甚至更强的能力是正常现象。例如，如今可以在笔记本电脑上运行的小型模型，其性能已能与GPT-3相当，而GPT-3当年需要超级计算机进行训练，且推理过程需要多个GPU协同工作。

换句话说，算法改进使得训练和推理同等能力模型所需的计算量持续减少，这种模式在历史上已经反复出现。这一次之所以引起全球关注，是因为它来自中国的一家实验室。但小型模型性能提升本身并非新鲜事。

截至目前，我们见证的这种模式表明，人工智能实验室在绝对美元支出上花费更多，以换取更高的性价比。据估算，算法进步的速度约为每年4倍——每过一年，实现相同能力所需的计算量就会减少到原来的四分之一。Anthropic的首席执行官Dario认为，算法进步的速度甚至更快，可以带来10倍的提升。就GPT-3级别的推理定价而言，成本已经降低了1200倍。

在研究GPT-4的成本变化时，我们也看到了类似的下降趋势，尽管目前仍处于曲线更早期的阶段。虽然随着时间的推移，成本差异的缩小可以通过“不再保持能力恒定”来解释，但在这里，算法改进与优化带来了成本10倍的降低以及能力10倍的提升。

需要明确的是，DeepSeek的独特之处在于，他们率先实现了这一成本与能力的平衡点。他们在发布开源权重方面也同样独具特色——尽管此前的Mistral和Llama模型也曾这样做过。DeepSeek已经实现了当前的成本水平，但到今年年底，成本再下降5倍也无需感到惊讶。

R1的性能是否与o1相当？

另一方面，R1能够达到与o1相当的结果，而o1在9月才刚刚发布。DeepSeek是如何如此迅速地迎头赶上的呢？

答案在于，推理是一个全新的范式，它具有更快的迭代速度和更低的入门门槛，能够在较小计算量的情况下取得有意义的收益，这比之前的范式更具优势。正如在扩展定律报告中所概述的那样，之前的范式高度依赖预训练，而这正变得越来越昂贵，也越来越难以获得稳健的收益。

这个新范式的核心在于，通过在现有模型上进行后训练的合成数据生成和强化学习（RL）来实现推理能力，这使得研究团队能够以更低的价格实现更快的进步。较低的入门门槛加上易于优化的特点，使得DeepSeek能够比以往任何时候都更快地复制o1的方法。随着参与者逐渐学会在这个新范式中实现更大规模的扩展，预计未来匹配能力的时间差距将会增加。

需要注意的是，R1的论文中并未提及所使用的计算量——这并非偶然。为了进行R1的后训练，生成合成数据需要大量的计算资源，更不用说强化学习本身了。R1无疑是一个非常优秀的模型，如此迅速地达到推理能力的前沿是令人敬佩的。DeepSeek作为一家中国公司，用更少的资源就迎头赶上，这一点更加令人印象深刻。

但是，R1所引用的一些基准测试也存在一定的误导性。将R1与o1进行比较颇具挑战，因为R1刻意没有提及那些他们没有领先的基准测试。而且，尽管R1在推理性能上与o1大致相当，但在许多具体指标上，它并非明确的胜者，在许多情况下甚至比o1表现更差。

我们还没有提到O3——O3的能力比R1和O1都要高出许多。事实上，OpenAI最近分享了O3的结果，其基准测试的提升是“垂直”式的。“深度学习撞墙了”？但这是另一种类型的“墙”。

谷歌的推理模型与R1相比如何？

尽管R1引发了大量炒作，但一家市值2.5万亿美元的公司早在1个月前就发布了一款更便宜的推理模型：谷歌的Gemini Flash 2.0 Thinking。该模型已经可供使用，并且比R1便宜得多，尽管其通过API提供的模型上下文长度要大得多。在已报告的基准测试中，Flash 2.0 Thinking击败了R1，尽管基准测试并不能说明全部问题。谷歌仅发布了3个基准测试，因此这只能反映部分情况。尽管如此，谷歌的模型是稳健的，在许多方面都能与R1抗衡，尽管它并没有受到太多炒作。这可能是因为谷歌糟糕的上市策略和用户体验不佳，但也因为R1是一个来自中国的“惊喜”产品。

明确地说，这些都不会削弱DeepSeek的杰出成就。DeepSeek作为一个行动迅速、资金充足、头脑聪明且专注的初创公司，能够击败像Meta这样的巨头率先发布推理模型，这是值得称赞的。

DeepSeek技术创新

DeepSeek破解了AI大模型的某些关键“密码”，解锁了领先实验室尚未实现的创新。SemiAnalysis预计，DeepSeek发布的任何改进成果都将被西方实验室几乎立即复制。

这些改进具体是什么？大多数架构上的成就都与V3有关，而V3是R1的基础模型。下面我们来详细拆解这些创新。

训练方面（预训练与微调）

DeepSeek V3在前所未有的规模上使用了多标记预测（MTP），并且增加了注意力模块，这些模块不仅预测单一标记，还能预测接下来的几个标记。这在训练期间显著提升了模型性能，并且可以在推理阶段被舍弃。这是一个通过算法创新，在降低计算量的同时提升性能的典型案例。

此外，还有其他技术考量，比如在训练中使用FP8精度，但领先的美国实验室早已进行了长时间的FP8训练。

DeepSeek V3也是一种混合专家（MoE）模型，它由一个大型模型和许多擅长不同任务的小型“专家”子模型组成——这是一种涌现行为。混合专家模型面临的一个核心挑战是，如何确定每个标记应该分派给哪个子模型或“专家”。

DeepSeek实现了一个“门控网络”，能够以平衡的方式将标记高效地分派给正确的专家，同时不会降低模型性能。这意味着分派过程非常高效，并且在训练期间，相对于模型的整体参数量，每个标记只激活并更新少量参数。这提高了训练效率，并降低了推理成本。

尽管有人担心混合专家（MoE）的效率提升可能会减少行业总投资，但Dario指出，更强大的人工智能模型带来的经济效益是如此巨大，以至于任何成本节约都会迅速被重新投入到构建更大规模的模型中。与其减少整体投资，MoE的效率提升反而会加速人工智能的扩展努力。各大公司正专注于将模型扩展到更多的计算资源上，并在算法上持续提升其效率。

就R1而言，它从一个强大的基础模型（V3）中受益匪浅。这在一定程度上归功于强化学习（RL）。强化学习有两个重点：一是格式化（以确保模型产生连贯的输出），二是有用性与无害性（以确保模型是有用的）。推理能力则是在模型基于合成数据集进行微调的过程中逐渐涌现的。

需要注意的是，R1论文中没有提及计算量——这是因为提及所使用的计算量可能会暴露他们实际拥有的GPU数量远超其声称的数字。这种规模的强化学习需要消耗大量的计算资源，尤其是用于生成合成数据。

此外，DeepSeek使用的部分训练数据似乎来自于OpenAI的模型，SemiAnalysis认为这将对从模型输出中提取信息的政策产生影响。这在服务条款中已经是非法的，但展望未来，一种新的趋势可能是某种形式的KYC（了解你的客户）机制，以阻止信息被提取。

说到信息提取，R1论文中最有趣的部分或许是，能够通过使用推理模型的输出来对较小的非推理模型进行微调，从而将它们转化为推理模型。数据集策划总共包含了80万个样本，现在任何人都可以利用R1的思维链（CoT）输出来创建自己的数据集，并借助这些输出制作推理模型。我们可能会看到更多较小的模型展现出推理能力，从而显著提升小模型的性能表现。

多头潜在注意力（MLA）

MLA是DeepSeek大幅降低推理成本的关键创新之一。其核心原因是，MLA将每个查询所需的KV缓存减少了约93.3%，这与标准注意力机制相比是巨大的提升。KV缓存是Transformer模型中的一种内存机制，用于存储代表对话上下文的数据，从而减少不必要的重复计算。

随着对话上下文的增长，KV缓存也会随之增加，并会带来相当大的内存瓶颈。大幅减少每个查询所需的KV缓存，可以有效减少处理每个查询所需的硬件数量，从而显著降低成本。

然而，SemiAnalysis认为，DeepSeek目前是以成本价提供推理服务来获取市场份额，而非真正依靠此项业务盈利。相比之下，谷歌的Gemini Flash 2.0 Thinking价格更低，且谷歌不太可能以成本价提供该服务。MLA技术因其卓越的效率，特别引起了众多领先美国实验室的密切关注。MLA最早于2024年5月发布的DeepSeek V2中推出。由于H20的内存带宽和容量高于H100，DeepSeek在推理工作负载方面也享受到了更高的效率。

就目前而言，DeepSeek对GPU的庞大需求，凸显了进行高效人工智能基础设施规划的必要性。通过智能的工作负载分配、模型量化以及动态GPU分配策略，各类业务可以显著降低计算成本，同时保持高性能。这或许也是DeepSeek被称为“国运级”产品的重要原因吧。

END