游乐游手机版
首页/AI热点日报/热点详情

全面揭秘DeepSeek大模型算力规模与实际GPU使用数量

类型:热点整理2026-07-02
DeepSeek与幻方量化共享资源,GPU投资超5亿美元,使用约5万个HopperGPU(含H800、H100及H20),总资本支出约16亿美元。其训练成本远非仅600万美元预训练费用,还包括研发与硬件总拥有成本。技术创新如多头潜在注意力大幅降低推理成本。

AI大模型DeepSeek凭借其极低的定价策略与出色的运算效率,在全球范围内引发了广泛关注。其背后的GPU资源投入规模,也因此成为了业界讨论的焦点。

核心内容:

  • DeepSeek的低价策略及其对AI算力市场观念的冲击
  • DeepSeek与幻方量化的渊源及GPU资源配置详情
  • DeepSeek的GPU投资规模与全球资源分布状况

DeepSeek到底用了多少GPU?

针对这一问题,网络上众说纷纭,甚至连被誉为“硅谷钢铁侠”的马斯克也对DeepSeek提出了强烈的质疑:他不相信这家公司仅仅使用了极少的芯片就能达成如此效果。

那么,DeepSeek到底使用了多少GPU呢?近期,海外分析机构SemiAnalysis对此话题进行了深度剖析,其中许多判断较为符合现实情况。以下将结合该机构的核心观点展开详细解读。

DeepSeek与幻方量化

对于长期关注AI大模型领域的人士而言,DeepSeek严格意义上并不算一家完全从零起步的新公司。

其创始人梁文锋1985年出生于广东湛江,于2015年与友人共同创立了幻方量化(High-Flyer),该公司是最早在交易算法中引入人工智能技术的机构之一。他们很早就洞察到AI在金融领域之外的巨大潜力,以及算力扩展的重要性,因此持续扩充GPU储备。在2021年出口管制政策实施之前,High-Flyer就已经投资了1万个A100 GPU,这一前瞻性举措为其带来了丰厚的回报。

随着High-Flyer技术的不断精进,2023年5月,团队意识到是时候将“DeepSeek”分拆出来,以便更专注地探索更深层次的人工智能能力。当时,外部投资者对AI领域兴趣寥寥,主要顾虑在于缺乏清晰的商业模式。因此,High-Flyer选择自行注资成立这家公司——这在今天看来,堪称一次极其明智的布局。由于这层渊源,如今High-Flyer与DeepSeek在人力资源和计算资源上经常共享。

DeepSeek已经发展成为一项严肃且有组织架构的战略项目,绝非许多媒体所宣称的“副业”。SemiAnalysis认为,即便考虑到出口管制的影响,DeepSeek在GPU上的累计投资也已超过了5亿美元。

DeepSeek的GPU资源分布

SemiAnalysis预估,DeepSeek训练模型大约使用了5万个Hopper架构的GPU,但这并不等同于5万个H100。英伟达根据不同地区的法规,生产了H100的不同变体(如H800、H20),目前仅有H20可供中国的模型供应商合法使用。需要注意的是,H800的计算能力与H100相同,但其网络带宽相对较低。

SemiAnalysis判断,DeepSeek大约动用了1万个H800和1万个H100来执行训练任务。此外,他们还订购了数量更多的H20——英伟达在过去9个月中,已经生产了超过100万个专门为中国市场设计的GPU。这些GPU资源在High-Flyer和DeepSeek之间共享,并在一定程度上实现了地理上的分散部署,用于交易执行、模型推理、算法训练和研究开发等多个环节。

分析数据显示,DeepSeek的服务器总资本支出约为16亿美元,其中运营这些集群的相关成本相当可观,达到了9.44亿美元。同样,所有AI实验室和超大规模云服务商都会将大量GPU用于研究、训练等多样化任务,而非仅仅服务于单次训练运行。因此,如何高效集中资源应对特定任务的训练,也是DeepSeek所面临的现实挑战之一。

在人才招募方面,DeepSeek专注于从中国本土招聘人才,不过分看重过往资历,而是重点考察候选人的实际能力与好奇心。据了解,DeepSeek定期在北京大学和浙江大学等顶尖高校举办招聘会,许多核心员工均毕业于这些学府。职位描述也并非预先严格定义,招聘人员被赋予了充分的灵活性,甚至在招聘广告中宣称可以“无限制使用数万个GPU”。

DeepSeek极具竞争力,据称可为有潜力的候选人提供超过130万美元的年薪,远高于国内其他竞争对手(如月之暗面 Moonshot)。公司目前拥有约150名员工,但正处于快速扩张阶段。

正如历史一再证明的那样,一个资金充裕且目标专注的小型初创公司,往往能够突破现有的边界。DeepSeek没有谷歌那样的臃肿官僚体系,并且由于是自筹资金,他们可以迅速推进创新想法。与谷歌类似,DeepSeek(在大多数情况下)自主运营数据中心,不依赖外部服务商或提供商——这为实验探索打开了更多空间,使其能够在整个技术栈中实现创新。

SemiAnalysis认为,DeepSeek是当今最优秀的“开放灵活”实验室,其表现甚至超越了Meta的Llama项目、Mistral等知名团队。

DeepSeek的训练成本与性能表现

近期,一则新闻头条宣称DeepSeek的价格与效率引发了全球热潮,标题中提到“DeepSeek V3的训练成本仅为600万美元”,这一说法是错误的。这无异于指出产品物料清单中的某个特定部件,并试图将其视作全部成本。事实上,预训练成本只是总成本中一个非常狭窄的组成部分。

下面我们来梳理DeepSeek整体的训练成本构成。预训练的成本远远不是模型实际花费的全部。SemiAnalysis认为,在整个公司的发展历程中,DeepSeek在硬件上的支出已远超5亿美元。在模型开发过程中,为了探索新的架构创新,团队需要在测试新想法、新架构方案以及消融实验上投入相当可观的资金。

例如,多头潜在注意力(Multi-Head Latent Attention, MLA)是DeepSeek的一项关键创新,其开发耗费了团队数月时间,涉及了大量的人力与GPU资源。

文中所提及的600万美元成本,仅被归因于一次预训练运行的GPU成本,这仅仅是模型总成本中的一小部分。被排除在外的,还包括研发投入以及硬件本身的总拥有成本(TCO)等重要组成部分。

作为参考,Claude 3.5 Sonnet的训练成本高达数千万美元——如果这就是Anthropic所需的全部成本,那么他们就没有必要从谷歌筹集数十亿美元、从亚马逊筹集数百亿美元了。因为实际的成本还包括进行实验、提出新架构、收集与清理数据、支付员工薪酬等众多环节。

那么,DeepSeek是如何拥有如此庞大的GPU集群的呢?出口管制的滞后效应是一个关键因素。此外,他们还大量订购了专为中国市场需求而生产的H20型号GPU。

接下来看V3的性能表现。V3无疑是一款令人印象深刻的模型,但值得注意的是,这种“令人印象深刻”是相对于什么参照物而言的。许多人将V3与GPT-4o进行比较,并强调V3的性能超越了4o——这一说法本身属实,但GPT-4o是在2024年5月发布的。在AI领域,这段时间已经足以带来显著的算法进步。

随着时间的推移,使用较少的计算资源实现相同甚至更强的能力是正常现象。例如,如今可以在笔记本电脑上运行的小型模型,其性能已能与GPT-3相当,而GPT-3当年需要超级计算机进行训练,且推理过程需要多个GPU协同工作。

换句话说,算法改进使得训练和推理同等能力模型所需的计算量持续减少,这种模式在历史上已经反复出现。这一次之所以引起全球关注,是因为它来自中国的一家实验室。但小型模型性能提升本身并非新鲜事。

截至目前,我们见证的这种模式表明,人工智能实验室在绝对美元支出上花费更多,以换取更高的性价比。据估算,算法进步的速度约为每年4倍——每过一年,实现相同能力所需的计算量就会减少到原来的四分之一。Anthropic的首席执行官Dario认为,算法进步的速度甚至更快,可以带来10倍的提升。就GPT-3级别的推理定价而言,成本已经降低了1200倍。

在研究GPT-4的成本变化时,我们也看到了类似的下降趋势,尽管目前仍处于曲线更早期的阶段。虽然随着时间的推移,成本差异的缩小可以通过“不再保持能力恒定”来解释,但在这里,算法改进与优化带来了成本10倍的降低以及能力10倍的提升。

需要明确的是,DeepSeek的独特之处在于,他们率先实现了这一成本与能力的平衡点。他们在发布开源权重方面也同样独具特色——尽管此前的Mistral和Llama模型也曾这样做过。DeepSeek已经实现了当前的成本水平,但到今年年底,成本再下降5倍也无需感到惊讶。

R1的性能是否与o1相当?

另一方面,R1能够达到与o1相当的结果,而o1在9月才刚刚发布。DeepSeek是如何如此迅速地迎头赶上的呢?

答案在于,推理是一个全新的范式,它具有更快的迭代速度和更低的入门门槛,能够在较小计算量的情况下取得有意义的收益,这比之前的范式更具优势。正如在扩展定律报告中所概述的那样,之前的范式高度依赖预训练,而这正变得越来越昂贵,也越来越难以获得稳健的收益。

这个新范式的核心在于,通过在现有模型上进行后训练的合成数据生成和强化学习(RL)来实现推理能力,这使得研究团队能够以更低的价格实现更快的进步。较低的入门门槛加上易于优化的特点,使得DeepSeek能够比以往任何时候都更快地复制o1的方法。随着参与者逐渐学会在这个新范式中实现更大规模的扩展,预计未来匹配能力的时间差距将会增加。

需要注意的是,R1的论文中并未提及所使用的计算量——这并非偶然。为了进行R1的后训练,生成合成数据需要大量的计算资源,更不用说强化学习本身了。R1无疑是一个非常优秀的模型,如此迅速地达到推理能力的前沿是令人敬佩的。DeepSeek作为一家中国公司,用更少的资源就迎头赶上,这一点更加令人印象深刻。

但是,R1所引用的一些基准测试也存在一定的误导性。将R1与o1进行比较颇具挑战,因为R1刻意没有提及那些他们没有领先的基准测试。而且,尽管R1在推理性能上与o1大致相当,但在许多具体指标上,它并非明确的胜者,在许多情况下甚至比o1表现更差。

我们还没有提到O3——O3的能力比R1和O1都要高出许多。事实上,OpenAI最近分享了O3的结果,其基准测试的提升是“垂直”式的。“深度学习撞墙了”?但这是另一种类型的“墙”。

谷歌的推理模型与R1相比如何?

尽管R1引发了大量炒作,但一家市值2.5万亿美元的公司早在1个月前就发布了一款更便宜的推理模型:谷歌的Gemini Flash 2.0 Thinking。该模型已经可供使用,并且比R1便宜得多,尽管其通过API提供的模型上下文长度要大得多。在已报告的基准测试中,Flash 2.0 Thinking击败了R1,尽管基准测试并不能说明全部问题。谷歌仅发布了3个基准测试,因此这只能反映部分情况。尽管如此,谷歌的模型是稳健的,在许多方面都能与R1抗衡,尽管它并没有受到太多炒作。这可能是因为谷歌糟糕的上市策略和用户体验不佳,但也因为R1是一个来自中国的“惊喜”产品。

明确地说,这些都不会削弱DeepSeek的杰出成就。DeepSeek作为一个行动迅速、资金充足、头脑聪明且专注的初创公司,能够击败像Meta这样的巨头率先发布推理模型,这是值得称赞的。

DeepSeek技术创新

DeepSeek破解了AI大模型的某些关键“密码”,解锁了领先实验室尚未实现的创新。SemiAnalysis预计,DeepSeek发布的任何改进成果都将被西方实验室几乎立即复制。

这些改进具体是什么?大多数架构上的成就都与V3有关,而V3是R1的基础模型。下面我们来详细拆解这些创新。

训练方面(预训练与微调)

DeepSeek V3在前所未有的规模上使用了多标记预测(MTP),并且增加了注意力模块,这些模块不仅预测单一标记,还能预测接下来的几个标记。这在训练期间显著提升了模型性能,并且可以在推理阶段被舍弃。这是一个通过算法创新,在降低计算量的同时提升性能的典型案例。

此外,还有其他技术考量,比如在训练中使用FP8精度,但领先的美国实验室早已进行了长时间的FP8训练。

DeepSeek V3也是一种混合专家(MoE)模型,它由一个大型模型和许多擅长不同任务的小型“专家”子模型组成——这是一种涌现行为。混合专家模型面临的一个核心挑战是,如何确定每个标记应该分派给哪个子模型或“专家”。

DeepSeek实现了一个“门控网络”,能够以平衡的方式将标记高效地分派给正确的专家,同时不会降低模型性能。这意味着分派过程非常高效,并且在训练期间,相对于模型的整体参数量,每个标记只激活并更新少量参数。这提高了训练效率,并降低了推理成本。

尽管有人担心混合专家(MoE)的效率提升可能会减少行业总投资,但Dario指出,更强大的人工智能模型带来的经济效益是如此巨大,以至于任何成本节约都会迅速被重新投入到构建更大规模的模型中。与其减少整体投资,MoE的效率提升反而会加速人工智能的扩展努力。各大公司正专注于将模型扩展到更多的计算资源上,并在算法上持续提升其效率。

就R1而言,它从一个强大的基础模型(V3)中受益匪浅。这在一定程度上归功于强化学习(RL)。强化学习有两个重点:一是格式化(以确保模型产生连贯的输出),二是有用性与无害性(以确保模型是有用的)。推理能力则是在模型基于合成数据集进行微调的过程中逐渐涌现的。

需要注意的是,R1论文中没有提及计算量——这是因为提及所使用的计算量可能会暴露他们实际拥有的GPU数量远超其声称的数字。这种规模的强化学习需要消耗大量的计算资源,尤其是用于生成合成数据。

此外,DeepSeek使用的部分训练数据似乎来自于OpenAI的模型,SemiAnalysis认为这将对从模型输出中提取信息的政策产生影响。这在服务条款中已经是非法的,但展望未来,一种新的趋势可能是某种形式的KYC(了解你的客户)机制,以阻止信息被提取。

说到信息提取,R1论文中最有趣的部分或许是,能够通过使用推理模型的输出来对较小的非推理模型进行微调,从而将它们转化为推理模型。数据集策划总共包含了80万个样本,现在任何人都可以利用R1的思维链(CoT)输出来创建自己的数据集,并借助这些输出制作推理模型。我们可能会看到更多较小的模型展现出推理能力,从而显著提升小模型的性能表现。

多头潜在注意力(MLA)

MLA是DeepSeek大幅降低推理成本的关键创新之一。其核心原因是,MLA将每个查询所需的KV缓存减少了约93.3%,这与标准注意力机制相比是巨大的提升。KV缓存是Transformer模型中的一种内存机制,用于存储代表对话上下文的数据,从而减少不必要的重复计算。

随着对话上下文的增长,KV缓存也会随之增加,并会带来相当大的内存瓶颈。大幅减少每个查询所需的KV缓存,可以有效减少处理每个查询所需的硬件数量,从而显著降低成本。

然而,SemiAnalysis认为,DeepSeek目前是以成本价提供推理服务来获取市场份额,而非真正依靠此项业务盈利。相比之下,谷歌的Gemini Flash 2.0 Thinking价格更低,且谷歌不太可能以成本价提供该服务。MLA技术因其卓越的效率,特别引起了众多领先美国实验室的密切关注。MLA最早于2024年5月发布的DeepSeek V2中推出。由于H20的内存带宽和容量高于H100,DeepSeek在推理工作负载方面也享受到了更高的效率。

就目前而言,DeepSeek对GPU的庞大需求,凸显了进行高效人工智能基础设施规划的必要性。通过智能的工作负载分配、模型量化以及动态GPU分配策略,各类业务可以显著降低计算成本,同时保持高性能。这或许也是DeepSeek被称为“国运级”产品的重要原因吧。

END

来源:https://www.53ai.com/news/finetuning/2025030519540.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。