黄仁勋发布三代AI芯片，个人超算每秒千万亿次，DeepSeek受益

时间：2026-06-26 16:49

英伟达GTC大会发布BlackwellUltra、Rubin及Feynman三代AI芯片，推出DGXStation与DGXSpark个人超算，后者算力每秒1000万亿次。DeepSeek-R1推理速度创全球最快，每用户超250token s。AI竞争重心转向推理效率与成本，同步发布AI工厂操作系统Dynamo。

如今，AI 行业的竞争格局已然发生深刻变化：比拼的不仅是谁的算力规模更庞大，而是谁的模型推理成本更低、效率更高。这一判断贯穿了今年英伟达 GTC 大会的整场演讲。黄仁勋在台上反复强调一个核心理念——英伟达正致力于打造“AI 工厂”，一个能让 AI 以超越人类速度进行学习与推理的基础设施。

而他发布的那些备受瞩目的重磅产品，也传递出同样的信号：未来的 AI 竞赛，胜负关键不在于模型参数的多少，而在于谁能将推理成本压至最低、将推理效率提升至最高。

除了全新 Blackwell 芯片，还有两款“真·AI PC”

全新的 Blackwell 芯片，代号为“Ultra”，也就是 GB300 AI 芯片。作为去年“全球最强 AI 芯片”B200 的继承者，它再次将性能天花板提升到了新的高度。

本次发布的两套方案包括：英伟达 GB300 NVL72 机架级解决方案，以及 HGX B300 NVL16 系统。

Blackwell Ultra GB300 NVL72 计划于今年下半年推出。核心参数明确：单个 Blackwell Ultra 芯片保持与前代相同的 20 petaflops AI 性能，但内存已升级至 288GB 的 HBM3e。

如果说 H100 擅长训练大模型，B200 更专注于推理任务，那么 B300 就是一款“全能型选手”——预训练、后训练、AI 推理，它都能从容应对。

英伟达特别指出，Blackwell Ultra 同样适用于 AI 智能体的部署，以及用于训练机器人和汽车自动驾驶的“物理 AI”。为了进一步提升系统性能，它将与 Spectrum-X 以太网和 Quantum-X800 InfiniBand 平台集成，为每个 GPU 提供 800Gb/s 的数据吞吐量。这套组合策略，本质上是为了让 AI 工厂和云数据中心能够更高效地处理推理模型。

除了 NVL72 机架，英伟达还为台式机用户带来了一个“杀手级产品”——DGX Station，搭载单颗 GB300 Blackwell Ultra 芯片。这款主机配备 784GB 的统一系统内存，内置 800Gbps 的 ConnectX-8 SuperNIC 网络，同样支持 20 petaflops 的 AI 性能。

还记得 CES 2025 上亮相的那款“迷你主机” Project DIGITS 吗？它如今正式更名为 DGX Spark，搭载专为桌面优化的 GB10 Grace Blackwell 超级芯片，每秒可提供高达 1000 万亿次 AI 计算操作。这台小巧的设备可用于微调和推理最新的 AI 模型，包括 NVIDIA Cosmos Reason 世界基础模型和 GR00T N1 机器人基础模型。

黄仁勋的设想是，借助 DGX Station 和 DGX Spark，用户既能在本地运行大模型，也能将其部署到 DGX Cloud 或其他加速云及数据中心上。用他的话来说，“这就是 AI 时代的计算机。”

目前，DGX Spark 已开放预订，而 DGX Station 预计将于今年晚些时候由华硕、戴尔、惠普等合作伙伴正式推出。

下一代 AI 芯片 Rubin 官宣，2026 年下半年推出

英伟达一向偏爱用科学家的名字命名架构，这已成为公司文化的一部分。这一次也不例外，下一代 AI 芯片平台被命名为“Vera Rubin”，以纪念美国著名天文学家薇拉·鲁宾。

黄仁勋在演讲中展示了一组对比数据：Rubin 的性能将达到 Hopper 的 900 倍，而 Blackwell 相较 Hopper 已实现 68 倍的提升。这一数据本身就极具说服力。

其中，Vera Rubin NVL144 预计于 2026 年下半年发布。关键参数如下：

标准版 Rubin 将配备 HBM4，性能相比 Hopper H100 实现大幅跃升。它引入了 Grace CPU 的继任者——Veru，包含 88 个定制 Arm 核心，每个核心支持 176 个线程，通过 NVLink-C2C 提供 1.8 TB/s 的高带宽连接。英伟达表示，定制版的 Vera 设计，速度比去年 Grace Blackwell 芯片中的 CPU 提升了一倍。

与 Vera CPU 搭配时，Rubin 在推理任务中的算力可达 50 petaflops，是 Blackwell 20 petaflops 的两倍以上。内存方面，它支持高达 288GB 的 HBM4，这也是 AI 开发者最为关注的规格之一。

有趣的是，Rubin 实际上由两个 GPU 组成，这与 Blackwell 的设计类似——后者也是通过将两个独立芯片组装成一个整体来运行的。但从 Rubin 开始，英伟达将不再像对待 Blackwell 那样把多 GPU 组件称为单个 GPU，而是更精确地按照实际 GPU 芯片裸片的数量进行计数。

互联技术也随之升级。Rubin 配备了第六代 NVLink，以及支持 1600 Gb/s 的 CX9 网卡，数据传输能力与连接性能均得到显著提升。

除了标准版，英伟达还计划推出 Rubin Ultra 版本。

Rubin Ultra NVL576 计划于 2027 年下半年推出。具体参数细节如下：

硬件配置方面，Rubin Ultra 的 Veras 系统延续了 88 个定制 Arm 核心的设计，每个核心支持 176 个线程，通过 NVLink-C2C 提供 1.8 TB/s 的带宽。GPU 方面，Rubin Ultra 集成了 4 个 Reticle-Sized GPU，每颗 GPU 提供 100 petaflops 的 FP4 计算能力，配备 1TB 的 HBM4e 内存——性能与内存容量均达到新高度。

为在瞬息万变的市场中保持领先，英伟达的产品发布节奏已缩短至一年一更。在发布会上，老黄还正式揭晓了下一代 AI 芯片的命名——物理学家费曼 (Feynman)。

随着 AI 工厂规模的持续扩大，网络基础设施的重要性日益凸显。为此，英伟达推出了 Spectrum-X™ 和 Quantum-X 硅光网络交换机，旨在帮助 AI 工厂实现跨站点连接数百万 GPU，同时显著降低能耗与运营成本。

Spectrum-X Photonics 交换机提供多种配置选项：

与之配套的 Quantum-X Photonics 交换机基于 200Gb/s SerDes 技术，提供 144 端口 800Gb/s 的 InfiniBand 连接，并采用液冷设计高效冷却板载硅光子组件。相比上一代产品，Quantum-X Photonics 交换机为 AI 计算架构提供了 2 倍的速度提升和 5 倍的可扩展性。

Quantum-X Photonics InfiniBand 交换机预计于今年晚些时候上市，而 Spectrum-X Photonics 以太网交换机则要等到 2026 年才会推出。

AI 的快速发展对数据中心的带宽、低延迟与高能效提出了更高要求。英伟达 Spectrum-X Photonics 交换机采用了一种名为 CPO 的光电子集成技术，核心思路是将光引擎和传统的电子芯片置于同一个封装内。这项技术的优势显而易见：传输效率更高、功耗更低、体积更小，空间利用率自然得到提升。

AI 工厂的“操作系统” Dynamo

黄仁勋在演讲中提出了一个观点：未来，每个行业、每家公司都将拥有两个工厂——一个是实体生产的工厂，另一个是 AI 工厂。而 Dynamo，正是为“AI 工厂”量身打造的操作系统。

Dynamo 是一个分布式推理服务库，本质上是为了解决“需要 token 但无法获得足够 token”的问题而提供的一个开源解决方案。简单来说，其优势体现在四个方面：GPU 规划引擎可动态调度 GPU 资源以适应需求变化；智能路由器减少 GPU 对重复请求的重新计算，释放算力以应对新请求；低延迟通信库加速数据传输；内存管理器则智能地在低成本内存和存储设备中处理推理数据。

人形机器人的露脸环节，永远不会缺席

人形机器人再次成为 GTC 大会的压轴亮点。这次英伟达带来了 Isaac GR00T N1，全球首款开源人形机器人功能模型。

黄仁勋表示，通用机器人技术的时代已经到来。借助 Isaac GR00T N1 核心的数据生成以及机器人学习框架，全球各地的机器人开发者将迈入 AI 时代的下一前沿领域。

该模型采用“双系统”架构，模仿人类的认知原理：在视觉语言模型的支持下，系统 2 对环境和指令进行推理并规划动作，系统 1 则将规划转化为机器人的实际动作。GR00T N1 的基础模型已用广义的类人推理和技能进行了预训练，开发者可通过真实或合成数据进行后训练，以满足特定需求——无论是工厂中的特定任务，还是在家中自主完成家务，都能胜任。

黄仁勋还宣布了与 Google DeepMind 和 Disney Research 合作开发的开源物理引擎 Newton。

一台搭载 Newton 平台的机器人也登上了舞台。黄仁勋称其为“Blue”，外观酷似《星球大战》中的 BDX 机器人，能用声音和动作与老黄进行互动。

8 块 GPU，DeepSeek-R1 推理速度创全球之最

英伟达实现了全球最快的 DeepSeek-R1 推理。官网数据显示，一台搭载 8 个 Blackwell GPU 的 DGX 系统，在运行 6710 亿参数的 DeepSeek-R1 模型时，可实现每用户每秒超过 250 个 token 的速度，最高吞吐量能达到每秒超过 30000 个 token。

通过硬件与软件的协同优化，自今年 1 月以来，英伟达在 DeepSeek-R1 671B 模型上的吞吐量提升了约 36 倍，每 token 的成本效率提高了约 32 倍。

为实现这一成绩，英伟达完整的推理生态系统已针对 Blackwell 架构进行了深度优化。它不仅集成了 TensorRT-LLM、TensorRT Model Optimizer 等先进工具，还无缝支持 PyTorch、JAX 和 TensorFlow 等主流框架。在 DeepSeek-R1、Llama 3.1 405B 和 Llama 3.3 70B 等模型上，采用 FP4 精度的 DGX B200 平台，相比 DGX H200 平台，推理吞吐量提升了超过 3 倍。

值得注意的是，这次主题演讲并未提及量子计算，但英伟达特意在 GTC 大会设置了量子日，邀请了好几家当红量子计算公司的 CEO 出席。要知道，黄仁勋年初那句“量子计算还需 20 年才实用”的论断言犹在耳。这一口风的转变，离不开微软耗时 17 年研发的拓扑量子芯片 Majorana 1 实现了 8 个拓扑量子比特集成，也离不开 Google Willow 芯片宣称用 5 分钟完成经典计算机需 10^25 年处理的任务——这些进展无疑推动了量子计算的热潮。

芯片固然是重头戏，但一些软件的亮相同样值得关注。硅谷著名投资人马克·安德森曾提出“软件正在吞噬世界”的论断，其核心逻辑在于软件通过虚拟化、抽象化和标准化，正逐步成为控制物理世界的基础设施。

英伟达显然不满足于只做“卖铲人”。它的野心是打造 AI 时代的“生产力操作系统”。从汽车智能驾驶到制造业的数字孪生工厂，贯穿整场发布会的案例，本质上都是将 GPU 算力转化为行业生产力的具象化表达。

在介绍 Blackwell 与 Hopper 架构的对比时，黄仁勋还不忘幽默一把。他以一个 100MW 工厂的对比数据为例：采用 Hopper 架构需要 45,000 颗芯片和 400 个机架，而 Blackwell 架构凭借更高的效率显著减少了硬件需求。于是，那句经典的总结再次抛出——“the more you buy, the more you save”。随后话锋一转，他又补了一句：“the more you buy, the more you make”。

随着 AI 领域的重心从训练转向推理，英伟达更需要证明其软硬件生态在推理场景中的不可替代性。一方面，Meta、Google 等巨头自研 AI 芯片，可能分流 GPU 市场需求。另一方面，最新 AI 芯片的适时亮相，既是对 DeepSeek 这类开源模型对 GPU 需求冲击的回应，也是展示推理领域技术优势、对冲市场对训练需求见顶担忧的一步棋。

对于最近估值跌至十年低位的英伟达来说，它比以往任何时候都更需要一场酣畅淋漓的胜利。

来源：https://www.aiagiai.com/9504.html