游乐游手机版
首页/AI教程/文章详情

黄仁勋发布三代AI芯片,个人超算每秒千万亿次,DeepSeek受益

时间:2026-06-26 16:49
英伟达GTC大会发布BlackwellUltra、Rubin及Feynman三代AI芯片,推出DGXStation与DGXSpark个人超算,后者算力每秒1000万亿次。DeepSeek-R1推理速度创全球最快,每用户超250token s。AI竞争重心转向推理效率与成本,同步发布AI工厂操作系统Dynamo。

如今,AI 行业的竞争格局已然发生深刻变化:比拼的不仅是谁的算力规模更庞大,而是谁的模型推理成本更低、效率更高。这一判断贯穿了今年英伟达 GTC 大会的整场演讲。黄仁勋在台上反复强调一个核心理念——英伟达正致力于打造“AI 工厂”,一个能让 AI 以超越人类速度进行学习与推理的基础设施。

而他发布的那些备受瞩目的重磅产品,也传递出同样的信号:未来的 AI 竞赛,胜负关键不在于模型参数的多少,而在于谁能将推理成本压至最低、将推理效率提升至最高。

除了全新 Blackwell 芯片,还有两款“真·AI PC”

全新的 Blackwell 芯片,代号为“Ultra”,也就是 GB300 AI 芯片。作为去年“全球最强 AI 芯片”B200 的继承者,它再次将性能天花板提升到了新的高度。

本次发布的两套方案包括:英伟达 GB300 NVL72 机架级解决方案,以及 HGX B300 NVL16 系统。

Blackwell Ultra GB300 NVL72 计划于今年下半年推出。核心参数明确:单个 Blackwell Ultra 芯片保持与前代相同的 20 petaflops AI 性能,但内存已升级至 288GB 的 HBM3e。

如果说 H100 擅长训练大模型,B200 更专注于推理任务,那么 B300 就是一款“全能型选手”——预训练、后训练、AI 推理,它都能从容应对。

英伟达特别指出,Blackwell Ultra 同样适用于 AI 智能体的部署,以及用于训练机器人和汽车自动驾驶的“物理 AI”。为了进一步提升系统性能,它将与 Spectrum-X 以太网和 Quantum-X800 InfiniBand 平台集成,为每个 GPU 提供 800Gb/s 的数据吞吐量。这套组合策略,本质上是为了让 AI 工厂和云数据中心能够更高效地处理推理模型。

除了 NVL72 机架,英伟达还为台式机用户带来了一个“杀手级产品”——DGX Station,搭载单颗 GB300 Blackwell Ultra 芯片。这款主机配备 784GB 的统一系统内存,内置 800Gbps 的 ConnectX-8 SuperNIC 网络,同样支持 20 petaflops 的 AI 性能。

还记得 CES 2025 上亮相的那款“迷你主机” Project DIGITS 吗?它如今正式更名为 DGX Spark,搭载专为桌面优化的 GB10 Grace Blackwell 超级芯片,每秒可提供高达 1000 万亿次 AI 计算操作。这台小巧的设备可用于微调和推理最新的 AI 模型,包括 NVIDIA Cosmos Reason 世界基础模型和 GR00T N1 机器人基础模型。

黄仁勋的设想是,借助 DGX Station 和 DGX Spark,用户既能在本地运行大模型,也能将其部署到 DGX Cloud 或其他加速云及数据中心上。用他的话来说,“这就是 AI 时代的计算机。”

目前,DGX Spark 已开放预订,而 DGX Station 预计将于今年晚些时候由华硕、戴尔、惠普等合作伙伴正式推出。

下一代 AI 芯片 Rubin 官宣,2026 年下半年推出

英伟达一向偏爱用科学家的名字命名架构,这已成为公司文化的一部分。这一次也不例外,下一代 AI 芯片平台被命名为“Vera Rubin”,以纪念美国著名天文学家薇拉·鲁宾。

黄仁勋在演讲中展示了一组对比数据:Rubin 的性能将达到 Hopper 的 900 倍,而 Blackwell 相较 Hopper 已实现 68 倍的提升。这一数据本身就极具说服力。

其中,Vera Rubin NVL144 预计于 2026 年下半年发布。关键参数如下:

标准版 Rubin 将配备 HBM4,性能相比 Hopper H100 实现大幅跃升。它引入了 Grace CPU 的继任者——Veru,包含 88 个定制 Arm 核心,每个核心支持 176 个线程,通过 NVLink-C2C 提供 1.8 TB/s 的高带宽连接。英伟达表示,定制版的 Vera 设计,速度比去年 Grace Blackwell 芯片中的 CPU 提升了一倍。

与 Vera CPU 搭配时,Rubin 在推理任务中的算力可达 50 petaflops,是 Blackwell 20 petaflops 的两倍以上。内存方面,它支持高达 288GB 的 HBM4,这也是 AI 开发者最为关注的规格之一。

有趣的是,Rubin 实际上由两个 GPU 组成,这与 Blackwell 的设计类似——后者也是通过将两个独立芯片组装成一个整体来运行的。但从 Rubin 开始,英伟达将不再像对待 Blackwell 那样把多 GPU 组件称为单个 GPU,而是更精确地按照实际 GPU 芯片裸片的数量进行计数。

互联技术也随之升级。Rubin 配备了第六代 NVLink,以及支持 1600 Gb/s 的 CX9 网卡,数据传输能力与连接性能均得到显著提升。

除了标准版,英伟达还计划推出 Rubin Ultra 版本。

Rubin Ultra NVL576 计划于 2027 年下半年推出。具体参数细节如下:

硬件配置方面,Rubin Ultra 的 Veras 系统延续了 88 个定制 Arm 核心的设计,每个核心支持 176 个线程,通过 NVLink-C2C 提供 1.8 TB/s 的带宽。GPU 方面,Rubin Ultra 集成了 4 个 Reticle-Sized GPU,每颗 GPU 提供 100 petaflops 的 FP4 计算能力,配备 1TB 的 HBM4e 内存——性能与内存容量均达到新高度。

为在瞬息万变的市场中保持领先,英伟达的产品发布节奏已缩短至一年一更。在发布会上,老黄还正式揭晓了下一代 AI 芯片的命名——物理学家费曼 (Feynman)。

随着 AI 工厂规模的持续扩大,网络基础设施的重要性日益凸显。为此,英伟达推出了 Spectrum-X™ 和 Quantum-X 硅光网络交换机,旨在帮助 AI 工厂实现跨站点连接数百万 GPU,同时显著降低能耗与运营成本。

Spectrum-X Photonics 交换机提供多种配置选项:

与之配套的 Quantum-X Photonics 交换机基于 200Gb/s SerDes 技术,提供 144 端口 800Gb/s 的 InfiniBand 连接,并采用液冷设计高效冷却板载硅光子组件。相比上一代产品,Quantum-X Photonics 交换机为 AI 计算架构提供了 2 倍的速度提升和 5 倍的可扩展性。

Quantum-X Photonics InfiniBand 交换机预计于今年晚些时候上市,而 Spectrum-X Photonics 以太网交换机则要等到 2026 年才会推出。

AI 的快速发展对数据中心的带宽、低延迟与高能效提出了更高要求。英伟达 Spectrum-X Photonics 交换机采用了一种名为 CPO 的光电子集成技术,核心思路是将光引擎和传统的电子芯片置于同一个封装内。这项技术的优势显而易见:传输效率更高、功耗更低、体积更小,空间利用率自然得到提升。

AI 工厂的“操作系统” Dynamo

黄仁勋在演讲中提出了一个观点:未来,每个行业、每家公司都将拥有两个工厂——一个是实体生产的工厂,另一个是 AI 工厂。而 Dynamo,正是为“AI 工厂”量身打造的操作系统。

Dynamo 是一个分布式推理服务库,本质上是为了解决“需要 token 但无法获得足够 token”的问题而提供的一个开源解决方案。简单来说,其优势体现在四个方面:GPU 规划引擎可动态调度 GPU 资源以适应需求变化;智能路由器减少 GPU 对重复请求的重新计算,释放算力以应对新请求;低延迟通信库加速数据传输;内存管理器则智能地在低成本内存和存储设备中处理推理数据。

人形机器人的露脸环节,永远不会缺席

人形机器人再次成为 GTC 大会的压轴亮点。这次英伟达带来了 Isaac GR00T N1,全球首款开源人形机器人功能模型。

黄仁勋表示,通用机器人技术的时代已经到来。借助 Isaac GR00T N1 核心的数据生成以及机器人学习框架,全球各地的机器人开发者将迈入 AI 时代的下一前沿领域。

该模型采用“双系统”架构,模仿人类的认知原理:在视觉语言模型的支持下,系统 2 对环境和指令进行推理并规划动作,系统 1 则将规划转化为机器人的实际动作。GR00T N1 的基础模型已用广义的类人推理和技能进行了预训练,开发者可通过真实或合成数据进行后训练,以满足特定需求——无论是工厂中的特定任务,还是在家中自主完成家务,都能胜任。

黄仁勋还宣布了与 Google DeepMind 和 Disney Research 合作开发的开源物理引擎 Newton。

一台搭载 Newton 平台的机器人也登上了舞台。黄仁勋称其为“Blue”,外观酷似《星球大战》中的 BDX 机器人,能用声音和动作与老黄进行互动。

8 块 GPU,DeepSeek-R1 推理速度创全球之最

英伟达实现了全球最快的 DeepSeek-R1 推理。官网数据显示,一台搭载 8 个 Blackwell GPU 的 DGX 系统,在运行 6710 亿参数的 DeepSeek-R1 模型时,可实现每用户每秒超过 250 个 token 的速度,最高吞吐量能达到每秒超过 30000 个 token。

通过硬件与软件的协同优化,自今年 1 月以来,英伟达在 DeepSeek-R1 671B 模型上的吞吐量提升了约 36 倍,每 token 的成本效率提高了约 32 倍。

为实现这一成绩,英伟达完整的推理生态系统已针对 Blackwell 架构进行了深度优化。它不仅集成了 TensorRT-LLM、TensorRT Model Optimizer 等先进工具,还无缝支持 PyTorch、JAX 和 TensorFlow 等主流框架。在 DeepSeek-R1、Llama 3.1 405B 和 Llama 3.3 70B 等模型上,采用 FP4 精度的 DGX B200 平台,相比 DGX H200 平台,推理吞吐量提升了超过 3 倍。

值得注意的是,这次主题演讲并未提及量子计算,但英伟达特意在 GTC 大会设置了量子日,邀请了好几家当红量子计算公司的 CEO 出席。要知道,黄仁勋年初那句“量子计算还需 20 年才实用”的论断言犹在耳。这一口风的转变,离不开微软耗时 17 年研发的拓扑量子芯片 Majorana 1 实现了 8 个拓扑量子比特集成,也离不开 Google Willow 芯片宣称用 5 分钟完成经典计算机需 10^25 年处理的任务——这些进展无疑推动了量子计算的热潮。

芯片固然是重头戏,但一些软件的亮相同样值得关注。硅谷著名投资人马克·安德森曾提出“软件正在吞噬世界”的论断,其核心逻辑在于软件通过虚拟化、抽象化和标准化,正逐步成为控制物理世界的基础设施。

英伟达显然不满足于只做“卖铲人”。它的野心是打造 AI 时代的“生产力操作系统”。从汽车智能驾驶到制造业的数字孪生工厂,贯穿整场发布会的案例,本质上都是将 GPU 算力转化为行业生产力的具象化表达。

在介绍 Blackwell 与 Hopper 架构的对比时,黄仁勋还不忘幽默一把。他以一个 100MW 工厂的对比数据为例:采用 Hopper 架构需要 45,000 颗芯片和 400 个机架,而 Blackwell 架构凭借更高的效率显著减少了硬件需求。于是,那句经典的总结再次抛出——“the more you buy, the more you save”。随后话锋一转,他又补了一句:“the more you buy, the more you make”。

随着 AI 领域的重心从训练转向推理,英伟达更需要证明其软硬件生态在推理场景中的不可替代性。一方面,Meta、Google 等巨头自研 AI 芯片,可能分流 GPU 市场需求。另一方面,最新 AI 芯片的适时亮相,既是对 DeepSeek 这类开源模型对 GPU 需求冲击的回应,也是展示推理领域技术优势、对冲市场对训练需求见顶担忧的一步棋。

对于最近估值跌至十年低位的英伟达来说,它比以往任何时候都更需要一场酣畅淋漓的胜利。

来源:https://www.aiagiai.com/9504.html
上一篇碳基与硅基二级市场人机竞速分析 下一篇雷军714亿资本棋局大起底
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
Continue Windows 本地安装配置教程 2026 最新版 下载地址与环境要求
AI教程 · 2026-07-02

Continue Windows 本地安装配置教程 2026 最新版 下载地址与环境要求

Continue是面向VSCode与JetBrains的AI编程插件,可连接云端或本地模型。Windows安装需准备编辑器、运行环境与模型服务,配置时应重点处理接口、索引、隐私与性能问题。

Tabnine新手从下载到首次运行保姆级安装教程
AI教程 · 2026-07-02

Tabnine新手从下载到首次运行保姆级安装教程

Tabnine是面向开发者的AI编程工具,适合在常见代码编辑器中辅助补全代码。安装前需确认环境、账号与编辑器版本,首次运行应完成登录、项目索引、补全测试和隐私设置。

Tabnine安装失败常见报错、日志排查与升级回滚方案
AI教程 · 2026-07-02

Tabnine安装失败常见报错、日志排查与升级回滚方案

Tabnine安装异常通常与编辑器版本、网络连接、权限、缓存或插件冲突有关。可按环境检查、日志定位、重装清理、版本切换和回滚流程逐步处理,并注意代码隐私与插件来源安全。

Tabnine插件安装配置全流程:浏览器编辑器扩展市场
AI教程 · 2026-07-02

Tabnine插件安装配置全流程:浏览器编辑器扩展市场

Tabnine适合在主流编辑器中提供代码补全与生成辅助。安装前需确认官方来源、账号策略和编辑器版本,按扩展市场或离线包方式完成配置,并注意隐私、授权与兼容问题。

Tabnine本地模型运行全攻略:下载配置与性能优化
AI教程 · 2026-07-02

Tabnine本地模型运行全攻略:下载配置与性能优化

Tabnine可在本地运行代码补全模型,适合重视代码隐私、网络环境不稳定或企业内网开发场景。配置重点包括版本确认、模型下载、路径设置、资源分配、IDE检查与性能调优。