英伟达黄氏定律推动AI算力每年翻倍_AI热点日报

英伟达黄氏定律推动AI算力每年翻倍

类型：热点整理2026-07-03

在今年的 GTC China 上，虽然黄仁勋并未亲自亮相，但他提出的“黄氏定律”却成为全场瞩目的核心议题。从大幅提升 TensorCore 计算效能的新技术，到下一代光通信方案，再到仅需一行代码即可让所有模型获得 GPU 加速的软件工具——为了让未来的 AI 算力每年实现翻倍增长，英伟达已探索出多

在今年的 GTC China 上，虽然黄仁勋并未亲自亮相，但他提出的“黄氏定律”却成为全场瞩目的核心议题。

英伟达「黄氏定律」让未来的AI算力每年能够提升一倍

从大幅提升 TensorCore 计算效能的新技术，到下一代光通信方案，再到仅需一行代码即可让所有模型获得 GPU 加速的软件工具——为了让未来的 AI 算力每年实现翻倍增长，英伟达已探索出多条创新路径。

12 月 15 日上午，英伟达 GTC 大会中国站以线上形式举行，全球知名计算机科学家、NVIDIA 研究院负责人 Bill Dally 发表了主题演讲。

在科技行业，摩尔定律几乎人人耳熟能详：前英特尔 CEO 大卫·豪斯曾指出，芯片计算效率每 18 个月提升一倍。这一“规律”在过去五十年屡次应验，然而近五六年，晶体管尺寸逼近物理极限，制程工艺遭遇瓶颈，摩尔定律逐渐失效。

与此同时，人类对算力的需求却永无止境，人工智能技术的爆发更是火上浇油。过去十年，GPU 让人工智能算法的性能每年成倍增长，而英伟达的研究人员正通过架构革新，持续寻找加速 AI 推理的新方法。

英伟达提出了以创始人命名的“黄氏定律”（Huang’s Law），预测单芯片 AI 推理能力每 12 个月翻一番。如果未来一段时间我们仍需依赖硅芯片，那么继摩尔定律之后，黄氏定律或许将成为 AI 技术高速发展的新支柱。

既然芯片自身提升速度放缓，英伟达便将目光转向计算架构的各个层面。Bill Dally 表示：“只要这些方向中有一个能取得成功，就能在接下来几代产品中延续每年性能翻倍的目标。”

单卡计算效率：MAGNet 让每瓦性能提升至三倍

先从单卡看起。即便英伟达现有的二代 Tensor Core，在推理时也无法将所有功耗都用于数学运算——大量能量消耗在数据传输环节。为此，英伟达设计了 MAGNet 系统，旨在探索更高效的芯片架构。

其核心思路是：通过一个全局控制器，将数据从内存的不同位置调度到不同计算单元执行运算，同时针对神经网络计算特性，在数据流中嵌入一个存储层。这样一来，数据搬运的瓶颈被有效解除，大部分能量都能用于实际计算。在特定单元上，英伟达尚未发布的硬件产品已实现每瓦 100 Teraops 的推理能力——而 2019 年这一数字仅为 29 Teraops。

不难预见，下一代 Tensor Core 的性能将迎来又一次巨大飞跃。

多卡数据传输：光通信助力 NVLink 迈入 Tb/s 时代

再看多卡互联。英伟达的 GPU 通过 NVLink 和 NVSwitch 相互连接，但基于电信号的方案目前已接近极限。继续让 NVLink 的带宽每代翻倍变得极其困难——当前每线对 50Gb/s，可预见的未来大约能提升到 100–200Gb/s。因此，英伟达也开始与英特尔等巨头一样，思考如何尽快将光通信技术引入现实。

Bill Dally 作为研究者，曾牵头规划英伟达的光信号传输愿景：光通信不仅能大幅提升带宽（从几百 Gb/s 到数 Tb/s），还能延伸传输距离（从几十厘米到 20–100 米），同时降低系统复杂度。

在英伟达的设计中，DGX 卡采用纵置排列，右侧为光源，可为光线提供多种波长。光学引擎以极高数据速率将光转换成信号。每根光纤都能同时传输不同波长的光，每种波长又能以 25–50Gb/s 的速率传输信号。总数据速率可达 400Gb/s，而每根光纤的传输速率“保守估计”就能达到数 Tb/s，且能耗低于电信号。英伟达研究团队正与哥伦比亚大学紧密合作，探讨如何利用电信运营商在核心网络中使用的技术，通过一根光纤传输数十路信号——有了光通信，仅需一条 NVLink 就能连接规模更大的系统。

还有一种名为“密集波分复用”的技术正在测试中，有望在仅一毫米大小的芯片上实现 Tb/s 级数据传输，互连密度是目前的十倍以上。

光链路不仅能提升吞吐量，还能打造更密集的系统。Dally 展示了一个未来可能搭载 160 多个 GPU 的 NVIDIA DGX 系统模型。

软件：Legate 让 Python 程序“无感”跑遍所有 GPU

除了硬件创新，软件层面同样不落下风。如今大量应用已通过 GPU 加速，其速度远超英伟达开发者更新 CUDA 程序的节奏，业界急需更简便的编程方式。

NVIDIA 的研究人员开发了全新的编程系统原型——Legate。借助它，开发者可以在任意规模系统上运行原本面向单一 GPU 编写的程序，甚至包括搭载数千个 GPU 的巨型超算（如 Selene）。

对大多数用户而言，使用 Legate 无需修改代码，即可让 Python 程序无感运行在从 Jetson Nano 到 DGX SuperPOD 所有搭载英伟达 CUDA 核心的设备上。开发者只需将原来的 import NumPy as NP 改为 import legate.numpy as NP，剩下的工作 Legate 会自动完成。

它的速度表现如何？从上表可以看到，Legate 不仅比当前效率最高的库更快，而且在并行化时也能稳健保持优势。

国内落地：云厂商和服务器厂商全面拥抱 Ampere

英伟达也在 GTC 上分享了国内合作伙伴的最新进展：阿里云、百度智能云、滴滴云、腾讯云的大型数据中心正加速向基于 Ampere 架构的平台迁移。图像识别、语音识别，以及计算流体动力学、计算金融学、分子动力学等 GPU 加速高性能计算场景快速增长，催生了对云实例的更多需求。

硬件方面，新华三、浪潮、联想、宁畅等中国领先系统制造商也在将 A100 GPU 引入自身产品，推出多款针对不同场景的系列产品，为超大型数据中心提供 Ampere 架构的加速系统，进而为用户带来兼具性能与灵活性的 AI 计算平台。

来源：https://m.elecfans.com/article/1366820.html

AI算力

延伸阅读

补充最近整理过的热点入口。