在今年的 GTC China 上,虽然黄仁勋并未亲自亮相,但他提出的“黄氏定律”却成为全场瞩目的核心议题。

从大幅提升 TensorCore 计算效能的新技术,到下一代光通信方案,再到仅需一行代码即可让所有模型获得 GPU 加速的软件工具——为了让未来的 AI 算力每年实现翻倍增长,英伟达已探索出多条创新路径。
12 月 15 日上午,英伟达 GTC 大会中国站以线上形式举行,全球知名计算机科学家、NVIDIA 研究院负责人 Bill Dally 发表了主题演讲。
在科技行业,摩尔定律几乎人人耳熟能详:前英特尔 CEO 大卫·豪斯曾指出,芯片计算效率每 18 个月提升一倍。这一“规律”在过去五十年屡次应验,然而近五六年,晶体管尺寸逼近物理极限,制程工艺遭遇瓶颈,摩尔定律逐渐失效。
与此同时,人类对算力的需求却永无止境,人工智能技术的爆发更是火上浇油。过去十年,GPU 让人工智能算法的性能每年成倍增长,而英伟达的研究人员正通过架构革新,持续寻找加速 AI 推理的新方法。
英伟达提出了以创始人命名的“黄氏定律”(Huang’s Law),预测单芯片 AI 推理能力每 12 个月翻一番。如果未来一段时间我们仍需依赖硅芯片,那么继摩尔定律之后,黄氏定律或许将成为 AI 技术高速发展的新支柱。
既然芯片自身提升速度放缓,英伟达便将目光转向计算架构的各个层面。Bill Dally 表示:“只要这些方向中有一个能取得成功,就能在接下来几代产品中延续每年性能翻倍的目标。”
单卡计算效率:MAGNet 让每瓦性能提升至三倍
先从单卡看起。即便英伟达现有的二代 Tensor Core,在推理时也无法将所有功耗都用于数学运算——大量能量消耗在数据传输环节。为此,英伟达设计了 MAGNet 系统,旨在探索更高效的芯片架构。
其核心思路是:通过一个全局控制器,将数据从内存的不同位置调度到不同计算单元执行运算,同时针对神经网络计算特性,在数据流中嵌入一个存储层。这样一来,数据搬运的瓶颈被有效解除,大部分能量都能用于实际计算。在特定单元上,英伟达尚未发布的硬件产品已实现每瓦 100 Teraops 的推理能力——而 2019 年这一数字仅为 29 Teraops。
不难预见,下一代 Tensor Core 的性能将迎来又一次巨大飞跃。
多卡数据传输:光通信助力 NVLink 迈入 Tb/s 时代
再看多卡互联。英伟达的 GPU 通过 NVLink 和 NVSwitch 相互连接,但基于电信号的方案目前已接近极限。继续让 NVLink 的带宽每代翻倍变得极其困难——当前每线对 50Gb/s,可预见的未来大约能提升到 100–200Gb/s。因此,英伟达也开始与英特尔等巨头一样,思考如何尽快将光通信技术引入现实。
Bill Dally 作为研究者,曾牵头规划英伟达的光信号传输愿景:光通信不仅能大幅提升带宽(从几百 Gb/s 到数 Tb/s),还能延伸传输距离(从几十厘米到 20–100 米),同时降低系统复杂度。
在英伟达的设计中,DGX 卡采用纵置排列,右侧为光源,可为光线提供多种波长。光学引擎以极高数据速率将光转换成信号。每根光纤都能同时传输不同波长的光,每种波长又能以 25–50Gb/s 的速率传输信号。总数据速率可达 400Gb/s,而每根光纤的传输速率“保守估计”就能达到数 Tb/s,且能耗低于电信号。英伟达研究团队正与哥伦比亚大学紧密合作,探讨如何利用电信运营商在核心网络中使用的技术,通过一根光纤传输数十路信号——有了光通信,仅需一条 NVLink 就能连接规模更大的系统。
还有一种名为“密集波分复用”的技术正在测试中,有望在仅一毫米大小的芯片上实现 Tb/s 级数据传输,互连密度是目前的十倍以上。
光链路不仅能提升吞吐量,还能打造更密集的系统。Dally 展示了一个未来可能搭载 160 多个 GPU 的 NVIDIA DGX 系统模型。
软件:Legate 让 Python 程序“无感”跑遍所有 GPU
除了硬件创新,软件层面同样不落下风。如今大量应用已通过 GPU 加速,其速度远超英伟达开发者更新 CUDA 程序的节奏,业界急需更简便的编程方式。
NVIDIA 的研究人员开发了全新的编程系统原型——Legate。借助它,开发者可以在任意规模系统上运行原本面向单一 GPU 编写的程序,甚至包括搭载数千个 GPU 的巨型超算(如 Selene)。
对大多数用户而言,使用 Legate 无需修改代码,即可让 Python 程序无感运行在从 Jetson Nano 到 DGX SuperPOD 所有搭载英伟达 CUDA 核心的设备上。开发者只需将原来的 import NumPy as NP 改为 import legate.numpy as NP,剩下的工作 Legate 会自动完成。
它的速度表现如何?从上表可以看到,Legate 不仅比当前效率最高的库更快,而且在并行化时也能稳健保持优势。
国内落地:云厂商和服务器厂商全面拥抱 Ampere
英伟达也在 GTC 上分享了国内合作伙伴的最新进展:阿里云、百度智能云、滴滴云、腾讯云的大型数据中心正加速向基于 Ampere 架构的平台迁移。图像识别、语音识别,以及计算流体动力学、计算金融学、分子动力学等 GPU 加速高性能计算场景快速增长,催生了对云实例的更多需求。
硬件方面,新华三、浪潮、联想、宁畅等中国领先系统制造商也在将 A100 GPU 引入自身产品,推出多款针对不同场景的系列产品,为超大型数据中心提供 Ampere 架构的加速系统,进而为用户带来兼具性能与灵活性的 AI 计算平台。
