OpenAI工程师Scott Gray:用CUDA革新AI训练的底层突破
人工智能领域的发展从来都不是单打独斗的结果,除了那些频频亮相的学界大咖,更离不开万千幕后英雄的无私奉献。最近,OpenAI一位长期深耕底层代码优化的工程师突然走红,他用一行行代码支撑起整个大模型帝国的运转。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
这场"出圈"始于社交平台的热议,有网友惊叹OpenAI仅依靠一位工程师手写的CUDA Kernel,就高效处理着每天数万亿次的计算请求。经过多方求证,这位神秘人物很可能就是OpenAI资深工程师Scott Gray。公司最新资料显示,他专精于"优化深度神经网络在GPU上的运算效能",而这刚好解释了那些惊人的技术突破。
开发高性能的训练用CUDA Kernel无疑是程序员中的"珠峰",这要求开发者兼具并行计算理论基础、GPU硬件专业知识与深度学习算法理解三栖能力。普通开发者大多停留在使用现成工具层面,能做推理优化的已属难得,而能为复杂的训练过程(特别是反向传播)编写出超越cuDNN等标准库的底层Kernel的高手,放眼全球都屈指可数。Scott Gray的经历堪称这一领域的教科书范本。
Scott Gray的职业生涯始于伊利诺伊大学厄巴纳-香槟分校的物理与计算机科学双修经历。2016年加入OpenAI之前,他曾在Nervana Systems(后被英特尔收购)负责GPU汇编级别的内核优化工作。有趣的是,Nervana前CEO在社交媒体上透露,他们当年是在技术论坛里"挖掘"到了Gray这位奇才,盛赞其为"GPU编程界的天花板"。
Gray的技术传奇始于他对硬件极限的执着探索。在那个深度学习即将爆发的黎明时分,他发现现成的软件框架与硬件性能之间存在巨大的效率断层。绝大多数同行都习惯依赖NVIDIA提供的CUDA C/C++和标准库(如cuBLAS、cuDNN)进行GPU编程。虽然这些工具降低了开发门槛,但其过多的软件抽象层也成为制约性能的瓶颈。
Gray提出了突破性的思路:要最大化硬件潜能,必须直击本质。他研发了maxas——一个专为NVIDIA Maxwell架构打造的汇编器。这项黑科技让他能够手工微调每一个底层计算单元,精确掌控寄存器分配、内存延迟调配和指令流水线规划。在开发过程中,他用maxas实现了惊人的SGEMM(单精度矩阵乘法运算)内核,在GM204 GPU上跑出了接近理论峰值98%的效能,比NVIDIA闭源的cuBLAS库还要快近5%。
尝到甜头后,Gray将目光投向深度学习另一核心——卷积运算。他推出的maxDNN项目完美印证了底层优化的普适价值。这个项目虽然借鉴了当时最先进的卷积算法理念,但在实现层面完全基于maxas的汇编级优化技术。最终版本中,超过98%的指令都是纯粹的浮点运算,计算效率突破了理论极限。在经典的AlexNet模型测试中,maxDNN在所有卷积层上都稳定保持着93-95%的计算利用率,全方位碾压了当时的cuDNN标准库。
加盟OpenAI后,Gray的工作重心发生了战略转向。随着Scaling Laws理论的崛起,模型规模的扩大成为提升性能的主要途径。然而,传统稠密模型的局限性日益凸显。此时Gray转型为"技术赋能者",专注为更高效的稀疏模型架构打造专属工具。
细心的研究者发现,Scott Gray的名字几乎出现在OpenAI所有里程碑式的论文作者列表中——从GPT-3、GPT-4到Codex和DALL-E。作为核心技术开发者,他编写的那些高性能GPU内核默默支撑着这些模型每天万亿级别的训练和推理需求。为解决稠密模型规模化困境,Gray与团队创新性地开发了块稀疏(block-sparse)GPU核心系统。
这项技术并没有简单粗暴地剔除单个权重参数,而是将权重矩阵划分为标准块后整体归零。Gray为此专门开发了能智能跳过这些零值块的GPU内核,相比传统的稠密矩阵处理方案效率提升了数个量级。在这些黑科技的加持下,OpenAI在多个领域持续保持标杆地位。令人敬佩的是,他们将基础性的块稀疏内核代码开源共享,推动了整个AI社区的技术进步。
热门专题
热门推荐
加密货币行业翘首以盼的监管里程碑,终于有了实质性进展。美国证券交易委员会(SEC)主席保罗·阿特金斯(Paul Atkins)近日证实,那份允许加密项目在早期获得注册豁免权的“安全港”框架提案,已经正式送抵白宫,进入了最终审查阶段。 在范德堡大学与区块链协会联合举办的数字资产峰会上,阿特金斯透露了这
微策略Strategy报告:第一季录得144 6亿美元浮亏 再斥资约3 3亿美元买进4871枚比特币 市场震荡的威力有多大?看看Strategy的最新季报就明白了。根据其最新向美国证管会(SEC)提交的8-K报告,受市场剧烈波动影响,这家公司所持的比特币在第一季度录得了一笔惊人的数字——144 6亿
稳定币巨头Tether的动向,向来是加密世界的风向标。这不,它向Web3基础设施的版图扩张,又迈出了关键一步。公司执行长Paolo Ardoino在社交平台X上透露,其工程团队正在全力“烹制”一个新项目——去中心化搜索引擎 “Hypersearch”。这个消息一出,立刻引发了行业的广泛猜想。 采用D
基地位于Coinbase旗下以太坊Layer2网络Base的Seamless Protocol,日前正式宣告了服务的终结。这个曾经吸引了超过20万用户的原生DeFi借贷协议,在运营不到三年后,终究没能跑赢时间。它主打的核心产品是Integrated Leverage Markets(ILMs)——一
PAAL代币揭秘:深度解析Web3社区治理的核心钥匙 在去中心化自治组织的浪潮中,谁真正掌握了项目的话语权?PAAL代币提供了一套系统化的答案。它不仅是生态内流转的价值媒介,更是开启链上治理大门的核心凭证。通过持有并质押PAAL代币,用户能够对协议升级、资金分配乃至战略方向等关键事务投出决定性的一票





