斯坦福意外用AI生成超强CUDA内核 性能好得出奇!华人主创
斯坦福意外用AI生成超强CUDA内核,性能好得出奇!华人主创
这结果确实有点出人意料:AI意外生成的计算内核(kernel),在性能上竟然能超越人类专家精心优化的版本。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
斯坦福大学近期披露的一组发现,数据相当亮眼。由AI优化的内核,在多项深度学习基础操作上,性能不仅翻倍超越原生PyTorch实现,部分项目提升幅度甚至接近400%。
具体来看几个核心操作的性能对比:
矩阵乘法(Matmul,FP32):性能达到PyTorch `torch.matmul` 的101.3%。
二维卷积(Conv2D):性能达到`torch.nn.Conv2D`的179.9%。
Softmax:性能达到`torch.softmax`的111.8%。
层归一化(LayerNorm):性能达到`torch.nn.LayerNorm`的484.4%。
Conv2D+ReLU+MaxPool组合操作:性能达到PyTorch参考实现的290.1%,以及`torch.compile()`参考实现的189.0%。
(基准测试环境为NVIDIA L40S GPU,性能百分比定义为参考运行时间除以生成内核的运行时间)

更惊人的是,这一突破性成果的实现,本身竟是一个“美丽的意外”。研究团队最初的计划,本是生成合成数据用于训练内核生成模型。没想到,在测试阶段,这些原本作为“训练材料”的合成数据,直接生成了性能极其优秀的内核。

消息一出,围观的技术社区立刻热闹起来。有网友调侃道:没想到,AI连内核工程师的饭碗也要开始“惦记”了。

除了性能的大幅跃升,研究团队采用的方法论也颇有趣味。他们并未采用简单的、类似“爬坡”算法的渐进式优化,而是在每次迭代之间,巧妙地加入了一个语言推理步骤。此举旨在鼓励搜索过程产生更多样化的解决思路。简单来说,就是让系统在每次试图改进时,先进行一番“思考”,发散出更多可能性,从而更有机会跳出局部最优,找到更佳的解决方案。

究竟是如何实现的?我们来一探究竟。
改代码前,先生成自然语言优化思想
根据斯坦福团队博客的描述,这种内核生成的基本思路其实很清晰:给定一段PyTorch代码,然后让模型尝试编写自定义CUDA内核来替换其中的算子。这些内核使用纯CUDA-C编写,不依赖CUTLASS、Triton这类专用库或领域特定语言。
关键在于其与众不同的流程:模型并非直接上手修改代码,而是分两步走。首先,用自然语言生成一系列的优化思想和策略;然后,再将每一个思想转化为具体的代码变体。团队解释说,传统“按顺序修改”的优化方式往往缺乏多样性,容易陷入局部最优,要么不断重复同类转换,要么在一条没有前途的路径上耗时费力。
为了进一步激发思路的多样性,团队还采用了多分支探索模式。具体而言,他们的方法不是每一步只盯着一个候选方案优化,而是让每个有价值的想法“开枝散叶”,衍生出多个实现版本,并从中选择性能最高的内核作为下一轮优化的种子。

团队使用OpenAI o3和Gemini 2.5 Pro模型,在自建的KernelBench基准(1级难度)中挑战了10个问题。经过多轮运行后,性能最佳的内核开始显现。有趣的是,大多数最佳结果出现在后续轮次(总5轮中,主要是第4或第5轮)。
这里提到的KernelBench,是斯坦福团队提出的一个用于评估AI生成内核能力的测试基准。其中的任务分为3个级别,1级任务特指单一的原始操作,涵盖了AI计算的基础构建块,例如卷积、矩阵乘法、损失函数、激活函数以及层归一化等。

这一发现,结合此前DeepMind的AlphaEvolve、o3发现Linux零日漏洞等事件,让许多业内人士认为,像Gemini 2.5 Pro和o3这类模型,其复杂推理和解决问题的能力已达到了一个新的层级。

回到斯坦福的项目,在观察模型的生成过程中,可以发现其优化思路开始呈现出与人类工程师经验高度相似的模式:
内存访问优化:专注于提升数据在不同内存层次(全局内存、共享内存、寄存器)间移动的效率,确保访问方式能最大化带宽、最小化冲突。
异步操作与延迟隐藏:通过将低速操作(如全局内存访问)与计算或其他内存传输重叠执行,来“隐藏”这些操作的延迟。
数据类型与精度优化:在可能的情况下,优先使用低精度数据类型(如FP16或BF16),以降低内存带宽需求,提升缓存效率。
计算与指令优化:致力于提升算术计算本身的效率,减少指令数量,或利用特定的硬件指令。
并行性与占用率增强:最大化流多处理器(SM)上的活跃线程数量,以更好地隐藏延迟,提高整体吞吐量。
控制流与循环优化:减少与循环、条件分支以及索引计算相关的开销。
团队还展示了一段具体的优化轨迹。从轨迹中可以看出,并非每一步优化都必然带来速度提升,中间甚至可能出现性能回退。但经过多个步骤的组合与迭代,内核的最终性能实现了大幅飞跃,成功超越PyTorch原生实现。

关于实现细节,有人提出了一个关键问题:AI生成的优化建议,是真的被转化为了对应的代码实现,还是仅仅触发了随机的代码探索?对此,作者回应称,尽管尚未进行更严谨的系统性验证,但在手动检查的多个案例中,生成的CUDA代码与其提出的优化建议大致匹配。这表明,AI并非在盲目地随机尝试,而是在有意识地实践它自己构思的策略。

华人主创团队的意外发现
这项研究由三位作者共同完成:Anne Ouyang、Azalia Mirhoseini以及Percy Liang。
Anne Ouyang目前是斯坦福大学扩展智能实验室的博士生,本科与硕士均毕业于麻省理工学院,并曾任职于英伟达的cuDNN团队。

Percy Liang是斯坦福大学计算机科学副教授兼统计学助理教授,目前担任斯坦福基础模型研究中心(CRFM)主任。他此前曾与李飞飞教授等多位学者合作,共同推进了多项前沿研究工作。

Azalia Mirhoseini是斯坦福大学计算机科学助理教授,也是斯坦福扩展实验室的创始人。她曾在DeepMind、Google Brain以及Anthropic等顶尖机构工作,其研究履历包括混合专家模型(MoE)、芯片设计算法AlphaChip等知名项目。

回到研究本身,团队的初衷本是生成高质量数据,用以训练更强大的内核生成模型。然而,实验过程中间出现了计划外的惊喜:仅在测试阶段生成的合成数据,其本身就足以产生性能卓越的内核。由于这些内核实现了一些此前被认为较难达成的高级优化和硬件特性利用,团队决定以博客形式先行分享这一意外成果。
不过,关于数据生成的具体方法论,研究团队暂未对外公开,仅提及整体设计理念其实相当简洁。最关键的是,现有结果已经充分展示了该方向的巨大潜力。
此外,团队也指出,此次发现与近期AI领域的某些趋势不谋而合——大规模重新训练模型并非总是必需品。有时候,精巧的搜索策略与多分支探索,本身就足以解锁科学创新并解决复杂问题。结合验证器进行广泛搜索,往往能带来额外收获。将强大的推理能力与同时探索多种假设结合起来,已被证明能产生更优的结果,正如AlphaEvolve、AlphaEvolution以及Gemini 2.5 Pro的“深度思考”模式所展示的那样。
当然,团队也坦诚表示,这项研究仍有广阔的优化空间。他们手头就在继续攻关两个维度:FP16精度的矩阵乘法(目前性能为`torch.matmul`的52%)以及FP16精度的Flash Attention(目前性能为`torch.nn.functional.scaled_dot_product_attention`的9%)。相比FP16或BF16,FP32在新硬件上的官方优化通常较少,这或许解释了为何在FP32内核上更容易实现相对于PyTorch的性能提升。
尽管面临不少现有限制,团队对未来前景持乐观态度。毕竟在项目初期,他们连一个能正常运行的内核都难以生成。而通过持续优化搜索方法,如今Flash Attention的性能已被提升到一个相当不错的水平。值得一提的是,整个搜索过程消耗的计算资源并不夸张,大约只使用了300万Token的输入和400万Token的输出。
One More Thing
事实上,探索用大模型生成高性能计算内核的团队并非只有斯坦福一家。
就在今年5月,开发了AI程序员Devin的Cognition公司,开源了首个仅通过强化学习即可编写CUDA内核的大模型Kevin-32B。该模型基于QwQ-32B,在KernelBench数据集上使用GRPO(Group Relative Policy Optimization)算法进行了多轮强化学习,其性能据称优于o3和o4-mini模型。

参考链接:
[1]https://crfm.stanford.edu/2025/05/28/fast-kernels.html
[2]https://x.com/anneouyang/status/1928124885567467768
[3]https://x.com/cognition_labs/status/1919835720493236295
相关攻略
一键安装,直接开始“养虾” 如果你最近关注过OpenClaw(龙虾),想必已经见过五花八门的安装教程。但真正动手尝试时,很多人会遇到这样的困扰: 需要配置环境、准备API Key、熟悉命令行操作,甚至还要折腾Docker和各类依赖——光是这些准备工作,就足以让不少用户望而却步。 不过现在有个好消息:
佳能入门微单相机中,R50V 的对焦性能目前最为精准可靠 如果你的预算在六千元左右,正在寻找一款对焦系统最值得信赖的入门级微单相机,那么佳能 R50V 无疑是当前最值得重点考虑的选择。它所搭载的第二代全像素双核 CMOS AF 自动对焦系统,并非简单的参数迭代,而是切实将对焦的精准度与可靠性提升到了
斯坦福意外用AI生成超强CUDA内核,性能好得出奇!华人主创 这结果确实有点出人意料:AI意外生成的计算内核(kernel),在性能上竟然能超越人类专家精心优化的版本。 斯坦福大学近期披露的一组发现,数据相当亮眼。由AI优化的内核,在多项深度学习基础操作上,性能不仅翻倍超越原生PyTorch实现,部
深度扩展的隐忧:当层数增长遇上停滞的通信 过去十年,深度学习领域取得进展的方式出奇地一致:什么都往大了整。更多参数、更多数据、更长上下文。而且确实管用:损失在降低,能力在增长,扩展定律精确地指引着研究团队还需要投入多少资源。 但不同的扩展方向,其内涵和难度天差地别。序列长度的扩展需要真正的创新,也确
AIoT架构:当人工智能与物联网深度融合 人工智能与物联网的融合,正在催生一个全新的技术范式——AIoT。它构建的,远不止是一个连接万物的网络,而是一个能够感知、思考并自主决策的智能系统。今天,我们就来深入拆解这个支撑未来智能世界的核心框架。 AIoT架构:云-边-端框架 如果把AIoT系统比作一个
热门专题
热门推荐
说实话,每次看到别人在商务路演时拿出那种设计精良、气质高端的PPT,你是不是也暗自羡慕过?但咱们既不是专业设计师,又抽不出大把时间琢磨排版配色——这种困境我太懂了。好在现在有了Gamma这样的智能平台,它内置的模板系统能让你快速产出专业级PPT。今天我就以最经典的极简黑金风格为例,带你走一遍具体操作
苹果换帅:库克转任执行董事长,硬件负责人特努斯接任CEO 封面新闻记者 易弋力 科技界的一则重磅人事变动,终于在当地时间4月20日尘埃落定。美国苹果公司正式宣布,任命公司内部元老、长期执掌硬件业务的约翰·特努斯为下一任首席执行官,接替自2011年起便掌舵公司的蒂姆·库克。与此同时,苹果公司也确认,库
三角洲行动长弓溪谷藏宝堆位置全攻略 各位特战队员,S9赛季全新登场的“藏宝堆”你们都收集齐了吗?这并非普通的地形装饰,而是地图上带有独特牛角标记的珍贵容器。其背景源于阿萨拉人在收藏大师马苏德引领下开展的祈福仪式,为《三角洲行动》的战场探索增添了丰富的趣味性与文化深度。 《三角洲行动》长弓溪谷藏宝堆全
育碧近日透露,《刺客信条》系列的全新多人作《刺客信条CODENAME INVICTUS》正在稳步开发中 《刺客信条》的粉丝们,准备好迎接一次碘伏性的体验了吗?育碧不久前释放了一个重磅消息:系列的全新多人游戏《刺客信条CODENAME INVICTUS》正在稳步推进中。这一次,开发团队将重心完全转向了
一、访问学科网官网并进入注册页面 想用学科网的各种教学资源,第一步得有个自己的账号。这事儿得从官网走最靠谱,毕竟现在各种山寨网站不少,走错了门,不光注册不成,还可能碰到麻烦。我建议你直接打开浏览器,手动输入www zxxk com这个地址,这样能确保万无一失。 进来之后别眼花,首页内容挺多的。你直接





