这应该是今天刚刚出炉的、最炸裂的文章。
在很多算子开发的微信群里,消息刚出来就炸了锅。
「这或许是超人类智能在软件领域的真正首次展露。」英伟达的许冰在 X 上写下这样的断言。他说的,正是他与 Terry Chen 和 Zhifan Ye 共同一作的英伟达新研究——A VO。
本周四刚提交到 arXiv 的这篇论文里,英伟达提出了一类新型进化变异算子:Agentic Variation Operator(A VO)。它用自主编码智能体取代了经典进化搜索中那些固定的变异、交叉和人工设计的启发式方法,实际表现相当震撼。
许冰表示:「在一些高度优化的注意力机制工作负载中,智能体在没有人工干预的情况下,能在优化循环里连续搜索 7 天,结果超越了几乎所有人类 GPU 专家。」——这话听着,内核和 DSL 领域的同行们怕是都要坐不住了。
有意思的是,许冰在 X 推文里还分享了一个细节:一年半前他和 Terry Chen 刚开始在英伟达研究智能体编程时,两人压根不懂 GPU 编程。「所以从一开始我们就致力于开发完全自动化、无需人工干预的系统。」他们管这叫「盲编程(blind coding)」。
「在过去一年半的时间里,我们在两个智能体系统中开发了四代智能体。从第二代开始,这些智能体栈就开始自我演化。现在每个智能体的代码行数都约为 10 万行(非空代码)。」
他还特别强调 A VO 背后的意义:「我敢打赌:盲编程是软件工程的未来。人类认知能力是瓶颈。」
下面我们就来详细看看这篇可能开启「盲编程」新时代的论文,到底做出了什么贡献。
论文标题:A VO: Agentic Variation Operators for Autonomous Evolutionary Search
大语言模型已经成为进化搜索中的重要组件——用学习出来的代码生成,替代手工设计的变异算子。这些系统里,LLM 根据选定的父代生成候选解,而基于启发式的框架负责父代采样、评估和种群管理。这套组合在数学优化和算法发现领域成绩不错,FunSearch、AlphaEvolve 这些旗舰系统就是例子。
但是,把 LLM 限制在预设流水线里只干候选解生成这一件事,从根本上限制了它的发现能力:每次调用只能输出一个结果,没法主动查参考资料、测试自己的改动、解读反馈,或者提交前修正方案。对于那些早已被人工调优到极致的实现,想要再进一步,这种限制尤其致命。
研究者把目光投向了注意力机制——Transformer 的核心算子,也是 GPU 上被优化得最狠的目标之一。FlashAttention 系列和英伟达的 cuDNN 库,已经把历代 GPU 的注意力吞吐量推到了硬件极限;在最新的 Blackwell 架构上,FlashAttention-4 和 cuDNN 都花了数月人工优化。要想超越这些实现,必须跟开发环境持续迭代式交互:研究硬件文档、分析 Profiler 输出找瓶颈、实现并测试候选优化、诊断正确性问题,再根据经验修正策略。
深度智能体(Deep Agents)的最新进展表明,结合规划、持久内存和工具使用能力的 LLM,可以自主处理这类多步工程工作流——从解决复杂的 GitHub 问题到生成关键深度学习软件,都能干。这启发了一种截然不同的思路:与其把 LLM 锁在固定流水线里,不如让深度智能体直接担任变异算子。
于是,英伟达提出了智能体式变异算子(Agentic Variation Operators, A VO)。在这种模式下,一个自我导向的智能体取代了以往单轮 LLM 或固定工作流里的变异和交叉过程。A VO 智能体可以访问所有历史方案、特定领域的知识库和评估工具。它自己决定查什么、改哪里、什么时候评估,从而实现长周期内的持续改进。
为了验证效果,英伟达把 A VO 用到了 NVIDIA Blackwell B200 GPU 上的多头注意力(MHA)内核,直接跟专家优化的 cuDNN 和 FlashAttention-4 内核比。在完全没人干预、连续自主演化 7 天的情况下,智能体探索了超过 500 个优化方向,最终生成 40 个内核版本。结果,这个 MHA 内核在 BF16 精度下达到了最高 1668 TFLOPS 的吞吐量,在测试配置里分别超越 cuDNN 最高 3.5%,超越 FlashAttention-4 最高 10.5%。
英伟达分析了智能体发现的优化方案,发现这些优化覆盖了内核设计的多个层面——寄存器分配、指令流水线调度、负载分布,实打实的硬件级推理。而且实验表明,在 MHA 上找到的优化技术能有效迁移到分组查询注意力(GQA)上:智能体只花了 30 分钟额外自主适配,就把演化版 MHA 内核改成了支持 GQA,性能比 cuDNN 提升最高 7.0%,比 FlashAttention-4 提升 9.3%。
这项研究的主要贡献可以总结为三点:
提出智能体式变异算子(A VO):把智能体从单纯的候选生成器提升为变异算子,通过与环境迭代交互,自主探索领域知识、实施修改并验证结果。
实现 SOTA 性能:在 NVIDIA B200 GPU 上,基准测试配置中达到了 MHA 吞吐量 1668 TFLOPS,超越 cuDNN 最高 3.5%,超越 FlashAttention-4 最高 10.5%。而且这些优化能轻松迁移到 GQA,30 分钟自主演化就能获得显著增益。
微架构优化分析:详细分析了智能体发现的优化,证明智能体在进行真正的硬件级推理,而非表层的代码变换。
告别流水线:AI 智能体成为真正的「进化操盘手」
在传统的基于 LLM 的进化搜索框架里,模型被困在固定流水线里,只能当候选代码生成器。每次调用只能出一个结果,没法主动查资料、测试代码、理解反馈,或者提交前修正策略。对深度迭代的顶级硬件优化来说,这个限制太致命了。
A VO 打破了这种局限,把「变异算子」实例化为一个自我驱动的智能体循环。这个 AI 智能体可以自由翻阅之前的代码版本记录,调用领域知识库(比如 CUDA 编程指南、PTX 架构文档),根据执行反馈主动提出、修复、批判和验证代码修改。简单说,A VO 把 AI 从被动的「代码生成器」提升成了掌握全局的「进化操盘手」。
7 天自主运转:在 Blackwell 架构上击败顶尖基准
研究团队把 A VO 放到一项极有挑战的任务上:在 NVIDIA Blackwell B200 GPU 上优化多头注意力(MHA)核心代码。注意力机制是 Transformer 的核心,也是 AI 芯片上被优化得最极致的计算目标之一。
在完全没有人干预的情况下,A VO 智能体连续自主运行了 7 天。这 7 天里,它在后台探索了超过 500 个优化方向,最终提交了 40 个有效迭代版本。最终生成的 MHA 核心在 BF16 精度下实现了 1668 TFLOPS 的吞吐量。
基准测试的结果令人惊叹:
相比英伟达为 Blackwell 定制的闭源 cuDNN 库,吞吐量最高提升 3.5%。
相比目前最前沿的开源基准 FlashAttention-4,吞吐量最高提升 10.5%。
强大的泛化能力:30 分钟迁移至分组查询注意力
更让人印象深刻的是,这些智能体发现的底层微架构优化并不是针对特定场景的过度拟合。当研究人员要求 A VO 把优化好的 MHA 核心适配到如今大模型常用的分组查询注意力(GQA)时,智能体只用了约 30 分钟的自主调整就完成了任务。
在 GQA 测试中,A VO 依然保持绝对领先:性能比 cuDNN 高出最高 7.0%,比 FlashAttention-4 高出最高 9.3%。这证明,智能体在 MHA 进化过程中发现的计算和内存访问优化模式,能有效泛化到不同计算特征的 GQA 任务上。
深入底层的微架构推理
分析 A VO 提交的代码变更可以看出,AI 智能体不是在搞表面功夫,而是在进行真正深入硬件底层的逻辑推理:
无分支累加器重缩放:通过消除条件分支,智能体排除了 warp 同步开销,并替换了更轻量级的内存屏障,使得非因果注意力的吞吐量一次性提升了 8.1%。
纠错与张量核心(MMA)流水线重叠:智能体重新组织了执行流水线,把原本顺序执行的依赖关系变成了交叠的流水线执行,大幅减少了硬件空闲等待时间。
跨 warp 组的寄存器重新平衡:智能体通过分析性能分析器数据,发现某些运算组因为寄存器不足导致数据溢出至慢速本地内存。它果断对 Blackwell 的 2048 个寄存器预算进行重新分配,进一步压榨出 2.1% 的性能提升。
英伟达这项研究证明,AI 智能体已经具备了处理多硬件子系统(同步、内存排序、流水线调度、寄存器分配)联合推理的能力。A VO 作为一种不局限于特定领域的进化变异算子,为未来的自动化软件系统优化指明了道路。它不仅能用在 AI 芯片和深度学习底层生态的开发上,未来更有望在所有对算力有极致要求的科学和工程领域大展拳脚。
AI 智能体的自我进化能达到这种水平,你怕了吗?
