游乐游手机版
首页/AI教程/文章详情

英伟达智能体自主进化7天淘汰算子专家和GPU工程师

时间:2026-06-01 11:17
这应该是今天刚刚出炉的、最炸裂的文章。 在很多算子开发的微信群里,消息刚出来就炸了锅。 「这或许是超人类智能在软件领域的真正首次展露。」英伟达的许冰在 X 上写下这样的断言。他说的,正是他与 Terry Chen 和 Zhifan Ye 共同一作的英伟达新研究——A VO。 本周四刚提交到 arXi

这应该是今天刚刚出炉的、最炸裂的文章。

在很多算子开发的微信群里,消息刚出来就炸了锅。

「这或许是超人类智能在软件领域的真正首次展露。」英伟达的许冰在 X 上写下这样的断言。他说的,正是他与 Terry Chen 和 Zhifan Ye 共同一作的英伟达新研究——A VO。

本周四刚提交到 arXiv 的这篇论文里,英伟达提出了一类新型进化变异算子:Agentic Variation Operator(A VO)。它用自主编码智能体取代了经典进化搜索中那些固定的变异、交叉和人工设计的启发式方法,实际表现相当震撼。

许冰表示:「在一些高度优化的注意力机制工作负载中,智能体在没有人工干预的情况下,能在优化循环里连续搜索 7 天,结果超越了几乎所有人类 GPU 专家。」——这话听着,内核和 DSL 领域的同行们怕是都要坐不住了。

有意思的是,许冰在 X 推文里还分享了一个细节:一年半前他和 Terry Chen 刚开始在英伟达研究智能体编程时,两人压根不懂 GPU 编程。「所以从一开始我们就致力于开发完全自动化、无需人工干预的系统。」他们管这叫「盲编程(blind coding)」。

「在过去一年半的时间里,我们在两个智能体系统中开发了四代智能体。从第二代开始,这些智能体栈就开始自我演化。现在每个智能体的代码行数都约为 10 万行(非空代码)。」

他还特别强调 A VO 背后的意义:「我敢打赌:盲编程是软件工程的未来。人类认知能力是瓶颈。」

下面我们就来详细看看这篇可能开启「盲编程」新时代的论文,到底做出了什么贡献。

论文标题:A VO: Agentic Variation Operators for Autonomous Evolutionary Search

大语言模型已经成为进化搜索中的重要组件——用学习出来的代码生成,替代手工设计的变异算子。这些系统里,LLM 根据选定的父代生成候选解,而基于启发式的框架负责父代采样、评估和种群管理。这套组合在数学优化和算法发现领域成绩不错,FunSearch、AlphaEvolve 这些旗舰系统就是例子。

但是,把 LLM 限制在预设流水线里只干候选解生成这一件事,从根本上限制了它的发现能力:每次调用只能输出一个结果,没法主动查参考资料、测试自己的改动、解读反馈,或者提交前修正方案。对于那些早已被人工调优到极致的实现,想要再进一步,这种限制尤其致命。

研究者把目光投向了注意力机制——Transformer 的核心算子,也是 GPU 上被优化得最狠的目标之一。FlashAttention 系列和英伟达的 cuDNN 库,已经把历代 GPU 的注意力吞吐量推到了硬件极限;在最新的 Blackwell 架构上,FlashAttention-4 和 cuDNN 都花了数月人工优化。要想超越这些实现,必须跟开发环境持续迭代式交互:研究硬件文档、分析 Profiler 输出找瓶颈、实现并测试候选优化、诊断正确性问题,再根据经验修正策略。

深度智能体(Deep Agents)的最新进展表明,结合规划、持久内存和工具使用能力的 LLM,可以自主处理这类多步工程工作流——从解决复杂的 GitHub 问题到生成关键深度学习软件,都能干。这启发了一种截然不同的思路:与其把 LLM 锁在固定流水线里,不如让深度智能体直接担任变异算子。

于是,英伟达提出了智能体式变异算子(Agentic Variation Operators, A VO)。在这种模式下,一个自我导向的智能体取代了以往单轮 LLM 或固定工作流里的变异和交叉过程。A VO 智能体可以访问所有历史方案、特定领域的知识库和评估工具。它自己决定查什么、改哪里、什么时候评估,从而实现长周期内的持续改进。

为了验证效果,英伟达把 A VO 用到了 NVIDIA Blackwell B200 GPU 上的多头注意力(MHA)内核,直接跟专家优化的 cuDNN 和 FlashAttention-4 内核比。在完全没人干预、连续自主演化 7 天的情况下,智能体探索了超过 500 个优化方向,最终生成 40 个内核版本。结果,这个 MHA 内核在 BF16 精度下达到了最高 1668 TFLOPS 的吞吐量,在测试配置里分别超越 cuDNN 最高 3.5%,超越 FlashAttention-4 最高 10.5%。

英伟达分析了智能体发现的优化方案,发现这些优化覆盖了内核设计的多个层面——寄存器分配、指令流水线调度、负载分布,实打实的硬件级推理。而且实验表明,在 MHA 上找到的优化技术能有效迁移到分组查询注意力(GQA)上:智能体只花了 30 分钟额外自主适配,就把演化版 MHA 内核改成了支持 GQA,性能比 cuDNN 提升最高 7.0%,比 FlashAttention-4 提升 9.3%。

这项研究的主要贡献可以总结为三点:

  • 提出智能体式变异算子(A VO):把智能体从单纯的候选生成器提升为变异算子,通过与环境迭代交互,自主探索领域知识、实施修改并验证结果。

  • 实现 SOTA 性能:在 NVIDIA B200 GPU 上,基准测试配置中达到了 MHA 吞吐量 1668 TFLOPS,超越 cuDNN 最高 3.5%,超越 FlashAttention-4 最高 10.5%。而且这些优化能轻松迁移到 GQA,30 分钟自主演化就能获得显著增益。

  • 微架构优化分析:详细分析了智能体发现的优化,证明智能体在进行真正的硬件级推理,而非表层的代码变换。

告别流水线:AI 智能体成为真正的「进化操盘手」

在传统的基于 LLM 的进化搜索框架里,模型被困在固定流水线里,只能当候选代码生成器。每次调用只能出一个结果,没法主动查资料、测试代码、理解反馈,或者提交前修正策略。对深度迭代的顶级硬件优化来说,这个限制太致命了。

A VO 打破了这种局限,把「变异算子」实例化为一个自我驱动的智能体循环。这个 AI 智能体可以自由翻阅之前的代码版本记录,调用领域知识库(比如 CUDA 编程指南、PTX 架构文档),根据执行反馈主动提出、修复、批判和验证代码修改。简单说,A VO 把 AI 从被动的「代码生成器」提升成了掌握全局的「进化操盘手」。

7 天自主运转:在 Blackwell 架构上击败顶尖基准

研究团队把 A VO 放到一项极有挑战的任务上:在 NVIDIA Blackwell B200 GPU 上优化多头注意力(MHA)核心代码。注意力机制是 Transformer 的核心,也是 AI 芯片上被优化得最极致的计算目标之一。

在完全没有人干预的情况下,A VO 智能体连续自主运行了 7 天。这 7 天里,它在后台探索了超过 500 个优化方向,最终提交了 40 个有效迭代版本。最终生成的 MHA 核心在 BF16 精度下实现了 1668 TFLOPS 的吞吐量。

基准测试的结果令人惊叹:

  • 相比英伟达为 Blackwell 定制的闭源 cuDNN 库,吞吐量最高提升 3.5%。

  • 相比目前最前沿的开源基准 FlashAttention-4,吞吐量最高提升 10.5%。

强大的泛化能力:30 分钟迁移至分组查询注意力

更让人印象深刻的是,这些智能体发现的底层微架构优化并不是针对特定场景的过度拟合。当研究人员要求 A VO 把优化好的 MHA 核心适配到如今大模型常用的分组查询注意力(GQA)时,智能体只用了约 30 分钟的自主调整就完成了任务。

在 GQA 测试中,A VO 依然保持绝对领先:性能比 cuDNN 高出最高 7.0%,比 FlashAttention-4 高出最高 9.3%。这证明,智能体在 MHA 进化过程中发现的计算和内存访问优化模式,能有效泛化到不同计算特征的 GQA 任务上。

深入底层的微架构推理

分析 A VO 提交的代码变更可以看出,AI 智能体不是在搞表面功夫,而是在进行真正深入硬件底层的逻辑推理:

  • 无分支累加器重缩放:通过消除条件分支,智能体排除了 warp 同步开销,并替换了更轻量级的内存屏障,使得非因果注意力的吞吐量一次性提升了 8.1%。

  • 纠错与张量核心(MMA)流水线重叠:智能体重新组织了执行流水线,把原本顺序执行的依赖关系变成了交叠的流水线执行,大幅减少了硬件空闲等待时间。

  • 跨 warp 组的寄存器重新平衡:智能体通过分析性能分析器数据,发现某些运算组因为寄存器不足导致数据溢出至慢速本地内存。它果断对 Blackwell 的 2048 个寄存器预算进行重新分配,进一步压榨出 2.1% 的性能提升。

英伟达这项研究证明,AI 智能体已经具备了处理多硬件子系统(同步、内存排序、流水线调度、寄存器分配)联合推理的能力。A VO 作为一种不局限于特定领域的进化变异算子,为未来的自动化软件系统优化指明了道路。它不仅能用在 AI 芯片和深度学习底层生态的开发上,未来更有望在所有对算力有极致要求的科学和工程领域大展拳脚。

AI 智能体的自我进化能达到这种水平,你怕了吗?

来源:https://juejin.cn/post/7621374291867729930
上一篇AIGC工具在教育应用中的潜力与挑战分析 下一篇Khanmigo智能AI助手助力教育者学生家长提升学习效率与体验
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
Intelli Gift人工智能生活助手怎么样全面深度体验评测
AI教程 · 2026-06-01

Intelli Gift人工智能生活助手怎么样全面深度体验评测

挑选礼物看似简单,实则学问不少——选对了能增进感情,选错了不仅尴尬还白白花钱。每逢节日、纪念日或生日,许多人都会为送什么而费尽心思。其实,目前市面上已有智能化工具能有效解决这一难题,例如Intelli Gift,它堪称礼物创意领域的AI助手,专门帮助用户摆脱选择恐惧。 Intelli Gift的工作

AI免费翻唱任意歌曲小白必看教程
AI教程 · 2026-06-01

AI免费翻唱任意歌曲小白必看教程

只用一分钟的语音素材,就能让AI模仿出你的声音,然后一键翻唱任何歌曲——这听起来是不是有点不可思议?但这就是正在发生的现实。 上周分享的“小和尚语录”制作教程,让不少朋友对AI声音克隆产生了浓厚兴趣。有人甚至发来了一段AI生成的“大合唱”视频,效果令人惊讶:当AI模拟的“四郎”和“诸葛亮”在线对唱时

头部大厂研发团队如何应用AI编程实战
AI教程 · 2026-06-01

头部大厂研发团队如何应用AI编程实战

最近和几位来自大厂的研发团队负责人交流了AI Coding在实际项目中的应用情况,发现虽然各家模型选型、工具链不尽相同,但整体策略惊人相似。核心逻辑可以概括为一句话:AI并非用来替代程序员,而是让工程链路变得更可控。说白了,头部企业最宝贵的不在于代码产出速度,而在于稳定性——一次线上事故带来的损失,

字节跳动视觉大模型对战平台MagicArena
AI教程 · 2026-06-01

字节跳动视觉大模型对战平台MagicArena

MagicArena是什么 近期,字节跳动悄然上线了一款颇具创意的工具——MagicArena。简单来说,它是国内首个面向视觉大模型的公开对战平台。用户只需在统一页面输入一段文字提示,平台便会自动调取几款主流视觉大模型,例如Midjourney、FLUX、可灵、海螺、即梦等,基本覆盖了当前图片与视频

临床智能体与环境感知AI融合的医疗NLP深度分析
AI教程 · 2026-06-01

临床智能体与环境感知AI融合的医疗NLP深度分析

引言 医疗行业的数智化转型正以前所未有的速度推进,AI技术的应用尤为突出——从最初的基础辅助工具,到如今升级为复杂的智能体系统,大型语言模型(LLMs)的迅猛发展功不可没。临床智能体AI与环境感知AI的深度融合,已成为当前最值得关注的趋势之一,为重塑医疗运营中的自然语言处理(NLP)带来了崭新的视角