首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
7天重构GPU团队:英伟达23人如何用AI颠覆传统工作流

7天重构GPU团队:英伟达23人如何用AI颠覆传统工作流

热心网友
92
转载
2026-03-26

AI在7天内自主完成了通常需要专家数月甚至数年的GPU内核优化,而且结果比自己家的王牌产品还快10%——今天,学术预印本平台arXiv上发布了一项被视为可能彻底改变软件和芯片优化方式的突破性研究。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈


这一研究由NVIDIA组建的一支23人的顶级团队完成,名为《AVO: Agentic Variation Operators for Autonomous Evolutionary Search》(AVO:用于自主进化搜索的智能体变异算子)。

简单来说,AVO(Agentic Variation Operators,智能体变异算子)是让AI自己当起了“程序员+架构师+测试员”的合体,去探索人类工程师可能永远想不到的底层代码优化方案,最终在英伟达最新的Blackwell(B200)GPU上,写出了比当今最顶尖人类专家团队(如cuDNN和FlashAttention-4)编写的代码还要快10%以上的高性能计算内核。

值得注意的是,其核心开发者许冰在X上表示,他一开始根本不懂GPU编程,也由此开启了这一段“盲编码”的探索——也许,“不懂”才是最大的优势,人类的认知反而会成为进化的局限。

再见!传统进化算法的局限

想象一下,你有一套非常精密的计算程序(比如现在最火的AI模型中的“注意力机制”),这套程序要在显卡(GPU)上跑得飞快。为了达到这个目标,专业的程序员们通常要花费几个月甚至几年时间,手动调整代码、优化内存访问、设计特殊算法,最终才能比通用版本快个20%、30%。

但这些手工优化有个大问题:太慢了、太依赖个人经验了。硬件在变、算法在变,每次都需要重新优化。

为了自动化这个过程,科学家们想到了“进化算法”:就像生物进化一样,随机生成一批代码,测试哪个跑得快,保留快的,变异出下一代,不断重复。但这个方法有个致命缺陷:变异操作是“盲目的”——传统进化算法中的"变异"就是简单的随机修改、交换代码片段。这就好比你想让猴子打出莎士比亚的作品,纯靠随机敲键盘是不行的。

而且,传统的进化算法和“大模型辅助设计”思路,通常把AI(大语言模型)限定在一个固定的流程里。比如,人类设定好规则(“变异”和“交叉”),让AI生成一堆代码候选方案,然后由人类或另一个程序来筛选和测试。


AVO的革命性在于,它彻底颠覆了这个关系。 它不再把AI当作流程中的一个“候选生成器”,而是将整个变异过程本身,交给一个自主的智能体循环来完成。这个智能体拥有更高的权限和更全面的视角,它可以:

查阅整个进化家谱:查看当前所有代码版本的优劣和历史。调用领域知识库:学习特定领域(如GPU硬件架构)的专门知识。分析执行反馈:根据代码的实际运行性能数据,进行自我诊断。

基于这些信息,这个智能体可以自主完成提出修改、修复错误、批判方案、验证结果等一系列完整动作。这就像一个不知疲倦、知识渊博且具备批判性思维的全栈工程师,在持续地重构和优化代码。


实战成绩:在最难优化的战场上击败人类冠军

为了证明AVO的强大,研究团队选择了一个公认的“硬骨头”作为测试场:注意力机制(Attention)的计算内核。这是驱动当今所有大语言模型(如ChatGPT、Gemini)的核心组件,也是全球顶尖工程师和科学家投入巨资、激烈优化的焦点。英伟达的cuDNN和Tri Dao团队的FlashAttention系列,就是这一领域的标杆。

在让AVO在最新的NVIDIA Blackwell (B200)显卡上运行7天后,实验的结果惊人:



超越cuDNN:AVO形成的多头注意力(Multi-Head Attention,MHA)计算内核,在测试的各项配置中,性能超越了cuDNN高达3.5%。cuDNN是NVIDIA自家工程师花了多年打磨的闭源库,AVO一个AI系统跑了7天就超越了它。这相当于学生超越了老师,而且这个老师已经是全世界最好的。超越FlashAttention-4:比学术界最先进注意力计算方法FlashAttention-4快10.5%。这种程度的提升已经可以称之为革命性的突破了。迁移能力:更神奇的是,AVO优化好的代码还能举一反三——在MHA上进化7天的成果,迁移到GQA(Grouped-Query Attention,分组查询注意力)只需30分钟就能获得7%-9%的提升。说明AVO学到的不是死记硬背的特定优化,而是通用的优化策略和思维方式。微架构级别的深度优化:AVO发现的优化不是简单的换个算法,而是深入到GPU寄存器分配、warp调度、流水线时序的微架构级别。这说明AI已经具备了理解硬件底层行为的能力。这意味着什么?

传统方法像是在填空题里选答案,而AVO像是在开放题中自由发挥,可以探索各种可能性。而且,AVO不是靠猜什么优化有用,而是真正运行代码、测量性能,用数据驱动进化。同时,智能体会从每次尝试中学习,失败的尝试也有价值,告诉它这条路不通。

AVO让AI像真正的程序员一样,会学习、会思考、会测试,最终写出了比人类专家还快的代码。这是AI优化自身能力的重要一步。

从其进化结果来看,对AI硬件优化意味着:更快的大模型训练,如果注意力机制计算能加速10%,整个大模型训练都能更快;降低硬件门槛,同样的硬件能跑更大的模型,或者同样的模型能用更便宜的硬件;解放专家,不再需要顶尖优化工程师花费数月手工调优。

从这一AI研究方向而言,这篇论文证明了一个重要观点:AI不仅可以用来自动化任务,还可以用来自动化优化本身。未来可能会有更多“AI优化AI”的场景。

结语

这篇论文全部23位作者涵盖了AI编译器、高性能计算、计算机视觉、生成式AI等多个顶级子方向——AI智能体编程先锋(Terry Chen, 许冰)、 AI编译器之父(陈天奇)、NVIDIA研究VP(Ming-Yu Liu)、 GPU内核专家(John Tran, Andrew Kerr)、注意力机制专家(Ali Hassani)、学术界权威(Humphrey Shi, Luis Ceze),以及系统工程支撑团队。

这是一个从理论到工程、从学术到产品全链路覆盖的顶级团队。AVO不是一篇试试看的探索性论文,而是NVIDIA精心布局的战略级成果。

从更宏观的视角看,AVO代表了AI研发范式的又一次进化。它不再满足于让AI生成内容或遵循指令,而是赋予其长期的、目标导向的、具备反思能力的自主探索权。它也为我们打开了一扇门:未来,在芯片设计、编译器优化、算法创新等需要极度专业知识和创造力的领域,自主进化的AI智能体可能成为人类最得力的“共研者”。它们可以不知疲倦地探索人类思维难以触及的“微观架构”组合空间,加速我们迈向更强大、更高效计算未来的进程。

或许,这项研究正像一颗投入湖面的石子,其涟漪将逐渐扩散至整个计算产业的每一个角落。

论文地址 https://arxiv.org/pdf/2603.24517v1

来源:https://www.163.com/dy/article/KOVCSOON05118O92.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

AI医疗机遇与挑战:如何规避风险并引领行业革新?
科技数码
AI医疗机遇与挑战:如何规避风险并引领行业革新?

在今年的博鳌亚洲论坛,“AI+健康”的应用和治理被设置为一个单独的分论坛议题,不仅是因为AI给医疗健康领域带来了翻天覆地的变化,还因为AI在这个领域的应用有诸多问题需要厘清。“在医疗健康领域,我们无

热心网友
03.26
7天重构GPU团队:英伟达23人如何用AI颠覆传统工作流
科技数码
7天重构GPU团队:英伟达23人如何用AI颠覆传统工作流

AI在7天内自主完成了通常需要专家数月甚至数年的GPU内核优化,而且结果比自己家的王牌产品还快10%——今天,学术预印本平台arXiv上发布了一项被视为可能彻底改变软件和芯片优化方式的突破性研究。这

热心网友
03.26
30位行业领袖激辩2小时:工业AI落地实战全解析
科技数码
30位行业领袖激辩2小时:工业AI落地实战全解析

3月23日,在西门子全球科技大会期间,一场主题为“AI西妙夜·工业AI场景进化论”的小范围闭门会同步举行。会上,包括西门子全球CEO博乐仁、中国CEO肖松、宁德时代首席制造官倪军、美国国家工程院院士

热心网友
03.26
智元机器人2024发力算法数据,深度布局世界模型机遇
科技数码
智元机器人2024发力算法数据,深度布局世界模型机遇

世界模型已成为具身智能与智能驾驶的关注焦点。近期,Momenta CEO曹旭东宣布,Momenta R7强化学习世界模型即将推出,并将全球首发搭载于上汽大众全新旗舰车型。 本月初,前 Meta 首席

热心网友
03.26
揭秘谷歌TurboQuant:硬件博弈如何缩减6倍AI内存与算力?
科技数码
揭秘谷歌TurboQuant:硬件博弈如何缩减6倍AI内存与算力?

美东时间3月24日,谷歌研究院(Google Research)发布了一项名为TurboQuant的免训练(training-free)AI内存压缩算法。最新技术文件显示,该算法能够在不损失模型精度

热心网友
03.26

最新APP

你比我猜
你比我猜
休闲益智 03-26
锦绣商铺
锦绣商铺
模拟经营 03-26
儿童画画
儿童画画
休闲益智 03-25
疯狂猜词
疯狂猜词
休闲益智 03-25
诸神皇冠
诸神皇冠
棋牌策略 03-25

热门推荐

4家供应商赴美生产iPhone,苹果供应链将迎剧变
网络安全
4家供应商赴美生产iPhone,苹果供应链将迎剧变

快科技3月27日消息,自美国实行新关税政策以来,苹果公司已经累计承担了超过33亿美元的关税成本。为了有效降低经营压力,苹果推动美国本土制造的意愿愈发强烈,正加速调整其全球供应链布局。截至目前,苹果已

热心网友
03.27
MacBook Neo散热差?加装铜片让游戏性能翻倍实测
电脑教程
MacBook Neo散热差?加装铜片让游戏性能翻倍实测

3月27日消息,博主ETA Prime近日对苹果MacBook Neo进行了一项简单散热改造,仅靠一块铜片就让这款无风扇笔记本的游戏帧数翻倍,综合性能提升达18 6%。MacBook Neo搭载A1

热心网友
03.27
趣冲健身多款自研AI智能健身设备,适配多场景与全周期运动体验
科技数码
趣冲健身多款自研AI智能健身设备,适配多场景与全周期运动体验

作者|黄楠 编辑|袁斯来 一个庞大的万亿级健康消费市场正加速形成。根据国际健身协会(IFAI)等报告显示,近年来,数字健身市场增速高达41 4%,全球健身行业规模预计2030年达1 5万亿美元。

热心网友
03.27
神马搜索App备份恢复指南:3步完成数据保护
手机教程
神马搜索App备份恢复指南:3步完成数据保护

在使用神马搜索app的过程中,数据的备份与恢复是一项重要的功能,它能帮助我们在各种情况下保护重要信息,确保使用的连续性。下面就来详细了解一下神马搜索app的备份恢复方法。备份神马搜

热心网友
03.27
商超如何破解新能源车集体逃离困局?
编程语言
商超如何破解新能源车集体逃离困局?

北京的李先生(化名)最近有换辆新能源车的打算。原本他想着周末去家附近的长楹天街时顺便看看车,在他的印象里,去年B1层分布着阿维塔、小鹏等多家品牌门店,彼时那里热热闹闹,看车的人络绎不绝。但这次逛下来

热心网友
03.27