首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
7天重构GPU团队:英伟达23人如何用AI颠覆传统工作流

7天重构GPU团队:英伟达23人如何用AI颠覆传统工作流

热心网友
97
转载
2026-03-26

AI在7天内自主完成了通常需要专家数月甚至数年的GPU内核优化,而且结果比自己家的王牌产品还快10%——今天,学术预印本平台arXiv上发布了一项被视为可能彻底改变软件和芯片优化方式的突破性研究。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈


这一研究由NVIDIA组建的一支23人的顶级团队完成,名为《AVO: Agentic Variation Operators for Autonomous Evolutionary Search》(AVO:用于自主进化搜索的智能体变异算子)。

简单来说,AVO(Agentic Variation Operators,智能体变异算子)是让AI自己当起了“程序员+架构师+测试员”的合体,去探索人类工程师可能永远想不到的底层代码优化方案,最终在英伟达最新的Blackwell(B200)GPU上,写出了比当今最顶尖人类专家团队(如cuDNN和FlashAttention-4)编写的代码还要快10%以上的高性能计算内核。

值得注意的是,其核心开发者许冰在X上表示,他一开始根本不懂GPU编程,也由此开启了这一段“盲编码”的探索——也许,“不懂”才是最大的优势,人类的认知反而会成为进化的局限。

再见!传统进化算法的局限

想象一下,你有一套非常精密的计算程序(比如现在最火的AI模型中的“注意力机制”),这套程序要在显卡(GPU)上跑得飞快。为了达到这个目标,专业的程序员们通常要花费几个月甚至几年时间,手动调整代码、优化内存访问、设计特殊算法,最终才能比通用版本快个20%、30%。

但这些手工优化有个大问题:太慢了、太依赖个人经验了。硬件在变、算法在变,每次都需要重新优化。

为了自动化这个过程,科学家们想到了“进化算法”:就像生物进化一样,随机生成一批代码,测试哪个跑得快,保留快的,变异出下一代,不断重复。但这个方法有个致命缺陷:变异操作是“盲目的”——传统进化算法中的"变异"就是简单的随机修改、交换代码片段。这就好比你想让猴子打出莎士比亚的作品,纯靠随机敲键盘是不行的。

而且,传统的进化算法和“大模型辅助设计”思路,通常把AI(大语言模型)限定在一个固定的流程里。比如,人类设定好规则(“变异”和“交叉”),让AI生成一堆代码候选方案,然后由人类或另一个程序来筛选和测试。


AVO的革命性在于,它彻底颠覆了这个关系。 它不再把AI当作流程中的一个“候选生成器”,而是将整个变异过程本身,交给一个自主的智能体循环来完成。这个智能体拥有更高的权限和更全面的视角,它可以:

查阅整个进化家谱:查看当前所有代码版本的优劣和历史。调用领域知识库:学习特定领域(如GPU硬件架构)的专门知识。分析执行反馈:根据代码的实际运行性能数据,进行自我诊断。

基于这些信息,这个智能体可以自主完成提出修改、修复错误、批判方案、验证结果等一系列完整动作。这就像一个不知疲倦、知识渊博且具备批判性思维的全栈工程师,在持续地重构和优化代码。


实战成绩:在最难优化的战场上击败人类冠军

为了证明AVO的强大,研究团队选择了一个公认的“硬骨头”作为测试场:注意力机制(Attention)的计算内核。这是驱动当今所有大语言模型(如ChatGPT、Gemini)的核心组件,也是全球顶尖工程师和科学家投入巨资、激烈优化的焦点。英伟达的cuDNN和Tri Dao团队的FlashAttention系列,就是这一领域的标杆。

在让AVO在最新的NVIDIA Blackwell (B200)显卡上运行7天后,实验的结果惊人:



超越cuDNN:AVO形成的多头注意力(Multi-Head Attention,MHA)计算内核,在测试的各项配置中,性能超越了cuDNN高达3.5%。cuDNN是NVIDIA自家工程师花了多年打磨的闭源库,AVO一个AI系统跑了7天就超越了它。这相当于学生超越了老师,而且这个老师已经是全世界最好的。超越FlashAttention-4:比学术界最先进注意力计算方法FlashAttention-4快10.5%。这种程度的提升已经可以称之为革命性的突破了。迁移能力:更神奇的是,AVO优化好的代码还能举一反三——在MHA上进化7天的成果,迁移到GQA(Grouped-Query Attention,分组查询注意力)只需30分钟就能获得7%-9%的提升。说明AVO学到的不是死记硬背的特定优化,而是通用的优化策略和思维方式。微架构级别的深度优化:AVO发现的优化不是简单的换个算法,而是深入到GPU寄存器分配、warp调度、流水线时序的微架构级别。这说明AI已经具备了理解硬件底层行为的能力。这意味着什么?

传统方法像是在填空题里选答案,而AVO像是在开放题中自由发挥,可以探索各种可能性。而且,AVO不是靠猜什么优化有用,而是真正运行代码、测量性能,用数据驱动进化。同时,智能体会从每次尝试中学习,失败的尝试也有价值,告诉它这条路不通。

AVO让AI像真正的程序员一样,会学习、会思考、会测试,最终写出了比人类专家还快的代码。这是AI优化自身能力的重要一步。

从其进化结果来看,对AI硬件优化意味着:更快的大模型训练,如果注意力机制计算能加速10%,整个大模型训练都能更快;降低硬件门槛,同样的硬件能跑更大的模型,或者同样的模型能用更便宜的硬件;解放专家,不再需要顶尖优化工程师花费数月手工调优。

从这一AI研究方向而言,这篇论文证明了一个重要观点:AI不仅可以用来自动化任务,还可以用来自动化优化本身。未来可能会有更多“AI优化AI”的场景。

结语

这篇论文全部23位作者涵盖了AI编译器、高性能计算、计算机视觉、生成式AI等多个顶级子方向——AI智能体编程先锋(Terry Chen, 许冰)、 AI编译器之父(陈天奇)、NVIDIA研究VP(Ming-Yu Liu)、 GPU内核专家(John Tran, Andrew Kerr)、注意力机制专家(Ali Hassani)、学术界权威(Humphrey Shi, Luis Ceze),以及系统工程支撑团队。

这是一个从理论到工程、从学术到产品全链路覆盖的顶级团队。AVO不是一篇试试看的探索性论文,而是NVIDIA精心布局的战略级成果。

从更宏观的视角看,AVO代表了AI研发范式的又一次进化。它不再满足于让AI生成内容或遵循指令,而是赋予其长期的、目标导向的、具备反思能力的自主探索权。它也为我们打开了一扇门:未来,在芯片设计、编译器优化、算法创新等需要极度专业知识和创造力的领域,自主进化的AI智能体可能成为人类最得力的“共研者”。它们可以不知疲倦地探索人类思维难以触及的“微观架构”组合空间,加速我们迈向更强大、更高效计算未来的进程。

或许,这项研究正像一颗投入湖面的石子,其涟漪将逐渐扩散至整个计算产业的每一个角落。

论文地址 https://arxiv.org/pdf/2603.24517v1

来源:https://www.163.com/dy/article/KOVCSOON05118O92.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

OpenClaw人人养虾:接入Discord
AI
OpenClaw人人养虾:接入Discord

Discord接入:让OpenClaw成为你的社区智能管家 对于全球数亿的游戏玩家和社群爱好者来说,Discord几乎等同于线上“大本营”。那么,有没有可能让你精心搭建的Discord服务器也拥有一个聪明能干的AI助手呢?答案是完全可行。通过创建Discord Bot(机器人),你可以将OpenCl

热心网友
04.15
Claude强到不敢发的Mythos,被质疑用了字节Seed技术
AI
Claude强到不敢发的Mythos,被质疑用了字节Seed技术

Claude最强“神话”模型,可能用到来自字节的技术? 这条猜测直接冲上了热搜榜。 这款被形容为“强到不敢公开发布”的Mythos模型,确实极大地刺激了人们对下一代大语言模型架构的想象空间。 社区讨论的焦点,正集中在它是否采用了“循环语言模型”(Looped Language Model)这一创新架

热心网友
04.14
DeepSeek上线专家模式:国产AI激战正酣,V4能否复刻去年春节炸场?
科技数码
DeepSeek上线专家模式:国产AI激战正酣,V4能否复刻去年春节炸场?

国产大模型DeepSeek迎来重大更新:快速模式与专家模式上线 最新消息显示,国产AI大模型DeepSeek再次迎来重要升级。4月8日,用户在访问DeepSeek时发现,输入框上方新增了“快速模式”与“专家模式”两个选项。根据官方说明,快速模式专注于日常对话场景,响应速度快,同时支持图片和文件中的文

热心网友
04.14
OpenClaw人人养虾:接入飞书
AI
OpenClaw人人养虾:接入飞书

飞书接入指南:为你的团队嵌入一位AI同事 如果你身处国内互联网或科技行业,对飞书这款高效协作平台一定非常熟悉。如今,它已不仅是团队沟通工具,更成为众多企业的数字化工作中枢。那么,能否让团队成员在飞书内部,直接调用强大的AI智能助手来提升效率呢?答案是肯定的。本指南将手把手教你,如何将OpenClaw

热心网友
04.14
让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26
AI
让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26

面对复杂连续任务的长程规划,现有的生成式离线强化学习方法往往会暴露短板。它们生成的轨迹经常陷入局部合理但全局偏航的窘境。它们太关注眼前的每一步,却忘了最终的目的地。针对这一痛点,厦门大学和香港科技大

热心网友
04.07

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

如何利用“清算热力图”预判大盘变盘点?实战操作指南
web3.0
如何利用“清算热力图”预判大盘变盘点?实战操作指南

清算热力图实战指南:精准预判加密市场变盘点的五大核心步骤 在波动剧烈的加密货币合约市场中,清算热力图正成为专业交易者洞察市场潜在“火药桶”的关键可视化工具。它通过动态展示不同价格区间的潜在清算头寸密度,将多空杠杆博弈的脆弱地带清晰呈现。掌握其核心用法,能有效辅助交易者识别价格可能发生剧烈转向或加速突

热心网友
04.17
不做成新罐头RPG!曝《刺客信条4:黑旗 重制版》坚守经典玩法
游戏评测
不做成新罐头RPG!曝《刺客信条4:黑旗 重制版》坚守经典玩法

《刺客信条:黑旗 Resynced》2026年发售,经典海盗传奇完全重制回归 据知名游戏爆料人Tom Henderson最新透露,备受玩家期待的《刺客信条:黑旗 Resynced》已正式定档,将于2026年7月9日全球同步发售。需要明确的是,本次项目并非简单的高清复刻版,而是对爱德华·肯威经典加勒比

热心网友
04.17
币安Binance现货合约交易官网入口 币安安卓苹果App下载注册与认证指南
web3.0
币安Binance现货合约交易官网入口 币安安卓苹果App下载注册与认证指南

币安Binance现货合约交易官网入口、App下载、注册与认证全指南 对于想要进入加密货币交易世界的新手来说,找到正确的起点至关重要。本文将为你清晰指引币安(Binance)的官方入口,并手把手带你完成从下载App、注册账户到完成身份认证的全过程。所有步骤都基于官方渠道,确保你的每一步操作都安全、可

热心网友
04.17
洛克王国世界前期哪个神宠比较好
游戏攻略
洛克王国世界前期哪个神宠比较好

洛克王国新手开局必看:前期神宠选择攻略与重要性解析 对于刚刚踏入洛克王国的新手玩家来说,开局阶段选择一只强力的前期神宠,是决定冒险旅程是否顺畅的关键。一只优秀的前期宠物不仅能让你轻松应对主线任务和日常挑战,更能帮助你快速理解游戏的核心战斗机制与属性克制关系。那么,在洛克王国前期,哪些宠物值得优先培养

热心网友
04.17
币圈合约中的“强平引擎”是如何运作的?保险基金起到什么作用?
web3.0
币圈合约中的“强平引擎”是如何运作的?保险基金起到什么作用?

深度解析:Web3合约交易中的强平引擎与保险基金核心机制 在波澜云诡的加密货币合约交易市场中,“强制平仓”是每一位交易者都极力避免却又必须深刻理解的风险事件。这背后并非一个简单的风控开关,而是一套被称为“强平引擎”的复杂、自动化、多层级风险管理系统。它的高效运作,直接关系到交易平台的稳健性与用户的资

热心网友
04.17