首页 游戏 软件 资讯 排行榜 专题
首页
AI
陈天奇、贾扬清点赞:Vibe Coding助力PyTorch论文AI生成

陈天奇、贾扬清点赞:Vibe Coding助力PyTorch论文AI生成

热心网友
74
转载
2026-01-25



免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

编辑|Panda、泽南

前两天,Node.js 之父 Ryan Dahl 在 X 上断言:「人类编写代码的时代已经结束了。」该帖引发广泛讨论,浏览量更是已经超过了 700 万。而现在,我们迎来了一个对这一判断的有力证明。



刚刚,英伟达杰出工程师许冰(Bing Xu)在 GitHub 上开源了一个新项目VibeTensor,让我们看到了 AI 在编程方面的强大实力。

从名字也能看出来,这是 Vibe Coding 的成果。事实也确实如此,这位谷歌学术引用量超 20 万的工程师在 X 上表示:「这是第一个完全由 AI 智能体生成的深度学习系统,没有一行人类编写的代码。



更具体来说,VibeTensor 是一个可运行的深度学习系统,配备了 RCU 风格的调度器、缓存分配器和反向模式自动微分器。该智能体还发明了一种Fabric 张量系统—— 这是目前任何框架中都不存在的新东西。



很明显,许冰分享的这张项目架构图也是 AI 生成的

其 Vibe Kernel 包含 13 种不同类型、总计约 4.7 万行代码的自动生成内核,这些内核使用 Triton 和 CuteDSL 编写,并且具有很强的性能表现。

许冰表示,VibeTensor 由英伟达的第四代智能体生成。但它也呈现出了一种「弗兰肯斯坦效应(Frankenstein Effect)」:系统本身是正确的,但某些关键路径的设计效率低下。因此,其性能无法与 PyTorch 相媲美。

更重要的是,许冰强调:「自 2025 年夏天以来,我一行代码都没写过。」他说这项工作是他看过 Andrej Kaparthy 的播客之后开始的。「我当时并不认同他的观点,所以我和 Terry Chen(英伟达首席工程师)开始用它来测试我们的智能体的能力。弗兰肯斯坦效应最终暴露了我们智能体的一些局限性 —— 但方向很明确。」

该项目在 X 上引起了不少关注,许冰的几位著名英伟达同事(也被列为参与者)也有分享点评。

比如陈天奇表示:VibeTensor 很有意思,它表明 AI 智能体能够构建深度学习框架这样复杂的东西。「生成的代码还有一些需要改进的地方,但它能够做到这一点本身就非常有趣。」



贾扬清的评价则更高,他表示该项目的出现罕见地验证了一个根本性问题:AI 能否编写复杂的系统代码?而该项目给出的答案是「能,但是……(仍有问题)」。他说 AI 正以惊人的速度前进,「如果我们能掌握更多正确的原则,AI 终将完全超越人类程序员。这就像 2015 年 1 月的 AlphaGo。」



目前,许冰已经在 GitHub 上 NVlabs 帐号下发布了 VibeTensor 的相关内容,其中也包含一篇论文。



论文标题:VibeTensor: System Software for Deep Learning, Fully Generated by AI Agents论文地址:https://github.com/NVlabs/vibetensor/blob/main/docs/vibetensor-paper.pdf项目链接:https://github.com/NVlabs/vibetensor

有意思的是,当我们初看这篇论文时,我们发现论文中有一些 AI 生成的内容。于是我们询问了许冰本人,而他给出的答案让我们非常震惊:这篇论文竟也是 100% 由 AI 撰写的!



许冰的回复

下面我们就来详细看看这个 AI 编写的项目究竟是什么。

VibeTensor:全球首个完全由 AI 智能体生成的全栈系统

VibeTensor 可不仅仅是又一个深度学习库。它是全球首个完全由 AI 智能体生成的全栈系统。从 Python/Node.js 的上层绑定,到 C++ 核心调度器,再到最底层的 CUDA 内存管理,每一行代码的增删改查、每一次 Bug 的修复、每一轮构建验证,全部由英伟达第四代智能体(Agent)独立完成。



而人类的作用是提供了高层级的需求指导,然后像监工一样看着 AI 智能体在两个月内疯狂输出。下面就来拆解一下这个氛围编程版的 PyTorch:VibeTensor。

首先,性能上虽然 VibeTensor 目前还无法与 PyTorch 这种经过多年磨砺的框架抗衡(根据论文测试,部分场景慢了约 1.7 到 6.2 倍),但作为一个功能完整的技术原型,其设计的完整度令人吃惊。





根据论文描述,VibeTensor 并不是一个简单的包装库,它拥有极其硬核的底层架构。

核心运行时的「暴力美学」

VibeTensor 的 C++20 核心并非简单的库调用。它实现了一个完整的 TensorImpl 架构,作为参考计数的 Storage 之上的视图。令人惊讶的是,AI 赋予了它支持非连续视图(Non-contiguous views)和 as_strided 语义的能力,并引入了原子版本计数器来确保原地(In-place)操作的安全性。

在算子调度层面,AI 构建了一个 schema-lite 调度器,能够将 vt::add 这样的操作名精准映射到 CPU 或 CUDA 的内核实现上。这种设计支持锁定(Boxed)和非锁定(Unboxed)调用路径,并通过不可变的快照状态(Snapshot states)实现了稳态下的无锁调用,极大地压低了调度开销。

独创的 Fabric 张量系统:不属于任何现有框架

在 VibeTensor 的所有组件中,最令人振奋的莫过于名为 Fabric 的实验性子系统。这是目前市面上任何主流深度学习框架(如 PyTorch 或 TensorFlow)中都不曾以这种形式存在的概念。

Fabric 本质上是一个显式的多设备抽象层。它的核心使命是打破单卡运行时的限制,直接接管硬件拓扑的自动发现过程。根据论文描述,Fabric 能够主动识别 CUDA P2P(点对点)和 UVA(统一虚拟地址)支持情况。

不同于传统框架将多卡通信隐藏在复杂的分布式 API 后,Fabric 提供了一套透明的可观测原语,允许研究者直接控制内存的放置与同步策略。

在 VibeTensor 的 Blackwell 评估中,AI 甚至基于 Fabric 构建了一个可选的环形全归约(Ring-allreduce)插件。这种插件直接绑定了 CUTLASS 的实验性内核,完全绕过了 NCCL。这意味着 AI 已经开始尝试从底层通信协议层面,去重构大规模分布式训练的逻辑。



异步优先的「Node.js + Python」双前端

在用户界面上,AI 并没有止步于复刻一个 PyTorch。它不仅利用 nanobind 打造了一个高度兼容的 Python 覆盖层(vibetensor.torch),还开创性地引入了一个基于 Node-API 的 Node.js 插件。

这个 JavaScript/TypeScript 界面采用了纯粹的「异步优先」设计。所有的重负载任务都被调度至 napi_async_work 以避免阻塞 Node 事件循环,并通过一个全局在途任务上限(VBT_NODE_MAX_INFLIGHT_OPS)来精细控制排队压力。这种横跨数据科学(Python)与后端工程(Node.js)的选型,体现了 AI 智能体在处理异构开发环境时的灵活性。

AI 内核套件:从算子到显存的全自动进化

在最底层的算子实现上,VibeTensor 附带了一个由 AI 生成的庞大内核套件。这里包含了 200 多个源文件,涵盖了从基础的 LayerNorm 到复杂的 Fused Attention 等各类算子。



这些内核利用了 Triton 和英伟达自家的 CuTeDSL 编写。



值得注意的是,AI 生成的内核并非只是「能用」,在 H100 的实测中,其生成的 Fused Attention 内核在特定形状下,前向计算比 PyTorch 的原生 FlashAttention 快了 1.54 倍,后向计算快了 1.26 倍。尽管这只是孤立算子的表现,但它证明了 AI 在掌握硬件特性(如 Hopper 架构的 TMA 或 Tensor Cores)方面的巨大潜力。



弗兰肯斯坦效应:AI 编程的隐形墙

尽管 VibeTensor 能够跑通复杂的神经网络模型,但许冰和团队在论文中诚实地提出了一个引人深思的概念:「弗兰肯斯坦效应(Frankenstein Effect)」。



这是 AI 智能体在构建复杂系统时暴露出的核心局限性。简单来说,AI 能够确保每一个局部子系统(如调度器、分配器、算子)在逻辑上是正确的,且能通过单元测试。但当这些局部组件拼凑成一个庞大的全局系统时,它们之间会产生意想不到的「摩擦」,形成性能瓶颈。

例如,AI 为了确保多线程环境下的安全性,在 Autograd 引擎中设计了一个非重入的全局互斥锁。这个设计从局部看非常稳健、安全,但在全局运行时却成了「扼杀」并行性能的元凶,导致原本高效的显卡内核因数据等待而频繁空转。这种「正确但低效」的代码,正是目前智能体在系统级架构设计上的天花板。

AI 辅助的开发方法

VibeTensor 的诞生并非源于一次简单的提示词工程,而是一场长达两个月的、由高层级人类指令驱动的 Agent 自主演化过程。许冰也让 AI 在论文中用一个章节专门总结了「AI 辅助的开发方法」。

1. 彻底的「黑盒」工作流

在这场实验中,人类的角色从「程序员」彻底转变为「监工」与「策略制定者」。许冰及其团队并没有进行任何代码层面的 Diff Review(差异审查),也没有手动运行过任何验证命令。

相反,开发流程被简化为一个持续循环的闭环:

目标设定: 人类指定一个作用域明确的目标和必须遵守的约束条件。代码生成: AI 智能体自主提议代码更改,并以 Diff 的形式应用到仓库中。工具校验: Agent 会自动调用编译器、测试框架和差异检查工具。多智能体评审: 为了弥补单体 AI 可能存在的盲点,团队引入了多 Agent 协作评审机制,用于捕捉缺失的边界情况、冗余的抽象或是潜在的安全隐患。

2. 测试驱动的「硬核」规范

在 Agent 驱动的开发中,测试不再是锦上添花,而是唯一的「真理来源」。VibeTensor 的每一行代码都必须经过 C++(CTest)和 Python(pytest)双重测试套件的洗礼。

更具创新性的是,AI 智能体还利用 PyTorch 作为一个「参考原件」,建立了一套自动化的 API 对齐检查器。当 AI 编写的算子出现数值偏差或内存泄漏时,Agent 会自主分析报错日志,添加一个最小化的回归测试用例,并重新进入修复循环。这种「测试即规格说明」的模式,确保了即使在缺乏人工干预的情况下,生成的 16 万行代码依然保持了极高的逻辑一致性。

3. 跨层级调试的挑战

论文揭示了一个有趣的现象:AI 在处理「单次正确」的任务时表现卓越,但在处理系统的「组合稳定性」时却面临巨大挑战。例如,在 Fused Attention 算子的移植过程中,Agent 经历了多次挫败:从最初的参数超限、显存对齐错误,到运行数千次后才暴露出的缓冲区初始化隐患。

这种跨越 C++ 运行时、CUDA 驱动程序和 Python 封装层的多级调试能力,正是此次英伟达第四代智能体展示出的最核心竞争力。它证明了 Agent 已经能够理解复杂的内存语义和硬件约束,而不仅仅是模仿代码片段。

AI 工程师的「AlphaGo 时刻」?

VibeTensor 的出现并非为了取代 PyTorch,而是一场关于「生成式软件工程」的宏大实验。

正如前文所述,许冰提到这项工作的灵感源于 Andrej Karpathy 的播客。当时他并不完全认同 Karpathy 关于「AI 编程」的某些激进观点,于是决定和首席工程师 Terry Chen 一起,用最硬核的系统开发来测试智能体的极限。

现在,方向已经明确。虽然「弗兰肯斯坦效应」依然存在,但 VibeTensor 的诞生标志着一个新时代的开启:未来的系统软件可能不再是工程师逐行敲出来的,而是由人类定义需求、由 AI 在「氛围」中生成出来的。

https://x.com/bingxu_/status/2014354974986408138

https://x.com/tqchenml/status/2014360719534227561

https://x.com/jiayq/status/2014373196934590593

https://x.com/rough__sea/status/2013280952370573666

来源:https://www.163.com/dy/article/KJVL50AK0511AQHO.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

AI再强,这些软件仍不可替代
科技数码
AI再强,这些软件仍不可替代

2026年开年,科技圈的情绪有些微妙。AI智能体能自主调用软件完成任务了,AI编程工具能把开发周期压缩到原来的几分之一了,连谷歌搜索的流量都在被AI对话分走。一种声音开始出现:传统软件会被AI替代吗

热心网友
04.01
补上办公短板:用飞书CLI加速双“手”协作
AI
补上办公短板:用飞书CLI加速双“手”协作

智东西作者|江宇编辑|漠影飞书把整套办公能力,直接开放给AI调用了。智东西4月1日报道,今日,飞书正式开源CLI工具lark-cli,覆盖即时通讯、云文档、多维表格、日历、会议、邮箱、任务、知识库等

热心网友
04.01
开源OpenClaw项目:实现全公司级虾集群企业部署方案
AI
开源OpenClaw项目:实现全公司级虾集群企业部署方案

克雷西 发自 凹非寺量子位 | 公众号 QbitAIOpenClaw火了之后,一个问题也自然浮现——如果你是一个管理者,想给整个公司人手配一只虾,该怎么办?听上去就是多开几个实例的事,但实际上,想要

热心网友
04.01
AI公司掌握定价权后股价飙升25%,其深层逻辑解析
科技数码
AI公司掌握定价权后股价飙升25%,其深层逻辑解析

“干活的Token,是简单问答的10倍,甚至100倍。”在几天前中关村论坛的一场开源主题圆桌上,当杨植麟把“为什么涨价”的问题直接抛给智谱CEO张鹏时,收到了这样的回答。张鹏选择用模型市场眼下正在发

热心网友
04.01
Claude代码超51万行遭泄露,开源项目安全引深思
科技数码
Claude代码超51万行遭泄露,开源项目安全引深思

3月31日,Anthropic因npm包打包失误,导致Claude Code约51 2万行源代码泄露,含4756个源文件、40余个工具模块及多项未发布功能,就此被动向全球开发者“开源”。该代码由研究

热心网友
04.01

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

百度网盘app如何切换企业版-百度网盘app切换企业版的具体操作方法介绍
手机教程
百度网盘app如何切换企业版-百度网盘app切换企业版的具体操作方法介绍

百度网盘个人版如何转企业版?完整切换步骤详细指南 当个人网盘难以满足团队文件共享与协作需求时,百度网盘提供的企业版无疑是高效解决方案。本文将为你详细解析如何直接在百度网盘App内,将个人账户一键切换至功能更强大的企业版,快速开启团队文件管理新模式。 第一步:进入个人中心页面 首先,请确保已安装并打开

热心网友
04.02
AI+eSIM落地 中国联通5G AI CPE巴展重磅亮相
科技数码
AI+eSIM落地 中国联通5G AI CPE巴展重磅亮相

“AI+eSIM”云智终端方案正式商用,首批合作项目5G AI CPE成功落地 在MWC 2026世界移动通信大会上,产业合作迎来重大进展。由全球移动通信系统协会(GSMA)与中国联通共同倡导的“‘AI+eSIM’云智终端合作联通方案”正式对外发布,并迅速完成首个商业化项目签约。中国联通联合通则康威

热心网友
04.02
洛克王国世界水泡壳如何搭配技能-洛克王国世界水泡壳技能搭配方法
游戏资讯
洛克王国世界水泡壳如何搭配技能-洛克王国世界水泡壳技能搭配方法

洛克王国世界水泡壳技能搭配完全指南:打造攻防一体的战术核心 世界水泡壳的技能池设计充满了战术深度,完美诠释了攻防一体的战斗哲学。无论是纯粹依靠威力压制对手的技能,还是具备控制、辅助等战略功能的技能,都能在其技能库中找到。掌握其技能搭配的核心思路,是让世界水泡壳在对战中发挥出全部潜力的关键,能够轻松取

热心网友
04.02
现货比特币(BTC)ETF当周吸金14.2亿美元,创10月初以来最强劲一周
web3.0
现货比特币(BTC)ETF当周吸金14.2亿美元,创10月初以来最强劲一周

现货比特币ETF单周吸金14 2亿美元,强势回归背后的市场信号 加密货币市场正迎来关键转折点。近期数据显示,现货比特币ETF资金流入呈现爆发式增长,成为近期最受关注的市场风向标。这不仅反映了机构资金的重新布局,更可能预示着市场供需结构的深层变化。 数据解读:创纪录的资金流入意味着什么? 根据专业追踪

热心网友
04.02
燕云十六声河西竹篮打水奇遇怎么做-燕云十六声河西竹篮打水奇遇的做法介绍
游戏资讯
燕云十六声河西竹篮打水奇遇怎么做-燕云十六声河西竹篮打水奇遇的做法介绍

河西竹篮打水奇遇触发地点指南 想要成功触发《燕云十六声》中颇具趣味的“竹篮打水”奇遇,玩家需要首先前往河西地图的特定区域进行探索。该触发点位置较为隐蔽,建议在河西沿岸的村落与水边场景多番巡视。当你接近正确位置时,可以留意游戏内的环境暗示,例如独特的视觉标识、背景音效的变化或氛围的微妙转变,这些都是系

热心网友
04.02