首页 游戏 软件 资讯 排行榜 专题
首页
AI
OpenAI重大更新! OpenAI的智能体Codex,这次直接硬刚Claude Cowork。 图片 Codex是OpenAI的旗舰代码生成模型,支持GitHub Copilot

OpenAI重大更新! OpenAI的智能体Codex,这次直接硬刚Claude Cowork。 图片 Codex是OpenAI的旗舰代码生成模型,支持GitHub Copilot

热心网友
24
转载
2026-05-06

能改10万行代码

却让你走路去洗车

这事儿听起来确实有点离谱,对吧?

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

如今最顶尖的大模型,已经能游刃有余地重构一个包含10万行代码的复杂项目。可转过头来,当你问它“怎么洗车”时,它却可能一本正经地建议你:步行前往50米外的洗车店。

想想看,10万行代码是什么概念?那足以支撑起一个相当成熟和复杂的软件系统。而“走路去洗车”这个建议呢?恐怕连三岁小孩都能意识到问题所在:要洗的是车,车又不会走路。一个拥有如此强大技术能力的模型,竟会在这种常识性问题上“翻车”。

这正是Karpathy在谈话中着力描绘的“锯齿状智能”图景。AI的能力进步并非平滑均匀的斜坡,而更像是一块凹凸不平的锯齿板,高峰与深谷并存。因此,用简单的“行”或“不行”来二分判断AI,可能是当下最危险的认知误区。

新地平线

当软件可以「直接做到」

Karpathy分享了一个让他自己都感到些许尴尬的经历。他曾经开发过一个叫MenuGen的App,功能是拍摄餐厅菜单后,用OCR识别菜品名,再调用图像生成模型为每道菜配上图片。这是一个典型的“软件1.0”思路下的产物。

然而,他后来看到了一个堪称“软件3.0”的版本:用户只需把菜单照片发给Gemini,并附上一句提示词——“用Nanobanana把菜品贴到菜单上”。模型便直接输出了一张完整的、图文并茂的菜单。

图片

那一刻的感受很清晰:自己那个需要精心编排技术栈的App,在新时代的范式面前,显得有些多余了。这揭示了第一个新地平线:AI不再仅仅是让旧流程加速,而是将原本需要一整套工程化实现的功能,压缩成了模型的一次性直接输出。

第二个地平线,是“.md”取代“.sh”。过去安装复杂软件,往往离不开冗长脆弱的bash脚本,环境稍有变化就可能崩溃。Karpathy提到了OpenClaw的安装方式:它提供的不是脚本,而是一段Markdown文字,指示你“把这段复制粘贴给你的智能体”。然后,智能体会自主检查你的环境、调试并完成安装。这里的Markdown,不再是给人看的说明书,而是给智能体看的可执行指令。

第三个地平线,是“LLM Wiki”。这是Karpathy在2026年4月提出的新理念。传统的RAG(检索增强生成)每次问答都是孤立的,模型需要重新解析文档,知识无法有效沉淀。LLM Wiki则不同,它让模型在一个Markdown文件夹构成的“知识库”中持续工作,你可以用Obsidian这类工具来浏览。新文档加入后,模型会自动更新相关条目、修订摘要、补充内部链接、甚至标记知识矛盾。在那份Gist中,Karpathy打了个比方:Obsidian是IDE(集成开发环境),LLM是程序员,而整个wiki就是被持续维护的代码库。知识,第一次被像软件工程一样系统地组织、积累和版本控制。

这三个例子共同指向一个核心转变:软件1.0时代,我们亲手写代码;软件2.0时代,我们训练模型权重;到了软件3.0时代,我们的核心工作变成了设计提示词(prompt)、管理上下文窗口(context window)和调度智能体。

锯齿状的背后

可验证性和经济学

解释了新范式,Karpathy进一步剖析了那个根本问题:模型的智能为何如此“锯齿状”,高低起伏悬殊?

他的观点很明确:这主要不是一个技术瓶颈,而是一个经济学问题。是市场规模和收入潜力,决定了顶尖AI实验室在强化学习阶段,优先将哪些能力打包进模型的训练数据分布。

图片

强化学习依赖奖励信号,而奖励信号需要可验证性。任何一个领域,只要其产出能够被清晰验证——比如代码能否运行、数学题答案是否正确、安全漏洞能否复现——就能构建出强化学习环境,模型在该领域的能力便会飞速进化。

但“可验证”只是前提,“有钱赚”才是驱动力。OpenAI、Anthropic、Google这些实验室选择优先攻克哪些领域,背后是严酷的商业考量:市场空间是否足够大?付费意愿是否强烈?能否形成可持续的商业闭环?符合这些条件的领域,会被优先纳入强化学习的训练轨道;反之,则可能乏人问津。

Karpathy给出了一个生动的比喻:在强化学习的“轨道”上,模型的能力如同高速列车般飞驰;而一旦离开这些高投入、高验证度的数据分布,模型的表现就像拿着砍刀在丛林中摸索,举步维艰。

所以,今天我们看到的“锯齿状”能力分布,并非缺陷,而是一种必然的结构。它是“可验证性”与“经济激励”这两把刻刀,共同雕琢出的形状。

这对创业者而言至关重要。Karpathy给出了一个直白的建议:如果你想在AI领域创业,应该去寻找那些“可验证、但巨头尚未大规模投入”的垂直领域。然后,自己动手构建强化学习环境,对模型进行微调。这可能是当下构建竞争护城河最有效的路径之一。

换句话说,下一批原生AI公司,其核心资产可能就是它们所定义的“验证环境”本身。谁能设计出关键的可验证任务、构建高效的奖励循环、并持续积累边缘案例,谁就掌握了主动权。

就这样,Karpathy将看似神秘的“锯齿状智能”,还原成了一个清晰可分析的工程与经济交叉命题。

Vibe Coding的发明人

又造出新词

2025年2月,Karpathy在X上创造了“Vibe Coding”一词,用来形容那种高度依赖AI、几乎无需手动编码的开发方式。这个词火爆到被柯林斯词典选为2025年度词汇,而Cursor、Lovable、Replit等公司的估值飙升,背后正是这股浪潮的推动。

一年后,在这次对话中,Karpathy为这个概念升级了一个新词:智能体工程。

他对这两个概念的区分非常精辟:“氛围编程”是“抬高地板”,让几乎所有人都能参与创造软件;而“智能体工程”则是“保住天花板”,确保专业的软件开发不会因为AI的介入而降低标准和质量。

图片

因为在他眼中,当前AI生成的代码往往显得臃肿,充斥着复制粘贴,抽象层次怪异且脆弱。代码能跑,但质量堪忧。

他举了一个真实的案例:他的智能体在MenuGen项目中,竟然试图用Stripe和Google返回的邮箱地址去做用户匹配,而不是使用一个持久化的唯一用户ID。这种错误,任何一位稍有经验的工程师都不会犯,但智能体却犯了。

因此,Karpathy给智能体下了一个精准的定位:它们就像一群“实习生”。实习生很有用,但你绝不会让他们独自负责生产环境的核心代码。需求定义、系统架构、安全保障、审美判断、结果验证……这些关键职责,智能体目前还无法独立承担。

“氛围编程”的爽感,主要存在于业余项目和原型验证阶段;而“智能体工程”才是专业软件开发的未来。前者降低了入门门槛,后者则对开发者提出了更高的要求——两者不能混为一谈。

这也是当前行业容易陷入的误区。在“氛围编程”的热潮下,人人都在欢呼“人人都是程序员”,但Karpathy却点出:能在智能体时代生存下来的工程师,不是那些编码最快的,而是那些最善于管理和驾驭智能体的。

你能外包思考

但不能外包理解

谈话中,主持人提出了一个普遍的焦虑:当智能体能够写代码、调度任务、自行安装软件时,人类的价值还剩下什么?

Karpathy引用了一条令他深受启发的推文:“你可以外包你的思考,但你不能外包你的理解。”

他的解读是:人类仍然是整个流程的“瓶颈”,因为只有人类才知道我们究竟要构建什么,以及为何要构建它。Karpathy将人类在智能体工作流中的角色,定位为“工程管理”或“工程导演”,具体承担六项核心职能:

第一,需求定义:清晰阐述要做什么;
第二,拆解计划:规划具体的实现路径;
第三,系统架构:设计系统的整体结构与蓝图;
第四,品味判断:评估并选择更优的方案;
第五,过程监督:确保智能体的执行不偏离轨道;
第六,结果验证:最终确认智能体的产出是否正确可靠。

这六项工作,智能体可以提供辅助,但无法承担最终责任。

Karpathy再次提及了他著名的“动物与幽灵”比喻。

图片

他在2025年10月系统阐述过:幽灵之于动物,正如飞机之于鸟类。当前的前沿大模型研究,不是在创造拥有内在动机的“动物”,而是在“召唤幽灵”。这些幽灵是由数据和奖励信号塑造出的智能模拟,是一个全新物种。这意味着,我们不能像对待人类一样对待智能体,也不能像对待传统软件一样对待它们。

而人类的位置,就是“导演”。导演不亲自扮演每个角色,但必须懂戏。你不需要亲手编写每一行代码,但你必须清楚产品最终应该是什么样子、为何A方案优于B方案、以及上线后可能面临哪些风险。

红杉资本在2026年给出的观察是:AI应用的渗透速度仍在加快,“从0到1亿美元”的创业俱乐部,正在向“从0到10亿美元”升级。顶尖的AI创业公司,其单员工年产出已超过百万美元。这背后固然是智能体在高效执行,但能让智能体创造出如此高价值的,正是那些懂得如何当好“导演”的创始人。

在谈话的尾声,Karpathy描绘了一个更远的愿景:未来某天,神经网络或许会成为主处理器,而传统的CPU反而退居协处理器的位置。

但即便这条路最终走通,“导演”的位置也永远不会消失。因为“幽灵”永远不会替你思考你究竟想要什么。那些无法被外包的部分,恰恰是人类不可替代的价值所在。

来源:https://www.51cto.com/article/842280.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

OpenAI重大更新!  OpenAI的智能体Codex,这次直接硬刚Claude Cowork。  图片 Codex是OpenAI的旗舰代码生成模型,支持GitHub Copilot
AI
OpenAI重大更新! OpenAI的智能体Codex,这次直接硬刚Claude Cowork。 图片 Codex是OpenAI的旗舰代码生成模型,支持GitHub Copilot

能改10万行代码 却让你走路去洗车 这事儿听起来确实有点离谱,对吧? 如今最顶尖的大模型,已经能游刃有余地重构一个包含10万行代码的复杂项目。可转过头来,当你问它“怎么洗车”时,它却可能一本正经地建议你:步行前往50米外的洗车店。 想想看,10万行代码是什么概念?那足以支撑起一个相当成熟和复杂的软件

热心网友
05.06
微软 Copilot 自曝家底,其品牌产品已超 100 款
电脑教程
微软 Copilot 自曝家底,其品牌产品已超 100 款

微软Copilot品牌矩阵全解析:战略布局与命名挑战 今年四月初,AI行业顾问Ty Bannerman整理的一份数据在科技领域引发广泛讨论。数据显示,截至三月底,微软旗下直接以“Copilot”命名的产品、功能模块及硬件专用按键,累计数量已接近80项。从日常应用到开发平台,从软件内嵌工具到笔记本电脑

热心网友
05.04
如何关闭 Win11 任务栏上的 Copilot 图标 彻底禁用 AI 助手设置方法
系统平台
如何关闭 Win11 任务栏上的 Copilot 图标 彻底禁用 AI 助手设置方法

如何彻底移除 Windows 11 任务栏上的 Copilot 图标与禁用 AI 助手功能 > 通过任务栏设置隐藏图标、组策略彻底关闭、注册表禁用、Edge 侧边栏关闭及卸载应用五种方式移除 Copilot;前三种禁用系统级功能,后两种仅限浏览器或界面层。 ![](http: img 3180

热心网友
05.04
VSCode怎么安装和使用Codeium免费替代GitHub Copilot进行AI代码整行预测补全
编程语言
VSCode怎么安装和使用Codeium免费替代GitHub Copilot进行AI代码整行预测补全

VSCode怎么安装和使用Codeium免费替代GitHub Copilot进行AI代码整行预测补全 先说一个核心结论:能。Codeium 在 VSCode 中确实能免费启用整行预测补全,也就是大家常说的“内联建议”。它不收费,也不强制登录,但想让它顺畅工作,有几个关键开关必须打开,还得处理好和“老

热心网友
05.03
Copilot 用户现可通过Suno AI插件创作自己的 AI 歌曲
AI
Copilot 用户现可通过Suno AI插件创作自己的 AI 歌曲

微软 Copilot 联手 Suno:你的专属 AI 作曲伙伴来了 想写首歌玩玩吗?现在这事儿变得出奇的简单。微软的 AI 助手 Copilot 最近解锁了一项新技能——随时创作 AI 歌曲。背后的大功臣,是与一家名为 Suno 的 AI 音乐初创公司新建立的插件合作。这家来自剑桥的公司,此前在 D

热心网友
05.02

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

史上最长寿标准版!iP17生产周期延长:苹果刀法变了
科技数码
史上最长寿标准版!iP17生产周期延长:苹果刀法变了

iPhone 17:为何成为苹果史上最长寿的爆款? 最近科技圈有个消息传得挺热:iPhone 17标准版的生产周期被大幅拉长了。这可不是简单的产能调整,背后是苹果近期完成的大规模产能扩展。看来,这款热门机型已经瞄准了今年下半年的双11战场,准备再掀一波销售热潮。 消息一出,不少网友都在猜测原因。矛头

热心网友
05.06
小米有品新款mini智能电动平衡车深度体验:便携智能,解锁城市出行新方式
科技数码
小米有品新款mini智能电动平衡车深度体验:便携智能,解锁城市出行新方式

在快节奏的都市生活中,一款兼具便携性与环保特性的出行工具正成为越来越多人的选择 城市通勤的“最后一公里”难题,催生了对灵活出行方案的持续探索。近期,小米有品推出的mini智能电动平衡车,以其独特的设计理念和深度智能化功能,迅速吸引了市场的目光。它不仅仅是一款酷玩装备,更切实地为青少年和上班族提供了高

热心网友
05.06
护眼与智能兼备:科大讯飞AI学习机深度评测,为孩子选对学习好帮手
科技数码
护眼与智能兼备:科大讯飞AI学习机深度评测,为孩子选对学习好帮手

在数字化教育蓬勃发展的当下,家长们为孩子挑选学习设备时,既希望设备具备护眼功能,又期望能满足多样化的学习需求。传统平板电脑功能虽丰富,但长时间使用易引发视力疲劳;普通学习机功能又相对单一,难以契合现代教育的发展趋势。在此背景下,科大讯飞AI学习机系列凭借先进的护眼技术与智能学习系统,成为众多家长和学

热心网友
05.06
以太坊(ETH)财库黑马ETHZilla解析:蒂尔和EF深度加持 mNAV高达6
web3.0
以太坊(ETH)财库黑马ETHZilla解析:蒂尔和EF深度加持 mNAV高达6

目录 ethzilla是谁? ETHZilla独特其他ETH DAT之处 1、Peter Thiel持股ETHZilla近30% 2、Vitalik和以太坊基金会入局 3、聚焦DeFi和链上策略 结语 以太坊财库概念的热度,最近真是肉眼可见。伴随着这股热潮,ETH价格也强势突破了4700美元,距离历

热心网友
05.06
国内彩电一年仅卖2763万台 创10年新低
科技数码
国内彩电一年仅卖2763万台 创10年新低

全球彩电市场:存量博弈下的冰与火之歌 最近,行业调研机构奥维睿沃(A VC Revo)发布了一份引人关注的报告,揭示了2025年全球彩电市场的真实图景。数据显示,全球彩电整体出货量达到2 64亿台,同比仅微跌0 1%,市场基本盘看似稳固。 然而,拆开来看,内部结构正在发生深刻变化。LCD液晶电视依然

热心网友
05.06