首页 游戏 软件 资讯 排行榜 专题
首页
AI
AI能写代码却不会洗车卡帕西揭示人工智能的局限性

AI能写代码却不会洗车卡帕西揭示人工智能的局限性

热心网友
77
转载
2026-05-17


如今最先进的AI大模型,已经能够独立重构一个包含十万行代码的庞大软件项目。然而,同一个模型在面对“如何洗车”这样的日常问题时,却可能给出“步行前往50米外的洗车店”这样令人啼笑皆非的建议。

为何它的能力表现如此割裂?时而如同无所不能的超级工程师,时而又像缺乏基本生活常识的实习生?

在近日的Sequoia AI Ascent 2026炉边谈话中,前特斯拉AI负责人、OpenAI联合创始人安德烈·卡帕西(Andrej Karpathy)用一个生动的比喻揭示了这一现象的核心——锯齿状智能(Jagged Intelligence)。对话结束后,他也在社交平台X上总结了此次分享的核心洞见。


2026年4月29日,Karpathy在Sequoia AI Ascent 2026炉边谈话现场

他的阐述聚焦于三个关键层面:首先,大模型带来的远不止是效率提升,它正在开辟数条全新的技术地平线,让一些过去不可能的事情成为现实,同时让另一些传统流程变得过时。其次,正是这种“锯齿状”的能力分布,导致了AI模型表现的巨大波动与不均衡。最后,一个面向AI智能体(agent-native)的新经济形态正在崛起,今天所有为人类设计的软件、文档和工作流程,未来都可能需要为智能体重构。

这三者共同指向一个更深刻的判断:人工智能的影响早已超越“提升编码速度”的范畴。它正在重塑软件开发的本质,并重新定义人类在技术生态中的角色。

即便是“氛围编程”(Vibe Coding)概念的提出者卡帕西本人,不久前也公开感叹:“我从未感觉作为一名程序员如此落后过。”这句话被主持人用作开场白,而这绝非谦辞。一位身处技术浪潮之巅的专家亲口承认跟不上节奏,恰恰印证了AI进化速度的惊人。

能重构十万行代码,却建议你走路去洗车

“这太离谱了。”卡帕西在现场分享了那个经典的“洗车”案例。能够重构十万行代码,意味着AI足以处理极其复杂的软件工程任务;而“走路去洗车店”,则暴露了一个连孩童都能理解的逻辑漏洞——需要清洗的是汽车,而汽车本身无法步行。

这个鲜明的对比,完美诠释了何为“锯齿状智能”。AI的能力提升并非一条平滑的直线,而是一块凹凸不平、参差不齐的锯齿板。在某些经过深度优化和大量训练的任务上,它的表现堪称卓越;而在另一些涉及简单常识或多步骤推理的场景中,它却可能意外“翻车”。

因此,当前最危险的误解,就是用非黑即白的“它行”或“它不行”来简单评判AI。真相远比这复杂。

新地平线:当软件实现“端到端”直接生成

卡帕西分享了一个让他深受触动的例子。他曾开发过一个名为MenuGen的应用程序,其功能是拍摄餐厅菜单后,通过OCR技术识别菜品名称,再调用图像生成模型为每道菜配上图片。这是一个典型的“软件1.0”思维下的产物。

直到他看到了一个“软件3.0”范式的实现:用户只需将菜单照片发送给Gemini这类多模态大模型,并附上一句提示词“用Nanobanana把菜品图片贴到菜单上”,模型便能直接输出一张图文并茂、排版完整的新菜单。


那一刻他意识到,自己那个需要集成多个模块、处理复杂异常流程的App,在新范式面前显得多余。这揭示了第一条新地平线:AI不再仅仅是优化旧工具,而是能将原本需要一整套工程化流程才能完成的任务,压缩为模型的一次性端到端输出。

第二条地平线,是“.md”文件取代“.sh”脚本。过去,安装一个复杂软件往往需要运行冗长且脆弱的bash脚本,系统环境稍有变化就可能导致失败。卡帕西提到了OpenClaw的安装方式:它提供的不是脚本,而是一段Markdown文档,上面写着“将这段内容复制给你的AI智能体”。智能体会自动检查你的系统环境、调试并完成安装。在这里,Markdown不再是给人阅读的说明书,而是给智能体执行的操作指令集。

第三条地平线,是他在2026年4月提出的“LLM Wiki”概念。传统的检索增强生成(RAG)每次问答都是独立的,知识无法有效累积。而LLM Wiki让模型在一个由Markdown文件夹构成的“知识库”中持续工作:新文档加入后,模型会自动更新相关条目、修订摘要、补充内部链接、标记矛盾之处。用户可以用Obsidian这类工具来浏览这个动态更新的Wiki。卡帕西比喻道:Obsidian是IDE(集成开发环境),LLM是程序员,而Wiki本身就是被持续维护的代码库。这让知识管理首次具备了类似软件工程的可积累、可版本控制的特性。

这三个例子殊途同归:软件1.0时代,我们亲手编写每一行代码;软件2.0时代,我们训练神经网络的权重;而软件3.0时代,我们的核心工作变成了设计提示词(Prompt)、管理上下文窗口(Context Window)和调度智能体(Agent)。

锯齿状智能的背后:可验证性与经济学原理

解释了新范式后,卡帕西深入剖析了根本问题:为何模型的智能如此“锯齿化”?他认为,这主要不是一个技术瓶颈,而是一个经济学问题。

前沿实验室在通过强化学习(RL)优化模型时,决定将哪些能力打包进训练数据分布,很大程度上取决于两个核心因素:该领域任务结果的可验证性(Verifiability),以及其潜在的市场规模与商业收入(Revenue/TAM)。


强化学习需要清晰的奖励信号(Reward),而奖励信号依赖于任务结果是否易于验证。像代码能否正确运行、数学题答案是否准确、安全漏洞能否被复现这类问题,很容易构建出自动化的评估环境,模型在这些领域就能获得高效的反馈并飞速进化。

但“可验证”只是前提,“有商业价值”才是核心驱动力。OpenAI、Anthropic、Google等巨头选择优先攻克哪些方向,背后是严酷的商业考量。市场规模大、付费意愿强、能形成商业闭环的领域,会获得大量资源投入,被精心打磨并整合进RL训练流程;反之,则可能无人问津。

卡帕西给出了一个形象的比喻:在强化学习铺设好的主流赛道上,模型的能力如同高速列车般飞驰;而一旦离开这些被充分验证和数据化的领域,就如同拿着砍刀进入原始丛林,举步维艰。

所以,我们今天看到的“锯齿状”能力分布,并非技术缺陷,而是一种必然的市场与技术交织下的结构。它是“可验证性”与“经济激励”这两把刻刀,共同雕琢出的能力图谱。

这对创业者而言至关重要。卡帕西在现场给出了直接建议:如果你想在AI领域创业,应该去寻找那些“任务可验证、但巨头尚未大规模投入”的垂直细分领域。然后自己动手构建强化学习环境,收集领域数据,对基础模型进行微调(Fine-tune)。这可能是当下构建竞争护城河最有效的路径之一。

换句话说,下一批成功的AI原生公司,其核心资产可能就是它们独有的“验证环境”和高质量数据闭环。谁能定义出有价值的可验证任务、构建起高效的奖励循环(Reward Loop)、并积累起丰富的边缘案例(Edge Cases),谁就掌握了主动权。

卡帕西将看似神秘的AI能力不均衡现象,还原成了一个清晰可分析的工程与经济学交叉问题。

从“氛围编程”到“智能体工程”

2025年2月,卡帕西在X上创造了“Vibe Coding”(氛围编程)一词,用来描述那种高度依赖AI生成代码、开发者几乎不亲手敲键盘的编程方式。这个词迅速走红,甚至被柯林斯词典选为2025年度词汇。Cursor、Lovable、Replit等公司的崛起,也印证了这股浪潮。

一年后,在这次对话中,他为这个概念升级了一个新词:智能体工程(Agentic Engineering)。

在他看来,这两者扮演着不同的角色:“氛围编程”是“抬高地板”(Raising the Floor),它极大地降低了编程门槛,让更多非专业人士能够参与创造;而“智能体工程”则是“保住天花板”(Preserving the Ceiling),它确保在AI的辅助下,专业级软件的质量、架构标准和安全性不会滑坡。


因为当前AI生成的代码,在卡帕西看来存在“臃肿”和设计问题——常常包含大量重复代码,抽象设计古怪且脆弱,虽然能运行,但代码质量和可维护性堪忧。

他举了一个真实案例:他的AI智能体在开发MenuGen时,竟然试图用Stripe支付接口返回的客户ID和Google登录返回的邮箱地址来做用户匹配,而不是使用一个持久化的、唯一的用户ID(User ID)。这种设计错误是任何有经验的软件工程师都会避免的,但智能体却会自然而然地犯下。

因此,卡帕西给智能体一个精准的定位:它们就像是一群“实习生”。实习生很有用,能承担大量基础性、重复性的工作,但你绝不会让他们独自负责生产环境的核心代码架构。需求定义、系统架构设计、安全保障、审美判断、最终结果验证……这些关键职责,智能体目前还无法独立承担。

“氛围编程”的爽感,主要体现在业余项目开发和快速原型构建上;而“智能体工程”则是专业软件开发的下一个进化阶段。前者降低了入门门槛,后者则对开发者提出了更高的系统设计、流程管控和质量要求。两者不能混为一谈。

这也是当前行业容易陷入的误区。在“氛围编程”的热潮下,很多人高喊“人人都是程序员”,但卡帕西却指出:能在智能体时代生存下来的工程师,不是那些写代码最快的,而是那些最懂得如何有效规划、管理和驾驭智能体的“导演”或“架构师”。

你可以外包执行,但不能外包理解

炉边谈话中,主持人提出了一个普遍的焦虑:当智能体能够编写代码、调度任务、自行安装软件时,人类程序员的价值还剩下什么?

卡帕西引用了一条令他深受启发的推文来回答:“你可以外包你的思考(过程),但你不能外包你的理解(责任)。”

他的解读是:人类仍然是整个创造过程的最终决策者和责任主体,因为只有人类才真正知道自己要构建什么,以及为何要构建它。在智能体工作流中,人类的角色演变为“工程管理”或“工程导演”。

具体来说,这个角色包含六个无法被AI完全替代的核心职能:

  1. 需求定义:清晰阐述要构建什么,解决什么问题。
  2. 任务拆解与计划:将宏观目标分解为智能体可执行的步骤序列。
  3. 系统架构设计:决定系统的整体结构、组件关系和关键技术选型。
  4. 品味与审美判断:评估哪个方案在用户体验、代码优雅度和长期可维护性上更优。
  5. 过程监督与纠偏:确保智能体的执行过程不偏离既定目标和设计规范。
  6. 最终结果验证与负责:确认智能体的产出是否正确、可靠、安全,并为之承担最终责任。

这六件事,智能体可以辅助执行,但无法承担最终责任。

卡帕西再次提及了他著名的“动物与幽灵”比喻。他认为,当前的前沿大模型研究不是在创造有内在动机和意识的“动物”,而是在“召唤幽灵”。


幽灵没有自主意识,它的智能完全由海量数据和人类设定的奖励信号塑造而成,是一个全新的人造物种。因此,我们不能像对待人类一样赋予智能体自主权,也不能像对待传统确定性软件一样完全预测其行为。

而人类的位置,就是“导演”。导演不亲自扮演每个角色,但他必须懂戏,必须掌控全局的叙事、节奏和最终呈现。同样,未来的开发者可能不亲手写每一行代码,但他必须知道产品最终应该是什么样子、为何A架构方案优于B方案、以及系统上线后可能面临何种挑战与风险。

Sequoia在2026年给出的观察是,AI应用的渗透速度正在加快,成功企业的规模天花板也在提升,“从0到1亿美元”的俱乐部正在向“从0到10亿美元”演进。顶尖的AI创业公司,其单员工年产值已超过百万美元。这背后是AI智能体在高效执行,但能让智能体产出如此巨大商业价值的,正是那些懂得如何当好“导演”的创始人及核心团队。

在谈话尾声,卡帕西描绘了一个更遥远的愿景:未来某天,神经网络或许会成为计算机的主处理器,而传统的CPU则降级为协处理器。但即便走到那一步,“导演”的角色也不会消失。因为“幽灵”永远不会替你思考你究竟需要什么、以及为何需要。那些无法被外包的深层理解、价值判断和终极责任,正是人类价值永恒的锚点。

来源:https://www.163.com/dy/article/KRS13C4P0511ABV6.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

双阶段方案让虚拟图像骗过AI眼睛游戏画面以假乱真
AI
双阶段方案让虚拟图像骗过AI眼睛游戏画面以假乱真

你是否好奇,游戏《GTA》中飞驰的汽车与现实中监控摄像头拍下的车辆,在人工智能的“视觉系统”里究竟有多大差别?尽管现代游戏画面已极为逼真,光影、材质与场景构建都栩栩如生,但对于自动驾驶、交通监控、智慧城市管理等需要落地应用的AI算法而言,虚拟游戏图像与真实世界照片之间,依然横亘着一道肉眼难以分辨、却

热心网友
05.16
港大与京东探索院联手优化视频AI四步提升实用体验
AI
港大与京东探索院联手优化视频AI四步提升实用体验

这项由香港大学、京东探索研究院、清华大学、北京大学和浙江大学联合完成的研究,以技术报告形式发布于2026年4月,论文编号为arXiv:2604 25427,有兴趣深入了解的读者可通过该编号查询完整原文。 你是否曾尝试用AI生成视频,却对结果感到失望?画面与描述不符、人物肢体扭曲、场景光影闪烁,最终视

热心网友
05.16
数据表描述不一致导致AI检索失败?伦斯勒理工与亚利桑那州立大学提出修复方案
AI
数据表描述不一致导致AI检索失败?伦斯勒理工与亚利桑那州立大学提出修复方案

2026年4月,一项由伦斯勒理工学院与亚利桑那州立大学联合开展的研究,在arXiv预印本平台发布(编号:arXiv:2604 24040v1),系统性地揭示并量化了AI表格检索领域一个长期存在的“盲点”——表格序列化格式对检索性能的巨大影响。 一、格式不同,AI就“认不出”同一张表格了? 设想一个典

热心网友
05.16
腾讯混元AI新突破:实时自适应系统取代传统固定模型
AI
腾讯混元AI新突破:实时自适应系统取代传统固定模型

腾讯混元团队提出新方法,使模型在推理时能根据输入动态生成参数,实现实时适配。实验表明,该方法在图像编辑任务中效果显著,能有效处理冲突需求,并在多项评测中领先,推动了智能模型从静态向动态演进。

热心网友
05.16
北大林宙辰团队ICLR 2026研究:基于最优传输的时序预测模型训练方法
AI
北大林宙辰团队ICLR 2026研究:基于最优传输的时序预测模型训练方法

北京大学团队提出DistDF损失函数,基于最优传输理论对齐预测与真实标签的联合分布,规避传统逐点损失中的独立性假设,实现无偏训练。该方法能有效捕捉序列整体形态与结构,兼容多种模型,在实验中展现出更优性能。

热心网友
05.16

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

美国将比特币列为国家安全资产对全球局势与加密市场的影响
web3.0
美国将比特币列为国家安全资产对全球局势与加密市场的影响

在全球紧张局势下,美国国防部将比特币重新定义为国家安全资产,反映出其战略价值提升。美国国库持有大量比特币,大国博弈中加密货币已成为国家安全筹码。市场普遍认为这一身份转变将增强机构需求,推动价格上涨。后续需关注美国政策动向、地缘政治变化及相关监管动态。

热心网友
05.17
Windows蓝屏代码0x00000012修复指南 内核异常解决方法详解
系统平台
Windows蓝屏代码0x00000012修复指南 内核异常解决方法详解

当Windows系统遭遇蓝屏时,那些含义不明的错误代码往往令人困扰。例如代码0x00000012 (TRAP_CAUSE_UNKNOWN),其官方解释为“内核捕获到无法识别的异常”。这就像一个笼统的系统警报,提示底层发生了问题,但并未指明具体故障点。此类错误通常不关联特定系统文件,反而更常见于新硬件

热心网友
05.17
Win10系统安装Java环境详细步骤与JDK配置指南
系统平台
Win10系统安装Java环境详细步骤与JDK配置指南

必须安装JDK并配置JA VA_HOME与Path环境变量;先下载JDK 17 21 LTS版本,安装时取消“Add to PATH”,再手动设置JA VA_HOME指向安装目录,并在Path中添加%JA VA_HOME% bin,最后用ja va -version等命令验证。 在Windows 1

热心网友
05.17
Mac图片文字提取技巧 苹果自带OCR功能使用指南
系统平台
Mac图片文字提取技巧 苹果自带OCR功能使用指南

对于Mac用户而言,从图片中提取文字其实无需额外安装第三方OCR软件。macOS系统自身就集成了强大的光学字符识别功能,它基于苹果自研的Vision框架与Core ML机器学习模型。最大的优势在于完全离线运行,所有图片处理均在本地完成,无需上传至任何云端服务器,充分保障了用户的隐私与数据安全。本文将

热心网友
05.17
Linux服务器开启TCP Keepalive防止数据库连接断开教程
系统平台
Linux服务器开启TCP Keepalive防止数据库连接断开教程

数据库长连接在静默中突然断开,是很多运维和开发都踩过的坑。你以为启用了TCP Keepalive就万事大吉?真相是,如果应用层、内核层和基础设施层的配置没有协同对齐,这个“保活”机制基本等于形同虚设。 问题的核心在于,一个完整的TCP Keepalive生效链条涉及三个环节:你的应用程序或连接池是否

热心网友
05.17