AI能写代码却不会洗车卡帕西揭示人工智能的局限性

首页

热心网友

转载

2026-05-17

如今最先进的AI大模型，已经能够独立重构一个包含十万行代码的庞大软件项目。然而，同一个模型在面对“如何洗车”这样的日常问题时，却可能给出“步行前往50米外的洗车店”这样令人啼笑皆非的建议。

为何它的能力表现如此割裂？时而如同无所不能的超级工程师，时而又像缺乏基本生活常识的实习生？

在近日的Sequoia AI Ascent 2026炉边谈话中，前特斯拉AI负责人、OpenAI联合创始人安德烈·卡帕西（Andrej Karpathy）用一个生动的比喻揭示了这一现象的核心——锯齿状智能（Jagged Intelligence）。对话结束后，他也在社交平台X上总结了此次分享的核心洞见。

2026年4月29日，Karpathy在Sequoia AI Ascent 2026炉边谈话现场

他的阐述聚焦于三个关键层面：首先，大模型带来的远不止是效率提升，它正在开辟数条全新的技术地平线，让一些过去不可能的事情成为现实，同时让另一些传统流程变得过时。其次，正是这种“锯齿状”的能力分布，导致了AI模型表现的巨大波动与不均衡。最后，一个面向AI智能体（agent-native）的新经济形态正在崛起，今天所有为人类设计的软件、文档和工作流程，未来都可能需要为智能体重构。

这三者共同指向一个更深刻的判断：人工智能的影响早已超越“提升编码速度”的范畴。它正在重塑软件开发的本质，并重新定义人类在技术生态中的角色。

即便是“氛围编程”（Vibe Coding）概念的提出者卡帕西本人，不久前也公开感叹：“我从未感觉作为一名程序员如此落后过。”这句话被主持人用作开场白，而这绝非谦辞。一位身处技术浪潮之巅的专家亲口承认跟不上节奏，恰恰印证了AI进化速度的惊人。

能重构十万行代码，却建议你走路去洗车

“这太离谱了。”卡帕西在现场分享了那个经典的“洗车”案例。能够重构十万行代码，意味着AI足以处理极其复杂的软件工程任务；而“走路去洗车店”，则暴露了一个连孩童都能理解的逻辑漏洞——需要清洗的是汽车，而汽车本身无法步行。

这个鲜明的对比，完美诠释了何为“锯齿状智能”。AI的能力提升并非一条平滑的直线，而是一块凹凸不平、参差不齐的锯齿板。在某些经过深度优化和大量训练的任务上，它的表现堪称卓越；而在另一些涉及简单常识或多步骤推理的场景中，它却可能意外“翻车”。

因此，当前最危险的误解，就是用非黑即白的“它行”或“它不行”来简单评判AI。真相远比这复杂。

新地平线：当软件实现“端到端”直接生成

卡帕西分享了一个让他深受触动的例子。他曾开发过一个名为MenuGen的应用程序，其功能是拍摄餐厅菜单后，通过OCR技术识别菜品名称，再调用图像生成模型为每道菜配上图片。这是一个典型的“软件1.0”思维下的产物。

直到他看到了一个“软件3.0”范式的实现：用户只需将菜单照片发送给Gemini这类多模态大模型，并附上一句提示词“用Nanobanana把菜品图片贴到菜单上”，模型便能直接输出一张图文并茂、排版完整的新菜单。

那一刻他意识到，自己那个需要集成多个模块、处理复杂异常流程的App，在新范式面前显得多余。这揭示了第一条新地平线：AI不再仅仅是优化旧工具，而是能将原本需要一整套工程化流程才能完成的任务，压缩为模型的一次性端到端输出。

第二条地平线，是“.md”文件取代“.sh”脚本。过去，安装一个复杂软件往往需要运行冗长且脆弱的bash脚本，系统环境稍有变化就可能导致失败。卡帕西提到了OpenClaw的安装方式：它提供的不是脚本，而是一段Markdown文档，上面写着“将这段内容复制给你的AI智能体”。智能体会自动检查你的系统环境、调试并完成安装。在这里，Markdown不再是给人阅读的说明书，而是给智能体执行的操作指令集。

第三条地平线，是他在2026年4月提出的“LLM Wiki”概念。传统的检索增强生成（RAG）每次问答都是独立的，知识无法有效累积。而LLM Wiki让模型在一个由Markdown文件夹构成的“知识库”中持续工作：新文档加入后，模型会自动更新相关条目、修订摘要、补充内部链接、标记矛盾之处。用户可以用Obsidian这类工具来浏览这个动态更新的Wiki。卡帕西比喻道：Obsidian是IDE（集成开发环境），LLM是程序员，而Wiki本身就是被持续维护的代码库。这让知识管理首次具备了类似软件工程的可积累、可版本控制的特性。

这三个例子殊途同归：软件1.0时代，我们亲手编写每一行代码；软件2.0时代，我们训练神经网络的权重；而软件3.0时代，我们的核心工作变成了设计提示词（Prompt）、管理上下文窗口（Context Window）和调度智能体（Agent）。

锯齿状智能的背后：可验证性与经济学原理

解释了新范式后，卡帕西深入剖析了根本问题：为何模型的智能如此“锯齿化”？他认为，这主要不是一个技术瓶颈，而是一个经济学问题。

前沿实验室在通过强化学习（RL）优化模型时，决定将哪些能力打包进训练数据分布，很大程度上取决于两个核心因素：该领域任务结果的可验证性（Verifiability），以及其潜在的市场规模与商业收入（Revenue/TAM）。

强化学习需要清晰的奖励信号（Reward），而奖励信号依赖于任务结果是否易于验证。像代码能否正确运行、数学题答案是否准确、安全漏洞能否被复现这类问题，很容易构建出自动化的评估环境，模型在这些领域就能获得高效的反馈并飞速进化。

但“可验证”只是前提，“有商业价值”才是核心驱动力。OpenAI、Anthropic、Google等巨头选择优先攻克哪些方向，背后是严酷的商业考量。市场规模大、付费意愿强、能形成商业闭环的领域，会获得大量资源投入，被精心打磨并整合进RL训练流程；反之，则可能无人问津。

卡帕西给出了一个形象的比喻：在强化学习铺设好的主流赛道上，模型的能力如同高速列车般飞驰；而一旦离开这些被充分验证和数据化的领域，就如同拿着砍刀进入原始丛林，举步维艰。

所以，我们今天看到的“锯齿状”能力分布，并非技术缺陷，而是一种必然的市场与技术交织下的结构。它是“可验证性”与“经济激励”这两把刻刀，共同雕琢出的能力图谱。

这对创业者而言至关重要。卡帕西在现场给出了直接建议：如果你想在AI领域创业，应该去寻找那些“任务可验证、但巨头尚未大规模投入”的垂直细分领域。然后自己动手构建强化学习环境，收集领域数据，对基础模型进行微调（Fine-tune）。这可能是当下构建竞争护城河最有效的路径之一。

换句话说，下一批成功的AI原生公司，其核心资产可能就是它们独有的“验证环境”和高质量数据闭环。谁能定义出有价值的可验证任务、构建起高效的奖励循环（Reward Loop）、并积累起丰富的边缘案例（Edge Cases），谁就掌握了主动权。

卡帕西将看似神秘的AI能力不均衡现象，还原成了一个清晰可分析的工程与经济学交叉问题。

从“氛围编程”到“智能体工程”

2025年2月，卡帕西在X上创造了“Vibe Coding”（氛围编程）一词，用来描述那种高度依赖AI生成代码、开发者几乎不亲手敲键盘的编程方式。这个词迅速走红，甚至被柯林斯词典选为2025年度词汇。Cursor、Lovable、Replit等公司的崛起，也印证了这股浪潮。

一年后，在这次对话中，他为这个概念升级了一个新词：智能体工程（Agentic Engineering）。

在他看来，这两者扮演着不同的角色：“氛围编程”是“抬高地板”（Raising the Floor），它极大地降低了编程门槛，让更多非专业人士能够参与创造；而“智能体工程”则是“保住天花板”（Preserving the Ceiling），它确保在AI的辅助下，专业级软件的质量、架构标准和安全性不会滑坡。

因为当前AI生成的代码，在卡帕西看来存在“臃肿”和设计问题——常常包含大量重复代码，抽象设计古怪且脆弱，虽然能运行，但代码质量和可维护性堪忧。

他举了一个真实案例：他的AI智能体在开发MenuGen时，竟然试图用Stripe支付接口返回的客户ID和Google登录返回的邮箱地址来做用户匹配，而不是使用一个持久化的、唯一的用户ID（User ID）。这种设计错误是任何有经验的软件工程师都会避免的，但智能体却会自然而然地犯下。

因此，卡帕西给智能体一个精准的定位：它们就像是一群“实习生”。实习生很有用，能承担大量基础性、重复性的工作，但你绝不会让他们独自负责生产环境的核心代码架构。需求定义、系统架构设计、安全保障、审美判断、最终结果验证……这些关键职责，智能体目前还无法独立承担。

“氛围编程”的爽感，主要体现在业余项目开发和快速原型构建上；而“智能体工程”则是专业软件开发的下一个进化阶段。前者降低了入门门槛，后者则对开发者提出了更高的系统设计、流程管控和质量要求。两者不能混为一谈。

这也是当前行业容易陷入的误区。在“氛围编程”的热潮下，很多人高喊“人人都是程序员”，但卡帕西却指出：能在智能体时代生存下来的工程师，不是那些写代码最快的，而是那些最懂得如何有效规划、管理和驾驭智能体的“导演”或“架构师”。

你可以外包执行，但不能外包理解

炉边谈话中，主持人提出了一个普遍的焦虑：当智能体能够编写代码、调度任务、自行安装软件时，人类程序员的价值还剩下什么？

卡帕西引用了一条令他深受启发的推文来回答：“你可以外包你的思考（过程），但你不能外包你的理解（责任）。”

他的解读是：人类仍然是整个创造过程的最终决策者和责任主体，因为只有人类才真正知道自己要构建什么，以及为何要构建它。在智能体工作流中，人类的角色演变为“工程管理”或“工程导演”。

具体来说，这个角色包含六个无法被AI完全替代的核心职能：

需求定义：清晰阐述要构建什么，解决什么问题。
任务拆解与计划：将宏观目标分解为智能体可执行的步骤序列。
系统架构设计：决定系统的整体结构、组件关系和关键技术选型。
品味与审美判断：评估哪个方案在用户体验、代码优雅度和长期可维护性上更优。
过程监督与纠偏：确保智能体的执行过程不偏离既定目标和设计规范。
最终结果验证与负责：确认智能体的产出是否正确、可靠、安全，并为之承担最终责任。

这六件事，智能体可以辅助执行，但无法承担最终责任。

卡帕西再次提及了他著名的“动物与幽灵”比喻。他认为，当前的前沿大模型研究不是在创造有内在动机和意识的“动物”，而是在“召唤幽灵”。

幽灵没有自主意识，它的智能完全由海量数据和人类设定的奖励信号塑造而成，是一个全新的人造物种。因此，我们不能像对待人类一样赋予智能体自主权，也不能像对待传统确定性软件一样完全预测其行为。

而人类的位置，就是“导演”。导演不亲自扮演每个角色，但他必须懂戏，必须掌控全局的叙事、节奏和最终呈现。同样，未来的开发者可能不亲手写每一行代码，但他必须知道产品最终应该是什么样子、为何A架构方案优于B方案、以及系统上线后可能面临何种挑战与风险。

Sequoia在2026年给出的观察是，AI应用的渗透速度正在加快，成功企业的规模天花板也在提升，“从0到1亿美元”的俱乐部正在向“从0到10亿美元”演进。顶尖的AI创业公司，其单员工年产值已超过百万美元。这背后是AI智能体在高效执行，但能让智能体产出如此巨大商业价值的，正是那些懂得如何当好“导演”的创始人及核心团队。

在谈话尾声，卡帕西描绘了一个更遥远的愿景：未来某天，神经网络或许会成为计算机的主处理器，而传统的CPU则降级为协处理器。但即便走到那一步，“导演”的角色也不会消失。因为“幽灵”永远不会替你思考你究竟需要什么、以及为何需要。那些无法被外包的深层理解、价值判断和终极责任，正是人类价值永恒的锚点。

来源:https://www.163.com/dy/article/KRS13C4P0511ABV6.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：取消Perplexity自动续费指南订阅管理关闭步骤详解下一篇：吉利星瑞L智擎与星越L智擎上市 AI油混技术革新燃油车市场