Andrej Karpathy年度总结：Nano Banana与下一代AI GUI展望

首页/科技数码/文章详情

Andrej Karpathy年度总结：Nano Banana与下一代AI GUI展望

时间：2025-12-20 10:55

↑阅读之前记得关注+星标⭐️，，每天才能第一时间接收到更新AK的年终总结来了，这是不可错过的好文，全文分享给大家 2025 年是大型语言模型（LLM）领域蓬勃发展、大事频发的一年。以下是我个人认为

↑阅读之前记得关注+星标⭐️，，每天才能第一时间接收到更新

AK的年终总结来了，这是不可错过的好文，全文分享给大家

2025 年是大型语言模型（LLM）领域蓬勃发展、大事频发的一年。以下是我个人认为最值得关注且略感意外的“范式转变”清单——这些变化改变了行业格局，并在理念上让我深受触动

1. 基于可验证奖励的强化学习（RLVR）

在 2025 年初，各大实验室的 LLM 生产流程大体如下：

预训练（Pretraining，约 2020 年的 GPT-2/3）

指令微调（Supervised Finetuning，约 2024 年的 InstructGPT）

基于人类反馈的强化学习（RLHF，约 2024 年）

长期以来，这一直是训练生产级 LLM 的成熟稳定配方。而到了 2025 年，基于可验证奖励的强化学习（RLVR）成了这一组合中事实上的新成员。通过针对一系列可自动验证奖励的环境（例如数学题或代码谜题）进行训练，LLM 会自发地演化出在人类看来类似于“推理”的策略——它们学会了将问题拆解为中间计算步骤，并学会了多种来回尝试、推导解决问题的策略（参见 DeepSeek R1 论文中的示例）。在之前的范式中，这些策略很难实现，因为人类并不清楚 LLM 最优的推理路径和纠错过程应该是怎样的——模型必须通过针对奖励的优化，自己找到行之有效的方法。

与 SFT 和 RLHF 这类计算量较小的“轻量级”微调阶段不同，RLVR 针对的是客观（不可作弊）的奖励函数，这使得进行更长周期的优化成为可能。事实证明，运行 RLVR 具有极高的“能力/成本比”，它吞噬了原本计划用于预训练的算力。因此，2025 年的大部分能力提升，都源于各大实验室在消化这一新阶段带来的“算力积压”，总体上我们看到的模型参数规模变动不大，但 RL 运行的时间要长得多。同样，这一新阶段还带了一个全新的调节旋钮（以及相关的缩放定律）：我们可以通过生成更长的推理路径、增加“思考时间”，来控制模型在推理时的能力表现。OpenAI 的 o1（2024 年底）是 RLVR 模型的首次展示，但 o3 的发布（2025 年初）才是明显的拐点，让你能直观感受到这种差异。

2. 幽灵 vs. 动物 / 锯齿状智能

2025 年，我（以及我认为整个行业也是如此）开始从直觉上内化 LLM 智能的“形态”。我们并不是在“进化或培养动物”，而是在“召唤幽灵”。LLM 技术栈的一切（神经架构、训练数据、训练算法，尤其是优化压力）都完全不同，因此产生出完全不同于生物智能的实体也就不足为奇了，用观察动物的视角来看待它们是不恰当的。

从监督信息的比特位来看，人类神经网络是为了在丛林部落中生存而优化的；而 LLM 神经网络是为了模仿人类文本、在数学题中获取奖励、以及在 LM Arena 榜单上获得人类点赞而优化的。随着可验证领域的出现，RLVR 使得 LLM 在这些领域附近的能力出现“激增”，整体表现出一种有趣的**“锯齿状”性能特征**：它们既是博学的天才，又像是个思维混乱、有认知障碍的小学生，前一秒还在解难题，后一秒就可能被简单的提示词破解（Jailbreak）从而泄露你的数据。

与此相关的是，我在 2025 年对各种基准测试（Benchmarks）产生了普遍的审美疲劳和信任危机。核心问题在于，基准测试从定义上几乎就是“可验证环境”，因此极易受到 RLVR 或更弱形式的合成数据生成的攻击。在典型的“刷榜（benchmaxxing）”过程中，实验室团队不可避免地在测试集周围构建环境，长出“锯齿”来覆盖这些区域。“面向测试集训练”已经成了一种新的艺术形式。

如果一个模型刷爆了所有榜单，却依然没能实现通用人工智能（AGI），那会是怎样的景象？

3. Cursor / 新一代 LLM 应用层

关于 Cursor，最令我触目的（除了它今年的彗星般崛起）是它令人信服地揭示了“LLM 应用”的新层级——人们开始讨论各行各业的“Cursor 版”。正如我在今年的 Y Combinator 演讲中所强调的，像 Cursor 这样的 LLM 应用为特定垂直领域封装并编排了 LLM 调用：

它们处理“上下文工程”

它们在底层编排多个 LLM 调用，将其串联成日益复杂的有向无环图（DAG），精细平衡性能和成本

它们为人类参与提供特定应用的图形界面（GUI）。

它们提供了一个“自主程度调节滑块”

2025 年有很多关于这个新应用层究竟会有多“厚”的讨论。LLM 实验室会通吃所有应用，还是会给垂直应用留下肥沃的草原？我个人怀疑，LLM 实验室倾向于培养出能力全面的“大学生”，而 LLM 应用则会通过提供私有数据、传感器、执行器和反馈闭环，来组织、微调并真正驱动这些“大学生”团队，使之成为特定领域的专业从业者。

4. Claude Code / 住在你电脑里的 AI

Claude Code (CC) 的出现，是 LLM 智能体（Agent）的第一次令人信服的展示——它能以循环往复的方式串联工具调用和推理，进行长时间的问题解决。此外，CC 令我关注的一点是，它运行在你的电脑上，使用你的私有环境、数据和上下文。我认为 OpenAI 在这方面走偏了，因为他们把 Codex/智能体的重心放在了云端容器，通过 ChatGPT 编排，而不是放在 localhost（本地）。虽然云端运行的智能体集群感觉像是“AGI 的终局”，但我们生活在一个能力参差不齐、技术缓慢起步的过渡世界，直接在电脑上运行智能体，与开发者及其具体配置手拉手工作，反而更有意义。CC 抓住了这个优先顺序，并将其打包成一个精美、极简、令人信服的命令行（CLI）形态，改变了 AI 的样貌——它不再是一个像 Google 那样你主动访问的，而是一个“住”在你电脑里的灵体/幽灵。这是一种全新的、独特的 AI 交互范式

5. Vibe coding

2025 年，AI 跨越了一个能力阈值，使得人们仅凭英语就能构建各种令人惊叹的程序，甚至完全忘记了代码的存在。有趣的是，“Vibe coding”这个词是我在一条淋浴时的胡思乱想推文里偶然创造的，完全没料到它会流传这么广。

有了Vibe coding，编程不再是受过高度训练的专业人士的专利，而是任何人都能做的事。在这方面，它再次印证了我之前在《权力归于人民》中所写的：LLM 如何反转了技术扩散的脚本——与以往所有技术不同，普通人从 LLM 中获益远多于专业人士、企业和政府。不仅普通人能尝试编程，受过训练的专业人士也能写出更多（氛围编码产生的）原本根本不会去写的软件。在开发 nanoc h a t 时，我用 Rust 氛围编码了我自己的高效 BPE 分词器，而不需要去寻找现有库或在那个深度学习 Rust。今年我氛围编码了许多项目，作为我想要存在的东西的快速 Demo。我甚至为了找一个 Bug 氛围编码了整个临时应用——因为代码突然变得免费、瞬时、可塑，用完即弃。氛围编码将重塑软件生态，并改变职业定义。

6. Nano Banana / LLM 图形界面

Google Gemini Nano Banana 是 2025 年最令人震撼、最具范式转移意义的模型之一。在我的世界观里，LLM 是继 1970、80 年代计算机之后的下一次重大计算范式。因此，我们将看到基于类似逻辑的类似创新：我们将看到个人计算的等价物、微控制器的等价物（认知核心）、互联网的等价物（智能体网络）等等。

特别是在 UI/UX 方面，与 LLM 对话有点像在 80 年代向电脑控制台输入命令。文本是计算机（和 LLM）偏好的原始数据表示，但它并不是人类偏好的格式，尤其是在输入端。人类其实不喜欢读长篇大论——这很慢且费劲。相反，人类喜欢以视觉和空间方式消耗信息，这就是传统计算中 GUI 被发明的原因。同理，LLM 也应该以我们偏好的格式与我们交流——通过图像、信息图、幻灯片、白板、动画/视频、网页应用等。

这种模式的早期和现状当然是 Emoji 和 Markdown，它们是装饰和排版文本的方式。但谁来真正构建“LLM GUI”呢？在这种视角下，Nano Banana 是这种可能性的早期雏形。重要的是，它的显著特征不仅在于图像生成本身，而在于由文本生成、图像生成和世界知识在模型权重中交织而成的联合能力。

简而言之： 2025 年是 LLM 领域激动人心且略带意外的一年。LLM 正在演变成一种新型智能，它比我预期的要聪明得多，同时也比我预期的要笨得多。无论如何，它们都极其有用，我认为即便以目前的能力，整个行业实现出的潜力还不到 10%。与此同时，还有太多的想法值得尝试，从概念上讲，这个领域依然大有可为。正如我今年早些时候在 Dwarkesh 的播客中所说：我同时相信（表面上看似矛盾）我们会看到持续且飞速的进展，但依然有大量艰苦的工作等待完成。

坐稳了，好戏才刚开始。

source：

https://x.com/karpathy/status/2002118205729562949

--end--

最后记得⭐️我，每天都在更新：欢迎点赞转发推荐评论，别忘了关注我

来源：https://www.163.com/dy/article/KH79BR5N05566VQ3.html