首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
Andrej Karpathy年度总结:Nano Banana与下一代AI GUI展望

Andrej Karpathy年度总结:Nano Banana与下一代AI GUI展望

热心网友
59
转载
2025-12-20

↑阅读之前记得关注+星标⭐️,,每天才能第一时间接收到更新

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

AK的年终总结来了,这是不可错过的好文,全文分享给大家


2025 年是大型语言模型(LLM)领域蓬勃发展、大事频发的一年。以下是我个人认为最值得关注且略感意外的“范式转变”清单——这些变化改变了行业格局,并在理念上让我深受触动

1. 基于可验证奖励的强化学习(RLVR)

在 2025 年初,各大实验室的 LLM 生产流程大体如下:

预训练(Pretraining,约 2020 年的 GPT-2/3)

指令微调(Supervised Finetuning,约 2024 年的 InstructGPT)

基于人类反馈的强化学习(RLHF,约 2024 年)

长期以来,这一直是训练生产级 LLM 的成熟稳定配方。而到了 2025 年,基于可验证奖励的强化学习(RLVR) 成了这一组合中事实上的新成员。通过针对一系列可自动验证奖励的环境(例如数学题或代码谜题)进行训练,LLM 会自发地演化出在人类看来类似于“推理”的策略——它们学会了将问题拆解为中间计算步骤,并学会了多种来回尝试、推导解决问题的策略(参见 DeepSeek R1 论文中的示例)。在之前的范式中,这些策略很难实现,因为人类并不清楚 LLM 最优的推理路径和纠错过程应该是怎样的——模型必须通过针对奖励的优化,自己找到行之有效的方法。

与 SFT 和 RLHF 这类计算量较小的“轻量级”微调阶段不同,RLVR 针对的是客观(不可作弊)的奖励函数,这使得进行更长周期的优化成为可能。事实证明,运行 RLVR 具有极高的“能力/成本比”,它吞噬了原本计划用于预训练的算力。因此,2025 年的大部分能力提升,都源于各大实验室在消化这一新阶段带来的“算力积压”,总体上我们看到的模型参数规模变动不大,但 RL 运行的时间要长得多。同样,这一新阶段还带了一个全新的调节旋钮(以及相关的缩放定律):我们可以通过生成更长的推理路径、增加“思考时间”,来控制模型在推理时的能力表现。OpenAI 的 o1(2024 年底)是 RLVR 模型的首次展示,但 o3 的发布(2025 年初)才是明显的拐点,让你能直观感受到这种差异。

2. 幽灵 vs. 动物 / 锯齿状智能

2025 年,我(以及我认为整个行业也是如此)开始从直觉上内化 LLM 智能的“形态”。我们并不是在“进化或培养动物”,而是在“召唤幽灵”。LLM 技术栈的一切(神经架构、训练数据、训练算法,尤其是优化压力)都完全不同,因此产生出完全不同于生物智能的实体也就不足为奇了,用观察动物的视角来看待它们是不恰当的。

从监督信息的比特位来看,人类神经网络是为了在丛林部落中生存而优化的;而 LLM 神经网络是为了模仿人类文本、在数学题中获取奖励、以及在 LM Arena 榜单上获得人类点赞而优化的。随着可验证领域的出现,RLVR 使得 LLM 在这些领域附近的能力出现“激增”,整体表现出一种有趣的**“锯齿状”性能特征**:它们既是博学的天才,又像是个思维混乱、有认知障碍的小学生,前一秒还在解难题,后一秒就可能被简单的提示词破解(Jailbreak)从而泄露你的数据。


与此相关的是,我在 2025 年对各种基准测试(Benchmarks)产生了普遍的审美疲劳和信任危机。核心问题在于,基准测试从定义上几乎就是“可验证环境”,因此极易受到 RLVR 或更弱形式的合成数据生成的攻击。在典型的“刷榜(benchmaxxing)”过程中,实验室团队不可避免地在测试集周围构建环境,长出“锯齿”来覆盖这些区域。“面向测试集训练”已经成了一种新的艺术形式。

如果一个模型刷爆了所有榜单,却依然没能实现通用人工智能(AGI),那会是怎样的景象?

3. Cursor / 新一代 LLM 应用层

关于 Cursor,最令我触目的(除了它今年的彗星般崛起)是它令人信服地揭示了“LLM 应用”的新层级——人们开始讨论各行各业的“Cursor 版”。正如我在今年的 Y Combinator 演讲中所强调的,像 Cursor 这样的 LLM 应用为特定垂直领域封装并编排了 LLM 调用:

它们处理“上下文工程”

它们在底层编排多个 LLM 调用,将其串联成日益复杂的有向无环图(DAG),精细平衡性能和成本

它们为人类参与提供特定应用的图形界面(GUI)。

它们提供了一个“自主程度调节滑块”

2025 年有很多关于这个新应用层究竟会有多“厚”的讨论。LLM 实验室会通吃所有应用,还是会给垂直应用留下肥沃的草原?我个人怀疑,LLM 实验室倾向于培养出能力全面的“大学生”,而 LLM 应用则会通过提供私有数据、传感器、执行器和反馈闭环,来组织、微调并真正驱动这些“大学生”团队,使之成为特定领域的专业从业者。

4. Claude Code / 住在你电脑里的 AI

Claude Code (CC) 的出现,是 LLM 智能体(Agent)的第一次令人信服的展示——它能以循环往复的方式串联工具调用和推理,进行长时间的问题解决。此外,CC 令我关注的一点是,它运行在你的电脑上,使用你的私有环境、数据和上下文。我认为 OpenAI 在这方面走偏了,因为他们把 Codex/智能体的重心放在了云端容器,通过 ChatGPT 编排,而不是放在 localhost(本地)。虽然云端运行的智能体集群感觉像是“AGI 的终局”,但我们生活在一个能力参差不齐、技术缓慢起步的过渡世界,直接在电脑上运行智能体,与开发者及其具体配置手拉手工作,反而更有意义。CC 抓住了这个优先顺序,并将其打包成一个精美、极简、令人信服的命令行(CLI)形态,改变了 AI 的样貌——它不再是一个像 Google 那样你主动访问的 ,而是一个“住”在你电脑里的灵体/幽灵。这是一种全新的、独特的 AI 交互范式

5. Vibe coding

2025 年,AI 跨越了一个能力阈值,使得人们仅凭英语就能构建各种令人惊叹的程序,甚至完全忘记了代码的存在。有趣的是,“Vibe coding”这个词是我在一条淋浴时的胡思乱想推文里偶然创造的,完全没料到它会流传这么广。

有了Vibe coding,编程不再是受过高度训练的专业人士的专利,而是任何人都能做的事。在这方面,它再次印证了我之前在《权力归于人民》中所写的:LLM 如何反转了技术扩散的脚本——与以往所有技术不同,普通人从 LLM 中获益远多于专业人士、企业和政府。不仅普通人能尝试编程,受过训练的专业人士也能写出更多(氛围编码产生的)原本根本不会去写的软件。在开发 nanoc h a t 时,我用 Rust 氛围编码了我自己的高效 BPE 分词器,而不需要去寻找现有库或在那个深度学习 Rust。今年我氛围编码了许多项目,作为我想要存在的东西的快速 Demo。我甚至为了找一个 Bug 氛围编码了整个临时应用——因为代码突然变得免费、瞬时、可塑,用完即弃。氛围编码将重塑软件生态,并改变职业定义。

6. Nano Banana / LLM 图形界面

Google Gemini Nano Banana 是 2025 年最令人震撼、最具范式转移意义的模型之一。在我的世界观里,LLM 是继 1970、80 年代计算机之后的下一次重大计算范式。因此,我们将看到基于类似逻辑的类似创新:我们将看到个人计算的等价物、微控制器的等价物(认知核心)、互联网的等价物(智能体网络)等等。

特别是在 UI/UX 方面,与 LLM 对话有点像在 80 年代向电脑控制台输入命令。文本是计算机(和 LLM)偏好的原始数据表示,但它并不是人类偏好的格式,尤其是在输入端。人类其实不喜欢读长篇大论——这很慢且费劲。相反,人类喜欢以视觉和空间方式消耗信息,这就是传统计算中 GUI 被发明的原因。同理,LLM 也应该以我们偏好的格式与我们交流——通过图像、信息图、幻灯片、白板、动画/视频、网页应用等。

这种模式的早期和现状当然是 Emoji 和 Markdown,它们是装饰和排版文本的方式。但谁来真正构建“LLM GUI”呢?在这种视角下,Nano Banana 是这种可能性的早期雏形。重要的是,它的显著特征不仅在于图像生成本身,而在于由文本生成、图像生成和世界知识在模型权重中交织而成的联合能力。

简而言之: 2025 年是 LLM 领域激动人心且略带意外的一年。LLM 正在演变成一种新型智能,它比我预期的要聪明得多,同时也比我预期的要笨得多。无论如何,它们都极其有用,我认为即便以目前的能力,整个行业实现出的潜力还不到 10%。与此同时,还有太多的想法值得尝试,从概念上讲,这个领域依然大有可为。正如我今年早些时候在 Dwarkesh 的播客中所说:我同时相信(表面上看似矛盾)我们会看到持续且飞速的进展,但依然有大量艰苦的工作等待完成。

坐稳了,好戏才刚开始。

source:

https://x.com/karpathy/status/2002118205729562949

--end--

最后记得⭐️我,每天都在更新:欢迎点赞转发推荐评论,别忘了关注我

来源:https://www.163.com/dy/article/KH79BR5N05566VQ3.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

BCBC币(BCBC)实时行情?
web3.0
BCBC币(BCBC)实时行情?

BCBC币(BCBC)深度解析:技术底色与市场前景 在百花齐放的数字货币领域,总有项目希望以独特的技术路径站稳脚跟。BCBC币(BCBC)正是其中之一,它依托一套组合技术方案来构建其安全与稳定的基石,目标直指高效、低成本的支付新体验,同时也不失为投资者眼中一个潜在的增值选项。 技术架构:不止于共识的

热心网友
04.02
BNB连锁店在最新焚化活动中燃烧了价值9.16亿美元的代币
web3.0
BNB连锁店在最新焚化活动中燃烧了价值9.16亿美元的代币

BNB Chain完成第31次季度销毁,近10亿美元BNB永久退出流通 近日,全球顶尖的区块链基础设施BNB Chain正式完成了其第31次季度代币销毁。根据官方公布的数据,本次共计销毁了1,579,207 716枚BNB,按销毁时市场价值计算,总额高达约9 16亿美元。此次大规模销毁再次向市场展现

热心网友
04.02
openclaw 常见命令解析
AI
openclaw 常见命令解析

OpenClaw 核心命令完全指南:从入门到精通 当您开始接触一个新工具时,最常见的障碍是什么?往往是面对复杂的命令列表感到困惑,只能被动地复制粘贴。这不仅影响效率,而且在遇到问题时更难以排查。 本文将为您深入解析 OpenClaw 的关键指令,帮助您从基础操作者转变为理解原理的熟练用户,全面提升配

热心网友
04.02
全球首款带物理直觉的AI模型在沪发布,理解真实世界规律
科技数码
全球首款带物理直觉的AI模型在沪发布,理解真实世界规律

让AI告别“重视觉效果、轻物理逻辑”的行业短板,近期五一视界(51WORLD)发布全球首款物理直觉世界模型51World Model,实现AI遵循物理规律推演、与真实场景全要素交互的核心突破,彻底破

热心网友
04.01
宇树G1机器人拆解:揭秘超40%毛利率与全供应链控制
科技数码
宇树G1机器人拆解:揭秘超40%毛利率与全供应链控制

一台售价8 5万元的人形机器人,拆开来看,成本只有4 16万元,预估毛利率40 7%。但宇树G1的真正壁垒,藏在硬件之外。3月30日,中邮证券电新团队分析师苏千叶、盛炜、杨帅波发布《宇树G1人形机器

热心网友
04.01

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

《三国:天下归心》香香连击队成员推荐
游戏攻略
《三国:天下归心》香香连击队成员推荐

《三国:天下归心》香香连击队全面解析:后期最强阵容搭配攻略 在策略手游《三国:天下归心》中,如何打造一支能够主宰战局的后期王牌队伍?本篇将为您深入剖析以孙尚香为核心的“香香连击队”终极搭配方案。该阵容由孙尚香、蔡文姬、貂蝉三位核心武将构成,其独特之处在于通过蔡文姬与貂蝉的完美辅助联动,极大化触发孙尚

热心网友
04.03
爱奇艺极速版如何查看营业执照
手机教程
爱奇艺极速版如何查看营业执照

爱奇艺极速版营业执照信息查询全攻略 在使用爱奇艺极速版应用时,无论是出于消费保障、商务合作考量,还是日常维权需要,核实其背后的实际运营主体与工商信息都是十分必要的环节。查询其营业执照信息有着明确且可靠的操作路径,可以帮助用户清晰了解服务提供方的合法资质。 官方权威途径:国家企业信用信息公示系统查询

热心网友
04.03
红色沙漠堕落之神任务闪电柱解谜答案一览
游戏攻略
红色沙漠堕落之神任务闪电柱解谜答案一览

在《红色沙漠》的“堕落之神”任务中,古代闪电装置的解谜环节是挑战巨化泰坦BOSS前的核心难点。整个电塔谜题由五座塔构成,其核心在于正确的激活与连接顺序。为了让各位冒险家能快速通关,本篇攻略将详细解析闪电塔的正确操作步骤。咱们这就开始,一步步点亮所有的电塔。 《红色沙漠》堕落之神任务:闪电塔解谜全流程

热心网友
04.03
洛克王国世界炽心勇狮图鉴
游戏攻略
洛克王国世界炽心勇狮图鉴

洛克王国炽心勇狮全面解析:技能、获得方法与实战指南 在《洛克王国》的众多宠物中,炽心勇狮以其传奇守护者的身份和强大的火焰力量而备受瞩目。作为火系宠物的代表之一,它的核心特征在于那颗永不熄灭的火焰心脏,这不仅是它力量的象征,更是其所有强大技能的能量源泉。由炽心勇狮喷发出的烈焰,拥有随着战斗进程而不断增

热心网友
04.03
洛克王国世界公平鸽图鉴
游戏攻略
洛克王国世界公平鸽图鉴

洛克王国公平鸽图鉴详解:裁判型宠物的属性技能与获取攻略 在洛克王国的众多宠物当中,公平鸽以其鲜明的裁判官形象与独特的对战定位,成为了许多玩家关注的对象。这只严格恪守自身准则的宠物,完美诠释了何为“公正严明”。它的行事守则堪称一套独特的生存哲学:执着于介入每一场争执,绝不因任何原因延误“出庭”,坚持做

热心网友
04.03