首页 游戏 软件 资讯 排行榜 专题
首页
AI
Karpathy年终大模型清单引近200万人围观,主角是它们

Karpathy年终大模型清单引近200万人围观,主角是它们

热心网友
77
转载
2025-12-22



编辑|杜伟

2025 年还有 10 天就要结束,这意味着是时候进行一波年终总结了。

对于人工智能领域而言,2025 年是大语言模型(LLM)快速演进、重磅事件密集出现的一年。

就在昨天,知名 AI 学者 Karpathy 列出了一份清单,记录了他个人认为最重要、也多少有些出乎意料的「范式转变」。



这些真正改变了行业格局、并在概念层面让 Karpathy 印象深刻的变化会落在哪些领域呢?我们接下来一一来看(以第一人称)。

可验证奖励强化学习(RLVR)

2025 年初,几乎所有实验室的 LLM 生产训练流程都像下面这样:

预训练(类似 2020 年的 GPT-2/3);监督微调(SFT,类似 2024 年的 InstructGPT)基于人类反馈的强化学习(RLHF,约 2024 年)

这套流程稳定、可靠,曾长期被视为「工业级 LLM」的标准做法。

但在 2025 年,一种新的阶段浮出水面,并迅速成为事实上的标配:可验证奖励强化学习(Reinforcement Learning from Verifiable Rewards,RLVR)

RLVR 的核心做法是,让模型在可自动验证的环境中接受强化学习训练,比如数学题、代码题、逻辑谜题等。在这些环境中,模型自发学会一些在人类看来非常像「推理」的策略:它会把复杂问题拆解成中间步骤,并反复试探、修正路径,逐步逼近答案(DeepSeek R1 的论文中有不少很好的例子)。

在以往的 SFT 或 RLHF 框架下,这类「推理轨迹」是极难人为设计出来的。这是因为我们并不知道对模型而言,什么才是「最优的思考过程」。而在 RLVR 中,模型可以通过优化奖励函数,自行摸索出对自己最有效的解题方式。

此外,与 SFT 和 RLHF 这种「计算量相对较小的薄层微调」不同,RLVR 使用的是客观、难以被投机取巧的奖励函数,这使得训练可以跑得非常久。结果就是:RLVR 提供了极高的能力 / 成本比,大量吞噬了原本准备用于预训练的算力。

因此,2025 年的大部分能力提升,并不是来自模型规模的暴涨,而是来自相似规模模型 + 更长时间的 RL 训练。这个阶段还带来了一个全新的「旋钮」:通过在推理时生成更长的思考链条、投入更多测试时算力,模型能力可以继续提升,并呈现出新的 scaling law。

OpenAI 的 o1(2024 年底)是第一个明确展示 RLVR 思路的模型,而 2025 年初的 o3,则是那个让人直观感受到质变拐点的版本。

幽灵 vs 动物:锯齿状智能

2025 年,是我(以及我认为整个行业)第一次真正直觉性地理解了 LLM 智能的「形状」。我们并不是在「培育或进化动物」,而是在「召唤幽灵」。

LLM 的一切都和人类不同:神经结构不同、训练数据不同、训练算法不同,最关键的是优化目标完全不同。人类神经系统,是为丛林生存、部落协作而优化的;而 LLM 是为模仿人类文本、在数学谜题中拿分、在 LM Arena 里获得点赞而优化的。

一旦某些领域具备可验证性,RLVR 就会在这些区域「长出尖刺」。于是我们看到的,是一种锯齿化(jagged)明显的能力分布:它们可以在某些领域表现得像博学的天才,同时又在另一些地方像困惑的小学生,甚至轻易被 jailbreak 套走隐私数据。



我很喜欢一张 meme:人类智能是蓝色曲线,AI 是红色曲线。它也提醒我们:人类智能本身,同样是锯齿状的,只是形状不同。

这也解释了我在 2025 年对基准普遍不当回事与不信任。问题在于:基准测试本质上就是可验证环境,因此天然容易被 RLVR 或弱化版本的「合成数据训练」所攻破。

在现实中,模型团队往往会在基准所在的嵌入空间附近「培育能力突起」,把 jaggies 精准地长到测试点上。「在测试集上训练」已经演变成了一门艺术

那么问题来了:如果一个模型碾压了所有基准,却依然不是 AGI,那意味着什么?

Cursor:LLM 应用的新一层

Cursor 在 2025 年的爆发本身就很惊人,但对我而言,更重要的是:它清晰地揭示了一种全新的 LLM 应用层

人们开始说,「这是某某领域的 Cursor」。在我今年 YC 演讲中提到过:像 Cursor 这样的 LLM 应用,本质是在为特定垂直领域打包和编排 LLM 能力:

上下文工程(context engineering);在后台编排多次 LLM 调用,形成越来越复杂的 DAG,同时平衡成本与性能;提供面向人的、领域专用的 GUI;提供「自主性滑块」(autonomy slider)。

2025 年围绕着一个问题出现了大量讨论:这一层会有多厚?LLM 实验室会不会吞掉所有应用?还是说,LLM 应用层依然有广阔空间?

我个人的判断是:基础模型会趋向于「一个通用能力很强的大学毕业生」,而真正把他们组织成专业团队、在具体行业中落地的会是应用层,通过私有数据、传感器、执行器和反馈回路将模型组织并投入实际工作流程」。

Claude Code:住在你电脑里的 AI

Claude Code(CC)是我第一次觉得:「这才像一个真正的 LLM Agent。」它以循环方式将推理与工具调用串联起来,能持续解决长任务。

更重要的是:它运行在你的本地电脑上,直接使用你的环境、数据和上下文。

我认为 OpenAI 在这里判断失误了:他们把 agent /codex 的重心放在云端容器、由 ChatGPT 统一调度;而在一个能力锯齿、起飞缓慢的世界里,更合理的顺序其实是先让 agent 成为开发者身边的伙伴。

Claude Code 在这点上做对了,并且用一个极其优雅、极简、极具说服力的 CLI 形态呈现出来。

AI 不再只是一个你访问的 ,而是一个住在你电脑里的小幽灵。

这是一次全新的交互范式转变。

Vibe Coding(氛围编程)

2025 年,是 AI 跨过某个关键门槛的一年:人们可以只用英语构建复杂程序,甚至忘记代码本身的存在。

有趣的是,「vibe coding」这个词,最早只是我一条随手写的推文,完全没想到会流传这么广。

Vibe coding 让编程不再只是专业工程师的专利,任何人都可以上手;但同时,它也让专业工程师可以写出大量原本永远不会被写出来的软件。

在 nanoc h a t 项目中,我直接用 vibe coding 写了一个高效的 Rust BPE tokenizer;我用它快速写了很多 demo 项目(比如 menugen、llm-council、reader3、HN time capsule);甚至为了定位一个 bug,我会 vibe coding 一个临时应用,用完即弃。

代码变得不值钱、短暂存在、并可随意改写与丢弃

Vibe coding 在重塑软件形态之外,也会重塑工作角色。

Nano Banana:LLM 的 GUI

Google Gemini 的「Nano Banana」,是 2025 年最让我震撼的模型之一。

在我的世界观里,LLM 是类似 1970–80 年代计算机的新一代通用计算范式,因此我们必然会看到类似的演化路径:

个人计算微控制器(认知核心)Agent 网络(类似互联网)

而在 UI/UX 层面,「聊天」就像 80 年代的命令行。文本是计算机最偏好的表示形式,但并不是人类最喜欢的输入方式。人们更喜欢视觉化、空间化的信息 —— 这正是 GUI 出现的原因。

同理,LLM 也应该用我们偏好的形式与我们交流:图片、信息图、幻灯片、白板、动画、网页应用……

Emoji 和 Markdown 只是最早期、最粗糙的尝试。那么,谁会构建真正的 LLM GUI?在我看来,Nano Banana 是一个非常早期但重要的信号。

它的意义不只在于图像生成,而在于:文本、图像与世界知识在同一模型中深度纠缠

最后总结

2025 年,是一个令人兴奋、也充满意外的大模型之年。

LLM 正在显现出一种全新的智能形态:它们既比我预期的聪明得多,又比我预期的愚蠢得多

但无论如何,它们已经极其有用,而我认为行业甚至还没有发挥出它们 10% 的潜力。

想法太多,空间太大,这个领域仍然是开放的。

正如我今年在 Dwarkesh 播客中说过的那样:

我一方面相信进展会持续且迅猛,另一方面也清楚,还有大量艰苦而细致的工作要做。

「系好安全带」,接下来只会更快。

原推链接:https://x.com/karpathy/status/2002118205729562949

来源:https://www.163.com/dy/article/KHD1FR6G0511AQHO.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

许哲诚计算性设计展演评析:数字逻辑与物质建构的生成境域
科技数码
许哲诚计算性设计展演评析:数字逻辑与物质建构的生成境域

数字逻辑与物质建构的深度对话 ——评许哲诚“境域·生成”计算性设计展演 □ 丁雅力(江苏省美术馆策展人) 当代设计与造物的核心范式,正经历着由计算性设计带来的深刻变革。2026年3月20日,南京艺术学院教师许哲诚于南京莫玄空间呈现的“境域·生成”个人专场展演,正是这一前沿趋势的集中体现。本次展览超越

热心网友
05.18
具身智能研发框架Dexbotic重塑机器人开发流程
AI
具身智能研发框架Dexbotic重塑机器人开发流程

近日,开源具身智能原生框架Dexbotic宣布正式支持以RLinf作为其分布式强化学习后端。对具身智能开发者而言,这不仅是一次普通的工程适配,更意味着VLA模型研发中长期存在的「SFT与RL割裂」问题,正在被真正打通。 这是一种典型的「乐高式协作」:双方不强行Fork、不粗暴揉合代码,而是保持清晰边

热心网友
05.13
RMS-MoE模型通过检索记忆优化专家路由调度效率
AI
RMS-MoE模型通过检索记忆优化专家路由调度效率

随着大模型参数规模不断增长,混合专家(Mixture-of-Experts, MoE)架构因其稀疏激活特性,成为平衡模型性能与计算开销的主流方案。然而,在实际的Web级应用部署中,一个关键挑战日益凸显:传统MoE的路由机制通常是“无记忆”的。 试想,在搜索引擎、智能问答或多轮对话等高并发场景下,用户

热心网友
05.12
编程入门指南从零基础到理解核心概念
编程语言
编程入门指南从零基础到理解核心概念

编程十年的一点分享 在软件开发的路上走过十几年,从一个爱好者到以此为业,有些体会或许值得聊聊,就当是抛砖引玉吧。 最早接触编程,是从BASIC和C语言开始的。工作后,随着需要,陆续学习了dBase、Access这类桌面数据库的开发。真正以开发为职业,可以说始于FoxPro 5 0,之后技术栈随着项目

热心网友
05.07
编程初学者入门指南与核心思维解析
编程语言
编程初学者入门指南与核心思维解析

引言 编程,是一门实践科学。这意味着,学习它的最佳方式就是动手去敲代码。但这是否意味着,我们可以因此轻视理论的学习呢? 入门编程 如果你去各大技术社区提问“该如何入门编程”,五花八门的答案会瞬间涌来。 不过,仔细梳理一下,无外乎以下几种流派: 学院派 他们推荐从C语言入手,并辅以数据结构、操作系统等

热心网友
05.07

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

《Zero Parades: For Dead Spies》游戏评分与媒体评价汇总
游戏攻略
《Zero Parades: For Dead Spies》游戏评分与媒体评价汇总

《Zero Parades: For Dead Spies》的媒体评测已经解禁,结果相当亮眼。这款被许多人视为《极乐迪斯科》精神续作的作品,在OpenCritic上拿到了86分的媒体均分,在Metacritic上也有83分。游戏将于5月21日正式登陆PC平台,看来2026年的必玩叙事RPG名单上,又

热心网友
05.18
Excel多级分类汇总一句话快速完成
AI
Excel多级分类汇总一句话快速完成

目录 你是否也遇到过这些问题 处理效果 前置准备 超简单AI自动化解决方案 第1步:准备好你的原始数据 第2步:针对指定的文件下达指令 第3步:验收 还能解决这些同类问题 指令为什么这么有用? 更多场景直接抄作业 销售数据三级汇总 成本数据多级汇总 库存数据汇总 员工薪资汇总 常见问题答疑 核心价值

热心网友
05.18
Kimi K2.6 智能体功能深度解析与体验评测
AI
Kimi K2.6 智能体功能深度解析与体验评测

AI Agent 的发展,正迎来一个关键的转折点,从概念验证迈向真正的生产力交付。 想象一下,当一个 AI 智能体能够在无需人工介入的情况下,独立完成一个复杂项目的全流程,并将成功经验固化为可随时调用的“技能”——这是否标志着 AI 在职场中的角色,已经从辅助工具演变为自主的生产力单元? 随着 Op

热心网友
05.18
苹果WWDC26前瞻 iOS27新Siri界面交互升级预测
AI
苹果WWDC26前瞻 iOS27新Siri界面交互升级预测

彭博社的马克・古尔曼在最新报道中透露了一个有趣的发现:苹果为WWDC 26发布的宣传海报,其设计细节可能暗藏玄机,指向了即将在iOS 27中亮相的全新Siri交互界面。 根据古尔曼的分析,新版Siri的核心变化在于与灵动岛的深度融合。唤醒时,它将不再以传统的全屏或底部卡片形式出现,而是会以一个扩展的

热心网友
05.18
GitHub刷星乱象调查 AI项目成虚假评分重灾区
AI
GitHub刷星乱象调查 AI项目成虚假评分重灾区

GitHub 的 Star 数量还值得信赖吗?真相可能比你想象的更严峻。 开源社区中“购买 Star”的现象早已不是秘密,其便捷程度甚至超过点外卖,单价低廉且支持批量折扣。然而,卡内基梅隆大学(CMU)一项被 ICSE 2026 顶会收录的最新研究,首次系统性地揭示了这场“造假生意”的惊人规模:Gi

热心网友
05.18