AI大模型复盘:Andrej Karpathy揭示新型智能6大关键拐点
OpenAI创始人之一,AI大神Andrej Karpathy近日发布年度复盘,称2025年是大型语言模型领域蓬勃发展的一年,出现了六个关键的"范式转变"拐点。这些变化不仅改变了行业格局,更重要的是揭示了LLM正在演变成一种全新的智能形态。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
12月20日,据硬AI消息,Karpathy在社交平台X上发布的年度复盘中表示,LLM正在演变成一种新型智能,"比我预期的要聪明得多,同时也比我预期的要笨得多"。

他指出,今年出现了6个改变行业格局的"范式转变"关键拐点,其中基于可验证奖励的强化学习(RLVR)成为LLM生产流程中的新阶段,各大实验室将原本用于预训练的算力转向了更长周期的强化学习训练。
他特别强调了LLM智能的"锯齿状"特征,称这些模型既是博学的天才,又像是思维混乱的小学生。Karpathy表示,LLM不是在"进化动物"而是在"召唤幽灵",这种全新的智能形态需要用不同的视角来理解。
他在复盘中指出,从预训练到强化学习的技术演进、从文本交互到图形界面的用户体验革新,以及从专业编程到"氛围编码"的能力普及,都标志着AI应用正在进入新的发展阶段。
尽管目前能力已经极其有用,但Karpathy认为整个行业实现出的LLM潜力还不到10%,预计将看到持续且飞速的进展,但技术挑战仍然艰巨。
拐点一:基于可验证奖励的强化学习改变训练范式
2025年最重要的技术突破是基于可验证奖励的强化学习(RLVR)成为LLM训练的新阶段。
Karpathy称,传统的生产级LLM训练流程包括预训练、指令微调和基于人类反馈的强化学习三个阶段,而RLVR的加入彻底改变了这一格局。
RLVR通过在数学题、代码谜题等可自动验证的环境中训练,使LLM自发演化出类似"推理"的策略。模型学会将问题拆解为中间计算步骤,并掌握多种来回尝试、推导解决问题的方法。DeepSeek R1论文展示了这些策略的具体表现。
与计算量较小的SFT和RLHF不同,RLVR针对客观且不可作弊的奖励函数,允许更长周期的优化。这种方法具有极高的"能力/成本比",吞噬了原本用于预训练的算力。2025年大部分能力提升都源于各实验室消化这一新阶段的"算力积压"。
OpenAI o1是RLVR模型的首次展示,但o3的发布才是真正的拐点,让人能直观感受到差异。RLVR还带来了一个全新调节旋钮:通过生成更长推理路径、增加"思考时间"来控制推理能力。
拐点二:"幽灵智能"展现锯齿状性能特征
2025年,业界开始真正理解LLM智能的独特"形态"。
Karpathy指出,我们并非在"进化动物",而是在"召唤幽灵"。LLM的神经架构、训练数据、算法和优化压力都与生物智能完全不同,产生了全新的智能实体。
人类神经网络为丛林部落生存而优化,LLM神经网络则为模仿人类文本、获取数学题奖励和在LM Arena获得点赞而优化。这种差异导致LLM展现出"锯齿状"性能特征:既是博学天才,又像认知障碍的小学生,前一秒解难题,后一秒就可能被简单提示词破解。
随着可验证领域的RLVR应用,LLM在这些领域附近出现能力"激增",但整体表现极不均衡。这种现象让Karpathy对基准测试产生信任危机,因为基准测试本质上就是可验证环境,极易受到RLVR攻击。实验室团队通过"刷榜"在测试集周围构建环境,"面向测试集训练"成为新艺术形式。
拐点三:Cursor引领新一代LLM应用层崛起
Cursor的崛起不仅在于其成功,更在于它揭示了"LLM应用"的全新层级。人们开始讨论各行各业的"Cursor版本",标志着垂直领域LLM应用的兴起。
像Cursor这样的LLM应用为特定垂直领域封装并编排LLM调用,具备四个核心功能:
处理"上下文工程";在底层编排多个LLM调用,串联成复杂的有向无环图,平衡性能和成本;为人类参与提供特定应用的图形界面;提供"自主程度调节滑块"。
2025年业界热议这个新应用层的"厚度"问题:LLM实验室会通吃所有应用,还是给垂直应用留下发展空间?
Karpathy认为,LLM实验室倾向于培养通用能力的"大学生",而LLM应用则通过提供私有数据、传感器、执行器和反馈闭环,将这些"大学生"组织成特定领域的专业从业者。
拐点四:Claude Code开创本地AI智能体新范式
Claude Code成为LLM智能体的首次令人信服展示,它以循环方式串联工具调用和推理,进行长时间问题解决。更重要的是,Claude Code运行在用户电脑上,使用私有环境、数据和上下文。
Karpathy认为OpenAI在这方面走偏了,过度专注云端容器和ChatGPT编排,而非本地部署。虽然云端智能体集群像"AGI终局",但在当前能力参差不齐的过渡阶段,直接在电脑上运行智能体,与开发者具体配置协作更有意义。
Claude Code抓住了正确的优先顺序,将其打包成精美、极简的命令行形态,改变了AI的样貌。AI不再是被动访问的 ,而是"住"在电脑里的灵体。这种本地化、个性化的AI交互范式为未来发展指明了方向,强调了隐私保护和个性化体验的重要性。
拐点五:Vibe Coding让编程能力普及化
2025年AI跨越关键能力阈值,使人们仅凭英语就能构建复杂程序,完全忽略底层代码存在。"Vibe Coding"概念的流行标志着编程门槛的彻底降低。
Vibe Coding使编程不再是专业人士专利,任何人都能参与。这印证了LLM"权力归于人民"的特点:与以往技术不同,普通人从LLM获益远超专业人士、企业和政府。不仅普通人能尝试编程,专业开发者也能创造更多原本不会开发的软件。
Karpathy分享了自己的实践经验:
用Rust开发高效BPE分词器,创建各种快速Demo应用,甚至为找单个Bug开发整个临时应用。代码变得免费、瞬时、可塑,用完即弃。这种变化将重塑软件生态,改变职业定义,让创意实现的成本接近零。拐点六:Nano Banana开启LLM图形界面时代
谷歌Gemini Nano Banana被Karpathy称为2025年最震撼、最具范式转移意义的模型。在他的世界观中,LLM是继1970-80年代计算机后的下一次重大计算范式,将产生类似历史意义的创新。
当前与LLM对话类似80年代向电脑控制台输入命令。文本虽是计算机和LLM偏好的原始数据表示,但并非人类偏好格式。人类不喜欢阅读长文本,更喜欢视觉和空间方式消费信息,这是GUI在传统计算中被发明的原因。
LLM也应以人类偏好格式交流:图像、信息图、幻灯片、白板、动画视频、网页应用等。Emoji和Markdown是早期尝试,但真正的"LLM GUI"需要更深层创新。
Nano Banana提供了这种可能性的早期雏形,其显著特征不仅是图像生成,更是文本生成、图像生成和世界知识在模型权重中的交织融合。
这种多模态融合能力预示着未来AI交互界面的根本变革,从纯文本对话转向富媒体、多感官的沉浸式体验。
相关攻略
Token是AI时代的“新货币”。2024年,AI价格战打响,Token以“厘”计价;2026年,算力需求引爆,模型厂商和云厂商的Token集体涨价。在过去两年里,大模型行业经历了从价格战到价值战的
新智元报道编辑:peter东【新智元导读】一位开发者用四天时间,让AI「盲移植」了拥有37年历史的SimCity代码库。整个过程无人阅读一行原始C代码,仅靠AI生成与自动化测试验证。当AI开始重写软
雷递网 雷建平 3月31日智谱(HK:02513)今日正式发布2025年全年业绩,这是其上市后首份财报。智谱2025年营收7 24亿,较上年同期的3 12亿增131 9%。MaaS商业飞轮全面运转,
3月31日,字节跳动旗下AI编程产品TRAE推出“SOLO独立端”。TRAE 原有的 SOLO 模式(SOLO Agent)深度集成于传统 IDE 架构,此次 SOLO 独立端的推出,旨在优化新用户
henry 发自 凹非寺量子位 | 公众号 QbitAI能无限进步的「超级智能体」来了!最近,Meta研究团队的一篇题为HYPERAGENTS(超级智能体)的论文迅速刷屏。这篇论文将LSTM之父Jü
热门专题
热门推荐
《全面战争:中世纪3》:经典延续,如何平衡怀旧与创新? 近期,《全面战争:中世纪3》的项目负责人帕维尔·沃伊斯坦然指出,要打造一款真正优秀的续作,绝不能仅仅依赖对前作模式的简单复刻。这一观点引人深思——尽管《中世纪2:全面战争》至今仍在策略游戏爱好者心中占据着经典地位,但开发团队此次显然决心跳出“照
雷鸟X3 Pro斩获AWE艾普兰创新大奖,开启全民AR生活新篇章 在上海新国际博览中心隆重揭幕的2026年中国家电及消费电子博览会(AWE)上,前沿AI科技与未来生活愿景激情碰撞。全球消费级AR领导品牌雷鸟创新,以其里程碑式的表现,定义了行业发展的新方向。 通过“顶尖硬件科技+顶级文化IP”的双轨战
借力AWE2026“一展双区”,MOVA双区协同、震撼登场 备受瞩目的科技盛会——2026年中国家电及消费电子博览会(AWE),于3月12日至15日在上海盛大举办。本届AWE展会首次创新采用“一展双区”的展览模式,主会场位于上海新国际博览中心,分会场则设于上海东方枢纽国际商务合作区,两大展区高效联动
冰结师技能全解析 踏入2026年,《地下城与勇士》中的冰结师职业,其技能体系已构建得更为成熟与强大。无论是在副本中高效清理海量怪物,还是在决斗场与高手玩家周旋,这个职业都能凭借其独特的冰霜艺术掌控战局。刷图时,酷寒的范围法术可瞬间清屏;而在PVP竞技中,一套将冻结控制与瞬间爆发完美衔接的连招,往往让
iPhone 18 Pro系列模具不变,屏幕形态将与iPhone 17 Pro保持一致 备受期待的屏下Face ID组件小型化设计与灵动岛区域缩窄方案,预计将被推迟至后续迭代机型中正式应用。 近期,关于iPhone 18 Pro系列的技术传闻持续引发行业关注,尤其在显示与解锁设计领域传言甚多。多方消





