阿里林俊离职首文:AI迈向智能体式思考新阶段

AI正在走向“为了采取正确行动而思考”。
编译整理|莘歆
来源 | 盒饭财经(ID:daxiongfan)
头图及封面来源 | 网络及即梦制作
在X(推特)上宣布离职后的22天,林俊旸发了一篇长文。
3月26日晚,作为前阿里通义千问 Qwen 负责人,林俊旸这篇题为《从“推理式思考”到“智能体式思考”》(From "Reasoning" Thinking to "Agentic" Thinking)的文章,是他从阿里离职后首次公开发表的长文。

图片来源:X 截图
长文中提到,过去两年,OpenAI o1和DeepSeek R1证明了AI能够在“回答之前先思考”,而不是“脱口而出”。但在林俊旸看来,这种范式目前正在发生转移,AI的重心正在从“推理式思考”走向“智能体式思考”。
简单来说就是,AI从最初的“简单回答问题”到“为了给出正确答案,先思考再回答问题”,到如今正在走向“为了采取正确行动而思考”,即目标发生了转移。
在阿里任职期间,林俊旸主导了从 Qwen-7B 到 Qwen-2.5 这一系列模型的研发,是阿里云大模型“通义千问(Qwen)”的技术总指挥。3月4日,林俊旸在X上发文称“me stepping down. bye my beloved qwen.”(我卸任了。再见了,我深爱的千问。)林俊旸正式从阿里离职。
林俊旸此次发布的这篇长文约4500字,主要探讨了人工智能从“推理思考”(Reasoning Thinking)向“智能体思考”(Agentic Thinking)的演进趋势,并分析了这一转变背后的技术挑战与未来方向。
截止发稿前,该文章已经获得将近40万的浏览量和两千多的点赞收藏。评论区的讨论也很火爆,一位LLM研究人员表示“只有通过人为干预/协调智能体和工具,而不是让LLM完全掌控整个流程,这样自动化才会成为可能。”另外一位生物学专业出身的人工智能研究者同样也表示“模型存在掌握了信息,却不愿采取行动”的情况。

图片来源:X 截图
林俊旸的这一思考与论点获得了Grok研发工程师Ethan He等诸多专业人士的认同和支持。
以下是原文,有编译:
过去两年来,彻底重塑了我们评估模型的方式,也改变了我们对模型的期望。
OpenAI 的 o1 表明,“思考”可以成为一流的能力,一种你可以为之训练并向用户展示的能力。DeepSeek R1 证明,推理式的后训练(post-training)可以在原始实验室之外被复现和扩展。OpenAI 将 o1 描述为一个通过强化学习训练的模型,它会在“回答之前先思考”。DeepSeek则将 R1 定位为一个与 o1 具有竞争力的开源推理模型。
那个阶段很重要。但2025年上半年主要围绕的是推理式思考:如何让模型消耗更多的推理期算力,如何用更强的奖励来训练它们,以及如何展示或控制这些额外的推理投入。现在的问题是接下来会怎样。
我相信答案是智能体式思考:为了行动而思考,在与环境交互的同时进行思考,并根据来自现实世界的反馈不断更新计划。

o1与R1的兴起真正教会了我们什么
第一波推理模型教会了我们:如果我们想在语言模型中扩展强化学习,我们需要确定性、稳定且可扩展的反馈信号。数学、代码、逻辑和其他可验证的领域变得至关重要,因为在这些场景中的奖励比通用的偏好监督要强得多。
它们让强化学习能够针对正确性而非表面合理性进行优化。基础设施变得至关重要。
一旦一个模型被训练成能够通过更长的轨迹进行推理,强化学习就不再是监督微调(SFT)的一个轻量级附加组件了。它变成了一个系统问题:你需要大规模的推演(rollouts)、高吞吐量的验证、稳定的策略更新和高效的采样。
推理模型的出现,既是一个建模领域的故事,也是一个基础设施领域的故事。
OpenAI将o1描述为一条用强化学习训练的推理产品线,而DeepSeek R1随后通过展示基于推理的强化学习需要多少专门的算法和基础设施工作,进一步巩固了这一方向。第一次大转变是:从扩展预训练走向为推理扩展后训练。

真正的问题,从来不只是“合并思考与指令”
2025 年初,我们Qwen团队的许多人都怀揣着一个宏大的构想:理想的系统,将统一思考(thinking)和指令(instruct)模式。它会支持可调节的推理投入,类似于低/中/高推理设置。
更理想的情况是,它会从提示词和上下文中自动推断出合适的推理量,这样模型就能决定何时立即回答,何时思考更长时间,以及何时在真正困难的问题上投入多得多的计算量。
从概念上讲,这是正确的方向。
Qwen3是最清晰的公开尝试之一。它引入了“混合思考模式”,在同一个模型家族中支持思考和非思考行为,强调可控的思考预算,并描述了一个四阶段的后训练流程:该流程在长链式思维(long-CoT)冷启动和推理强化学习之后,明确包含了“思维模式融合”这一步。
但融合说起来容易,做起来难。难点在于数据。
当人们谈论合并思考和指令时,他们通常首先考虑的是模型侧的兼容性:一个检查点(checkpoint)能否同时支持两种模式,一个对话模板能否在两者间切换,一套推理服务架构能否提供正确的切换开关。更深层次的问题是,这两种模式的数据分布和行为目标有着本质的区别。
在试图平衡模型合并与提升后训练数据的质量和多样性时,我们并没有做对所有事情。修正过程中,我们也密切关注了用户实际上是如何使用思考和指令模式的。一个强指令模型通常因其直接、简洁、符合格式要求、在处理重复性、高并发的企业任务(如重写、标注、模板化支持、结构化提取和运营QA)时低延迟而受到青睐。一个强思考模型则因其在难题上花更多Token、保持连贯的中间推理结构、探索替代路径、并保留足够的内部计算以切实提升最终正确率而受到青睐。
这两种行为特征是相互冲突的。
如果合并的数据没有经过精心筛选,结果通常是在两方面都表现平庸:“思考”行为变得嘈杂、臃肿或不够果断,而“指令”行为则变得不够干脆与可靠,并且比商业用户实际想要的成本更高。
实践中,分离仍然具有吸引力。2025年下半年,继Qwen3最初的混合架构之后,2507产品线发布了区分明确的Instruct(指令)和Thinking(思考)更新,包括各自独立的30B和235B版本。
在商业部署中,大量客户仍然希望为批量操作提供高吞吐量、低成本、高度可控的指令行为。这些场景中,合并并没有明显的好处。将产品线分离使得团队能够更纯粹地专注于解决每种模式的数据和训练问题。
其他实验室选择了相反的路径。
Anthropic 公开主张一种集成的模型理念:Claude 3.7 Sonnet作为混合推理模型推出,用户可以选择普通回复或扩展思考,API用户可以设置思维预算。Anthropic 明确表示,他们认为推理应该是一种整合能力,而不是一个单独的模型。GLM-4.5 也公开定位为一个混合推理模型,兼具思考和非思考模式,统一了推理、编码和代理能力;DeepSeek后来在V3.1的“思考与非思考”(Think & Non-Think)混合推理中也走向了类似的发展方向。
关键问题在于合并是否是“有机”。
如果思考模式和指令模式仅仅是共存于同一个检查点内,但行为上仍然像两个生硬拼凑的人格,那么产品体验仍然不自然。一个真正成功的合并需要推理投入的平滑过渡。模型应该能够表达多个级别的投入度,并且最好能够自适应地在它们之间做出选择。GPT风格的投入控制指向了这一点:一种对计算量的策略控制,而不是一个二元开关。

为什么Anthropic的方向是一次有用的纠偏
Anthropic 围绕 Claude 3.7 和 Claude 4 的公开表述是克制的。他们强调集成推理、用户控制的思考预算、现实世界任务、代码质量,以及后来在扩展思考期间使用工具的能力。Claude 3.7 被呈现为一个具有可控预算的混合推理模型;Claude 4扩展了这一点,允许推理与工具使用交替进行,同时Anthropic强调将编程、长时间运行的任务和智能体工作流作为主要目标。
生成更长的推理轨迹并不会自动让模型变得更聪明。在很多情况下,过度可见的推理表明资源分配薄弱。如果模型试图以同样冗长的方式对所有事情进行推理,它可能是在优先级排序上失败、在压缩上失败,或在采取行动上失败。
Anthropic的发展轨迹暗示了一种更严谨的观点:思考应该由目标工作负载来塑造。如果目标是编程,那么思考应该有助于代码库导航、规划、分解、错误恢复和工具编排。如果目标是智能体工作流,那么思考的价值应当体现在提升长跨度任务的执行质量上,而非生成那些看似惊艳、实则冗余的中间文字。
这种对针对性效用(Targeted Utility)的强调,实际上指向了一个更宏大的命题:我们正在从训练模型的时代走向训练智能体的时代。我们在Qwen3的博客中明确了这一点,当时写的是“我们正在从一个专注于训练模型的时代过渡到一个以训练智能体为中心的时代”。同时,为了实现长链路推理,我们将未来强化学习的进步和环境反馈联系在了一起。
智能体是一个在长时间周期内持续运作的系统,它能够制定计划、决定何时行动、使用工具、感知环境反馈和修正策略。它的这个定义是由与世界的闭环交互决定的。

“智能体式思考”到底意味着什么
智能体式思考与推理式思考是两个不同的优化目标。
推理式思考通常由给出最终答案前的内部推理质量来判断,比如模型能解出定理、写出证明、生成正确的代码或通过基准测试吗?智能体式思考关乎的则是模型在与环境交互时能否不断取得进展。
核心问题从“模型能思考足够久吗?” 转变为“模型能否以一种维持有效行动的方式进行思考?”
智能体式思考必须处理几件纯推理模型大多可以避免的事情:
(1)决定何时停止思考并采取行动。
(2)选择调用哪个工具以及以何种顺序调用。
(3)引入来自环境的带噪(Noisy)或部分(Partial)观测。
(4)在失败后修正计划。
(5)在多轮对话和多次工具调用中保持连贯性。
(6)智能体式思考是一个模型通过行动进行推理的过程。

为什么智能体强化学习的基础设施更难
这是因为一旦目标从解决基准测试问题转向解决交互式任务,强化学习技术栈(整套技术方案)就会发生改变。
用于传统推理强化学习的基础架构已经不够用了。在推理强化学习中,采样往往是一条条独立的路径,而且判断好坏的标准非常直接、不含糊。
但在智能体强化学习中,策略(智能体的“决策大脑”)被嵌入在一个更大的框架(harness)中,这个框架包括工具服务器、浏览器、终端、搜索引擎、模拟器、执行沙箱、API层、记忆系统和编排框架。环境不再是一个静态的验证器,它是训练系统的一部分。
这带来了一个新的系统要求:训练和推理必须更加彻底地解耦。
如果没有这种解耦,推演的吞吐量就会崩溃。以一个需要在实时测试环境下运行代码的代码智能体为例,推理端会因为等待执行反馈而陷入停滞,训练端则因拿不到完整的轨迹数据而处于“饥饿”状态,导致整个流水线的GPU利用率远低于传统推理强化学习的预期水平。加上工具延迟、部分可观测性和复杂多变的环境,会进一步放大这些低效问题。结果就是,在远未达到预定的能力水平之前,实验进程就已经放缓,且变得步履维艰。
在智能体强化学习中,环境本身也成为了一个一流的研究对象。
在监督微调(SFT)时代,我们痴迷于数据多样性。在智能体时代,我们应该痴迷于环境质量,如稳定性、真实性、覆盖率、难度、状态的多样性、反馈的丰富性、抗作弊(漏洞利用)能力等,以及推理的可扩展性。环境构建已经开始成为一个真正的创业赛道,而不仅仅是一个副业项目。如果训练智能体的目的是为了让它在类生产环境中运行,那么环境(构建)本身就是其核心能力栈的一部分。

下一个前沿是关于更具实用性的思考
我的预期是,智能体式思考将成为主流的思考形式。
我认为它最终可能会取代大部分旧式的静态独白版推理思考,即试图通过输出越来越多的文本来弥补缺乏交互的、冗长的、孤立的内部推理。即使是在非常困难的数学或编程任务上,一个真正先进的系统也应该有权搜索、模拟、执行、检查、验证和修正。只要最终目标是稳健且高效地解决问题。
但训练这类系统面临着一个最艰巨的挑战——奖励作弊(reward hacking)。一旦模型获得了有意义的工具访问权限,奖励作弊就会变得更加危险。一个带有搜索功能的模型可能会学会在强化学习过程中直接查找答案。一个编程智能体可能会利用代码库中的“未来信息”、违规调取日志,或是通过寻找“逻辑捷径”,从而导致整个测试任务失效。
一个存在隐藏漏洞的环境可能使策略看起来像超人,但实际上只是在训练它去作弊。这正是智能体时代变得比推理时代微妙得多的地方。更好的工具使模型更加有用,但它们也扩大了虚假优化的攻击面。
我们应该预料到,下一个严重的研究瓶颈将来自环境设计、评估器的鲁棒性(系统抗折腾的能力)、反作弊协议,以及策略与现实世界之间更具原则性的接口。尽管如此,方向是明确的。基于工具的思考绝对比孤立的思考更有用,且更有可能提高实际生产力。
智能体式思考(Agentic Thinking)也意味着“Harness 工程”(系统驾驭工程)的兴起。核心智能将越来越多地源自于多个智能体的组织方式:由一个统筹者负责规划与分发工作;由专业智能体充当领域专家;而子智能体则执行更细分的操作,同时协助控制上下文、避免信息污染,并保持不同推理层次间的独立性。未来的趋势是从“训练模型”转向“训练智能体”,再从“训练智能体”转向“训练系统”。

结论
推理浪潮的第一阶段确立了一个重要事实:在反馈信号可靠且基础设施支撑到位的条件下,于语言模型之上引入强化学习(RL),能够催生出在本质上(质性)更强的认知能力。
更深层次的转变是从“推理式思考”向“智能体式思考”跨越,即从“思考得更久”转向了“为行动而思考”。
训练的核心对象已经发生了转移。
现在是“模型+环境”的综合系统,或者更具体地说,是智能体以及围绕它的测试框架。这意味着研究的重心,除了模型架构和训练数据之外,还包括环境设计、采样(rollout)基础设施、评估器的鲁棒性,以及多个智能体协调所依托的接口。它重新定义了什么是“好的思考”:在现实世界的约束下,最能支撑持续行动的轨迹才是最有用的,而非那些最长或最显眼的思考过程。
这也改变了核心竞争力的来源。
在推理时代,优势来自于更好的强化学习算法、更强的反馈信号和更具扩展性的训练流水线。在智能体时代,竞争优势将来自于更好的环境、更紧密的“训推一体化(Train-Serve Integration)”、更强的“架构工程(Harness Engineering)”,以及在模型的决策与其产生的结果之间闭环的能力。
欢迎在评论区留言~如需开白请加微信:YPYP01234567
相关攻略
OpenClaw的爆火,让众多AI应用开发者第一次直面了高昂的Token账单——一个用户请求可能触发多轮工具调用,每次调用都携带超长上下文,实际的API成本远超预期,甚至可能达到订阅费用的数十倍。如何有效控制Token成本,正成为AI Agent开发者面临的核心挑战与增长瓶颈。 这显然不是可持续的商
这项由瑞士洛桑联邦理工学院(EPFL)、意大利卢加诺大学(USI)、韦斯利安大学、巴黎脑研究所(ICM)以及宾夕法尼亚州立大学联合开展的研究,以预印本形式发布于2026年4月,论文编号为arXiv:2604 03480。对这一交叉领域感兴趣的读者,可以通过该编号在arXiv平台上查阅完整原文。 一、
北京商报讯(记者 陶凤 王天逸) 人工智能领域又传来一条振奋人心的消息。4月8日,摩尔线程正式宣布,其旗舰级AI训推一体全功能GPU——MTT S5000,已经成功完成了对智谱新一代旗舰模型GLM-5 1的Day-0极速适配。这意味着,推理部署与训练复现的全部流程,现在都能在这条国产算力路径上获得支
如何用SQL求解逻辑推理题:经典楼层分配谜题实战 今天我们来探讨一个非常有趣的技术应用:使用SQL来求解逻辑推理题。这听起来或许有些大材小用,但正是这种跨界应用,充分展现了SQL语言的强大灵活性以及开发者分析问题的思维能力。我们将以一个经典的五人楼层分配谜题作为案例,逐步拆解如何用纯粹的SQL找到答
一个学生忽视了一行代码,结果发现了一件很不对劲的事:在一个多模态医学AI项目中,这行代码原本负责让模型读取图像数据。但因为这次疏忽,模型实际上完全没有看到任何图片。按理说系统应该报错,或者至少拒绝回
热门专题
热门推荐
根据Gartner最新市场报告,2025年全球PC出货量突破2 7亿台,同比增长9 1%。在人工智能技术浪潮与AI PC算力升级需求的双重驱动下,整个PC行业正迈入一个全新的增长周期。作为细分市场的重要力量,游戏笔记本电脑也迎来了关乎性能、体验与场景定义的关键换代节点。 回顾行业发展,英特尔于202
TUSD是一种与美元1:1锚定的合规稳定币,由TrustToken团队推出。它通过第三方机构定期审计和银行账户托管确保透明度,旨在提供可靠的数字美元解决方案。其用途涵盖交易、支付、DeFi及跨境结算,但用户仍需关注其中心化托管、监管变化及智能合约安全等潜在风险。
OpenClaw 生态中那个关键的“眼睛”和“手”——Peekaboo v3,正式回归了。这不仅是一次版本更新,更像是一次关键的“补完”。它让 AI 不再只是停留在聊天框里给出建议,而是真正获得了观察屏幕、点击按钮、操作真实桌面的能力。 过去几个月,OpenClaw 的热度经历了一个典型的周期:从概
微信小游戏《找个球》,玩的就是眼力。每张看似相同的图片里,都藏着好几处“破绽”——有的明显,有的则隐蔽得让人抓狂。从简单的卧室场景,到复杂的宴会、雨夜,关卡越往后,画面细节越多,挑战也越大。想通关?秘诀就一个:沉住气,从左到右,一寸一寸地对比。 为了方便大家攻克难关,这里整理了一份全关卡通关攻略图合
《找个球》第10关攻略详解:如何快速找出15处不同?本关场景围绕经典角色“嬛嬛”与“大胖橘”展开,挑战在于发现两幅图片间的细微差别。这些差异点主要隐藏在人物的发饰造型、衣领褶皱、服饰花纹等细节处。同时,背景中的花草形态、秋千绳索乃至庭院摆设也可能存在巧妙改动。想要高效通关,建议玩家采用分区对比法,先





