阿里林俊离职首文：AI迈向智能体式思考新阶段

首页

科技数码

热心网友

转载

2026-03-27

AI正在走向“为了采取正确行动而思考”。

编译整理｜莘歆

来源 | 盒饭财经（ID：daxiongfan）

头图及封面来源 | 网络及即梦制作

在X（推特）上宣布离职后的22天，林俊旸发了一篇长文。

3月26日晚，作为前阿里通义千问 Qwen 负责人，林俊旸这篇题为《从“推理式思考”到“智能体式思考”》（From "Reasoning" Thinking to "Agentic" Thinking）的文章，是他从阿里离职后首次公开发表的长文。

图片来源：X 截图

长文中提到，过去两年，OpenAI o1和DeepSeek R1证明了AI能够在“回答之前先思考”，而不是“脱口而出”。但在林俊旸看来，这种范式目前正在发生转移，AI的重心正在从“推理式思考”走向“智能体式思考”。

简单来说就是，AI从最初的“简单回答问题”到“为了给出正确答案，先思考再回答问题”，到如今正在走向“为了采取正确行动而思考”，即目标发生了转移。

在阿里任职期间，林俊旸主导了从 Qwen-7B 到 Qwen-2.5 这一系列模型的研发，是阿里云大模型“通义千问（Qwen）”的技术总指挥。3月4日，林俊旸在X上发文称“me stepping down. bye my beloved qwen.”（我卸任了。再见了，我深爱的千问。）林俊旸正式从阿里离职。

林俊旸此次发布的这篇长文约4500字，主要探讨了人工智能从“推理思考”（Reasoning Thinking）向“智能体思考”（Agentic Thinking）的演进趋势，并分析了这一转变背后的技术挑战与未来方向。

截止发稿前，该文章已经获得将近40万的浏览量和两千多的点赞收藏。评论区的讨论也很火爆，一位LLM研究人员表示“只有通过人为干预/协调智能体和工具，而不是让LLM完全掌控整个流程，这样自动化才会成为可能。”另外一位生物学专业出身的人工智能研究者同样也表示“模型存在掌握了信息，却不愿采取行动”的情况。

图片来源：X 截图

林俊旸的这一思考与论点获得了Grok研发工程师Ethan He等诸多专业人士的认同和支持。

以下是原文，有编译：

过去两年来，彻底重塑了我们评估模型的方式，也改变了我们对模型的期望。

OpenAI 的 o1 表明，“思考”可以成为一流的能力，一种你可以为之训练并向用户展示的能力。DeepSeek R1 证明，推理式的后训练（post-training）可以在原始实验室之外被复现和扩展。OpenAI 将 o1 描述为一个通过强化学习训练的模型，它会在“回答之前先思考”。DeepSeek则将 R1 定位为一个与 o1 具有竞争力的开源推理模型。

那个阶段很重要。但2025年上半年主要围绕的是推理式思考：如何让模型消耗更多的推理期算力，如何用更强的奖励来训练它们，以及如何展示或控制这些额外的推理投入。现在的问题是接下来会怎样。

我相信答案是智能体式思考：为了行动而思考，在与环境交互的同时进行思考，并根据来自现实世界的反馈不断更新计划。

o1与R1的兴起真正教会了我们什么

第一波推理模型教会了我们：如果我们想在语言模型中扩展强化学习，我们需要确定性、稳定且可扩展的反馈信号。数学、代码、逻辑和其他可验证的领域变得至关重要，因为在这些场景中的奖励比通用的偏好监督要强得多。

它们让强化学习能够针对正确性而非表面合理性进行优化。基础设施变得至关重要。

一旦一个模型被训练成能够通过更长的轨迹进行推理，强化学习就不再是监督微调（SFT）的一个轻量级附加组件了。它变成了一个系统问题：你需要大规模的推演（rollouts）、高吞吐量的验证、稳定的策略更新和高效的采样。

推理模型的出现，既是一个建模领域的故事，也是一个基础设施领域的故事。

OpenAI将o1描述为一条用强化学习训练的推理产品线，而DeepSeek R1随后通过展示基于推理的强化学习需要多少专门的算法和基础设施工作，进一步巩固了这一方向。第一次大转变是：从扩展预训练走向为推理扩展后训练。

真正的问题，从来不只是“合并思考与指令”

2025 年初，我们Qwen团队的许多人都怀揣着一个宏大的构想：理想的系统，将统一思考（thinking）和指令（instruct）模式。它会支持可调节的推理投入，类似于低/中/高推理设置。

更理想的情况是，它会从提示词和上下文中自动推断出合适的推理量，这样模型就能决定何时立即回答，何时思考更长时间，以及何时在真正困难的问题上投入多得多的计算量。

从概念上讲，这是正确的方向。

Qwen3是最清晰的公开尝试之一。它引入了“混合思考模式”，在同一个模型家族中支持思考和非思考行为，强调可控的思考预算，并描述了一个四阶段的后训练流程：该流程在长链式思维（long-CoT）冷启动和推理强化学习之后，明确包含了“思维模式融合”这一步。

但融合说起来容易，做起来难。难点在于数据。

当人们谈论合并思考和指令时，他们通常首先考虑的是模型侧的兼容性：一个检查点（checkpoint）能否同时支持两种模式，一个对话模板能否在两者间切换，一套推理服务架构能否提供正确的切换开关。更深层次的问题是，这两种模式的数据分布和行为目标有着本质的区别。

在试图平衡模型合并与提升后训练数据的质量和多样性时，我们并没有做对所有事情。修正过程中，我们也密切关注了用户实际上是如何使用思考和指令模式的。一个强指令模型通常因其直接、简洁、符合格式要求、在处理重复性、高并发的企业任务（如重写、标注、模板化支持、结构化提取和运营QA）时低延迟而受到青睐。一个强思考模型则因其在难题上花更多Token、保持连贯的中间推理结构、探索替代路径、并保留足够的内部计算以切实提升最终正确率而受到青睐。

这两种行为特征是相互冲突的。

如果合并的数据没有经过精心筛选，结果通常是在两方面都表现平庸：“思考”行为变得嘈杂、臃肿或不够果断，而“指令”行为则变得不够干脆与可靠，并且比商业用户实际想要的成本更高。

实践中，分离仍然具有吸引力。2025年下半年，继Qwen3最初的混合架构之后，2507产品线发布了区分明确的Instruct（指令）和Thinking（思考）更新，包括各自独立的30B和235B版本。

在商业部署中，大量客户仍然希望为批量操作提供高吞吐量、低成本、高度可控的指令行为。这些场景中，合并并没有明显的好处。将产品线分离使得团队能够更纯粹地专注于解决每种模式的数据和训练问题。

其他实验室选择了相反的路径。

Anthropic 公开主张一种集成的模型理念：Claude 3.7 Sonnet作为混合推理模型推出，用户可以选择普通回复或扩展思考，API用户可以设置思维预算。Anthropic 明确表示，他们认为推理应该是一种整合能力，而不是一个单独的模型。GLM-4.5 也公开定位为一个混合推理模型，兼具思考和非思考模式，统一了推理、编码和代理能力；DeepSeek后来在V3.1的“思考与非思考”（Think & Non-Think）混合推理中也走向了类似的发展方向。

关键问题在于合并是否是“有机”。

如果思考模式和指令模式仅仅是共存于同一个检查点内，但行为上仍然像两个生硬拼凑的人格，那么产品体验仍然不自然。一个真正成功的合并需要推理投入的平滑过渡。模型应该能够表达多个级别的投入度，并且最好能够自适应地在它们之间做出选择。GPT风格的投入控制指向了这一点：一种对计算量的策略控制，而不是一个二元开关。

为什么Anthropic的方向是一次有用的纠偏

Anthropic 围绕 Claude 3.7 和 Claude 4 的公开表述是克制的。他们强调集成推理、用户控制的思考预算、现实世界任务、代码质量，以及后来在扩展思考期间使用工具的能力。Claude 3.7 被呈现为一个具有可控预算的混合推理模型；Claude 4扩展了这一点，允许推理与工具使用交替进行，同时Anthropic强调将编程、长时间运行的任务和智能体工作流作为主要目标。

生成更长的推理轨迹并不会自动让模型变得更聪明。在很多情况下，过度可见的推理表明资源分配薄弱。如果模型试图以同样冗长的方式对所有事情进行推理，它可能是在优先级排序上失败、在压缩上失败，或在采取行动上失败。

Anthropic的发展轨迹暗示了一种更严谨的观点：思考应该由目标工作负载来塑造。如果目标是编程，那么思考应该有助于代码库导航、规划、分解、错误恢复和工具编排。如果目标是智能体工作流，那么思考的价值应当体现在提升长跨度任务的执行质量上，而非生成那些看似惊艳、实则冗余的中间文字。

这种对针对性效用（Targeted Utility）的强调，实际上指向了一个更宏大的命题：我们正在从训练模型的时代走向训练智能体的时代。我们在Qwen3的博客中明确了这一点，当时写的是“我们正在从一个专注于训练模型的时代过渡到一个以训练智能体为中心的时代”。同时，为了实现长链路推理，我们将未来强化学习的进步和环境反馈联系在了一起。

智能体是一个在长时间周期内持续运作的系统，它能够制定计划、决定何时行动、使用工具、感知环境反馈和修正策略。它的这个定义是由与世界的闭环交互决定的。

“智能体式思考”到底意味着什么

智能体式思考与推理式思考是两个不同的优化目标。

推理式思考通常由给出最终答案前的内部推理质量来判断，比如模型能解出定理、写出证明、生成正确的代码或通过基准测试吗？智能体式思考关乎的则是模型在与环境交互时能否不断取得进展。

核心问题从“模型能思考足够久吗？” 转变为“模型能否以一种维持有效行动的方式进行思考？”

智能体式思考必须处理几件纯推理模型大多可以避免的事情：

（1）决定何时停止思考并采取行动。

（2）选择调用哪个工具以及以何种顺序调用。

（3）引入来自环境的带噪（Noisy）或部分（Partial）观测。

（4）在失败后修正计划。

（5）在多轮对话和多次工具调用中保持连贯性。

（6）智能体式思考是一个模型通过行动进行推理的过程。

为什么智能体强化学习的基础设施更难

这是因为一旦目标从解决基准测试问题转向解决交互式任务，强化学习技术栈（整套技术方案）就会发生改变。

用于传统推理强化学习的基础架构已经不够用了。在推理强化学习中，采样往往是一条条独立的路径，而且判断好坏的标准非常直接、不含糊。

但在智能体强化学习中，策略（智能体的“决策大脑”）被嵌入在一个更大的框架（harness）中，这个框架包括工具服务器、浏览器、终端、搜索引擎、模拟器、执行沙箱、API层、记忆系统和编排框架。环境不再是一个静态的验证器，它是训练系统的一部分。

这带来了一个新的系统要求：训练和推理必须更加彻底地解耦。

如果没有这种解耦，推演的吞吐量就会崩溃。以一个需要在实时测试环境下运行代码的代码智能体为例，推理端会因为等待执行反馈而陷入停滞，训练端则因拿不到完整的轨迹数据而处于“饥饿”状态，导致整个流水线的GPU利用率远低于传统推理强化学习的预期水平。加上工具延迟、部分可观测性和复杂多变的环境，会进一步放大这些低效问题。结果就是，在远未达到预定的能力水平之前，实验进程就已经放缓，且变得步履维艰。

在智能体强化学习中，环境本身也成为了一个一流的研究对象。

在监督微调（SFT）时代，我们痴迷于数据多样性。在智能体时代，我们应该痴迷于环境质量，如稳定性、真实性、覆盖率、难度、状态的多样性、反馈的丰富性、抗作弊（漏洞利用）能力等，以及推理的可扩展性。环境构建已经开始成为一个真正的创业赛道，而不仅仅是一个副业项目。如果训练智能体的目的是为了让它在类生产环境中运行，那么环境（构建）本身就是其核心能力栈的一部分。

下一个前沿是关于更具实用性的思考

我的预期是，智能体式思考将成为主流的思考形式。

我认为它最终可能会取代大部分旧式的静态独白版推理思考，即试图通过输出越来越多的文本来弥补缺乏交互的、冗长的、孤立的内部推理。即使是在非常困难的数学或编程任务上，一个真正先进的系统也应该有权搜索、模拟、执行、检查、验证和修正。只要最终目标是稳健且高效地解决问题。

但训练这类系统面临着一个最艰巨的挑战——奖励作弊（reward hacking）。一旦模型获得了有意义的工具访问权限，奖励作弊就会变得更加危险。一个带有搜索功能的模型可能会学会在强化学习过程中直接查找答案。一个编程智能体可能会利用代码库中的“未来信息”、违规调取日志，或是通过寻找“逻辑捷径”，从而导致整个测试任务失效。

一个存在隐藏漏洞的环境可能使策略看起来像超人，但实际上只是在训练它去作弊。这正是智能体时代变得比推理时代微妙得多的地方。更好的工具使模型更加有用，但它们也扩大了虚假优化的攻击面。

我们应该预料到，下一个严重的研究瓶颈将来自环境设计、评估器的鲁棒性（系统抗折腾的能力）、反作弊协议，以及策略与现实世界之间更具原则性的接口。尽管如此，方向是明确的。基于工具的思考绝对比孤立的思考更有用，且更有可能提高实际生产力。

智能体式思考（Agentic Thinking）也意味着“Harness 工程”（系统驾驭工程）的兴起。核心智能将越来越多地源自于多个智能体的组织方式：由一个统筹者负责规划与分发工作；由专业智能体充当领域专家；而子智能体则执行更细分的操作，同时协助控制上下文、避免信息污染，并保持不同推理层次间的独立性。未来的趋势是从“训练模型”转向“训练智能体”，再从“训练智能体”转向“训练系统”。

结论

推理浪潮的第一阶段确立了一个重要事实：在反馈信号可靠且基础设施支撑到位的条件下，于语言模型之上引入强化学习（RL），能够催生出在本质上（质性）更强的认知能力。

更深层次的转变是从“推理式思考”向“智能体式思考”跨越，即从“思考得更久”转向了“为行动而思考”。

训练的核心对象已经发生了转移。

现在是“模型+环境”的综合系统，或者更具体地说，是智能体以及围绕它的测试框架。这意味着研究的重心，除了模型架构和训练数据之外，还包括环境设计、采样（rollout）基础设施、评估器的鲁棒性，以及多个智能体协调所依托的接口。它重新定义了什么是“好的思考”：在现实世界的约束下，最能支撑持续行动的轨迹才是最有用的，而非那些最长或最显眼的思考过程。

这也改变了核心竞争力的来源。

在推理时代，优势来自于更好的强化学习算法、更强的反馈信号和更具扩展性的训练流水线。在智能体时代，竞争优势将来自于更好的环境、更紧密的“训推一体化（Train-Serve Integration）”、更强的“架构工程（Harness Engineering）”，以及在模型的决策与其产生的结果之间闭环的能力。

欢迎在评论区留言~如需开白请加微信：YPYP01234567

来源:https://www.163.com/dy/article/KP228FEH05199467.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：阿里平台带动飞猪租车增长强劲，88VIP用户下单规模同比扩四成下一篇：阿里亲橙超级创业者社区在沪启动，AI生态圈赋能“超级个体”