林俊离首发文谈融合：“思考+指令”为何未能合并？

首页

热心网友

转载

2026-03-27

智东西
编译｜李水青
编辑｜心缘

智东西3月27日报道，昨日晚间，前阿里千问大模型负责人林俊旸（Junyang Lin）在社交平台X上发表了《从“推理式思考”到“智能体式思考”（From “Reasoning” Thinking to “Agentic” Thinking）》的长文，引起AI技术产业圈关注。

这是继掀起阿里离职风波后，他首次在X平台正式发文。在文中，他主要阐述了AI技术和产业发展的脉络，也不免透露出对千问大模型技术路线的反思。文章主要核心观点如下：

1、我们正从训练模型的时代转向训练智能体的时代。智能体式思考是指为了行动而思考，在与环境交互中持续更新计划。

2、o1和R1的崛起教会了我们：从扩展预训练转向扩展推理后训练，强化学习已成为系统工程，基础设施与可验证反馈是关键。

3、Qwen团队曾认为理想的系统应该统一思考模式和指令模式，但合并思考和指令，说起来容易，做起来难得多。难点在于数据。

4、当试图在模型合并与提升后训练数据的质量和多样性之间寻找平衡时，我们并未把所有事情都做对。

5、环境本身正在成为一流的研究对象。在智能体时代，我们应该专注于环境的质量，而非仅仅关注数据多样性。

6、更好的工具让模型更有用，但也放大了奖励破解的攻击面。

7、未来竞争优势将从更好的算法，转向更好的环境、更紧密的训练-服务集成，以及更强的框架工程。

林俊旸发文的原文内容编译如下：

过去两年重塑了我们评估模型的方式以及对模型的期望。OpenAI的o1表明，“思考”可以成为一种一流的能力，是你可以为此进行训练并向用户展示的东西。DeepSeek-R1证明了基于推理的后训练可以在原始实验室之外被复现和扩展。OpenAI将o1描述为一个通过强化学习训练出来的、“在回答前先思考”的模型。DeepSeek则将R1定位为一个能与o1竞争的开放推理模型。

那个阶段很重要。但2025年上半年主要关注的还是推理思考：如何让模型投入更多推理时计算，如何用更强的奖励信号训练它们，以及如何展现或控制这种额外的推理努力。现在的问题是，接下来是什么。我相信答案是智能体式思考：为了行动而思考，在与环境交互的同时，根据来自世界的反馈持续更新计划。

一、o1和R1的崛起实际教会了我们什么

第一波推理模型教会我们，如果想在语言模型中扩展强化学习，我们需要确定性的、稳定的、可扩展的反馈信号。数学、代码、逻辑和其他可验证的领域变得核心，因为这些场景下的奖励信号远比通用的偏好监督更强。它们让强化学习能够针对正确性而非合理性进行优化。基础设施变得至关重要。

一旦一个模型经过训练，能够通过更长的轨迹进行推理，强化学习就不再是监督微调之上一个轻量级的附加项。它变成了一个系统工程问题。你需要大规模的轨迹生成、高吞吐量的验证、稳定的策略更新、高效的采样。推理模型的出现，既是一个建模的故事，也是一个基础设施的故事。OpenAI将o1描述为一个通过强化学习训练的推理模型系列，而DeepSeek R1后来通过展示基于推理的强化学习需要多么专注的算法和基础设施工作，进一步强化了这一方向。第一个重大转变是：从扩展预训练转向扩展用于推理的后训练。

二、真正的问题从来不仅仅是“合并思考与指令”

2025年初，我们Qwen团队的许多人都抱有一个雄心勃勃的设想。理想的系统应该统一思考模式和指令模式。它应该支持可调节的推理努力程度，类似于低/中/高推理设置的理念。更进一步，它应该能从提示词和上下文中自动推断出合适的推理量，这样模型就能决定何时立即回答，何时思考更久，何时在真正困难的问题上投入更多的计算资源。

从概念上讲，这是正确的方向。Qwen3是最明确的公开尝试之一。它引入了“混合思考模式”，在一个模型家族中同时支持思考和非思考行为，强调可控的思考预算，并描述了一个四阶段的后训练流程，其中明确包含了在长思维链冷启动和推理强化学习之后的“思考模式融合”。

但是，合并说起来容易，做好却难得多。难点在于数据。当人们谈论合并思考与指令时，他们通常首先考虑模型端的兼容性：一个检查点能否同时支持两种模式，一个对话模板能否在两者间切换，一个服务堆栈能否暴露正确的开关。更深层的问题在于，这两种模式的数据分布和行为目标是截然不同的。

在尝试平衡模型合并与提升后训练数据的质量和多样性时，我们并未把所有事情都做对。在那个修订过程中，我们也密切关注用户实际如何使用思考模式和指令模式。一个强大的指令模型通常因其直接、简洁、符合格式要求、低延迟地处理重复性、高并发的企业任务（如重写、标注、模板化支持、结构化提取和运营问答）而获得好评。一个强大的思考模型则因其在难题上投入更多词元、保持连贯的中间结构、探索替代路径、以及保留足够的内部计算以切实提升最终正确性而获得好评。

这两种行为模式是相互冲突的。如果合并的数据没有得到精心策划，结果通常是在两方面都表现平庸：“思考”行为变得嘈杂、臃肿或缺乏决断力，而“指令”行为则变得不那么清晰、不那么可靠，并且比商业用户实际想要的成本更高。

在实践中，保持分离仍然很有吸引力。2025年下半年，在Qwen3最初的混合框架之后，2507系列发布了独立的指令模型和思考模型更新，包括单独的30B和235B变体。在商业部署中，大量客户仍然希望为批处理任务提供高吞吐量、低成本、高可控性的指令行为。对于这些场景，合并显然不是一项优势。分离不同模型系列使得团队能够更专注地解决每种模式的数据和训练问题。

其他实验室选择了相反的道路。Anthropic公开主张一种集成模型理念：Claude 3.7 Sonnet作为一个混合推理模型推出，用户可以选择普通响应或扩展思考，API用户可以设置思考预算。Anthropic明确表示，他们认为推理应该是一种集成能力，而不是一个独立的模型。GLM-4.5也公开定位为一个混合推理模型，兼具思考和非思考模式，统一了推理、编码和智能体能力；DeepSeek后来也通过V3.1的“思考与非思考”混合推理向类似方向发展。

关键问题在于合并是否是自然的。如果思考和指令仅仅是共存在一个检查点内，但行为上仍然像两个生硬拼接的人格，那么产品体验就会不自然。一个真正成功的合并需要一个平滑的推理努力程度谱系。模型应该能够展现不同层级的努力，并且最好能够自适应地选择。GPT风格的努力程度控制正指向这一点：一种关于计算资源的策略，而非一个二元开关。

三、为什么Anthropic的方向是一个有用的修正

Anthropic围绕Claude 3.7和Claude 4的公开表述是克制的。他们强调了集成推理、用户可控的思考预算、现实世界任务、编码质量，以及后来在扩展思考期间使用工具的能力。Claude 3.7被呈现为一个具有可控预算的混合推理模型；Claude 4在此基础上扩展，允许推理与工具使用交错进行，同时Anthropic强调编码、长时间运行任务和智能体工作流是主要目标。

产生更长的推理轨迹并不会自动让模型变得更智能。在许多情况下，过多的可见推理信号表明分配策略不佳。如果模型试图以同样的冗长方式对所有事情进行推理，它可能无法进行优先级排序，无法进行信息压缩，或者无法采取行动。Anthropic的路线图暗示了一种更严谨的观点：思考应该由目标工作负载来塑造。如果目标是编码，那么思考应该有助于代码库导航、规划、分解、错误恢复和工具编排。如果目标是智能体工作流，那么思考应该提升长时间跨度的执行质量，而不是产生令人印象深刻的中间文本。

这种对针对性实用性的强调指向了更大的图景：我们正从训练模型的时代迈向训练智能体的时代。我们在Qwen3的博客中明确指出了这一点，写道“我们正从以训练模型为中心的时代过渡到以训练智能体为中心的时代”，并将未来的强化学习进展与环境反馈（用于长时程推理）联系起来。智能体是一个能够制定计划、决定何时行动、使用工具、感知环境反馈、修正策略并在长时间跨度内持续运行的系统。它的定义是与世界的闭环交互。

四、 “智能体式思考”的真正含义

智能体式思考是一个不同的优化目标。推理思考通常通过最终答案之前内部思考过程的质量来评判：模型能否解出定理、写出证明、生成正确的代码或通过基准测试。智能体式思考关注的是模型在与环境交互时能否持续取得进展。

核心问题从“模型能思考足够久吗？”转变为“模型能以维持有效行动的方式进行思考吗？”智能体式思考必须处理几个纯粹推理模型大多可以避免的问题：
– 决定何时停止思考并采取行动
– 选择调用哪个工具以及以何种顺序调用
– 整合来自环境的有噪声或部分观测信息
– 在失败后修正计划
– 在多次交互和多次工具调用中保持连贯性

智能体式思考是一个通过行动进行推理的模型。

五、为什么智能体强化学习基础设施更难

一旦目标从解决基准问题转变为解决交互式任务，强化学习技术栈就发生了变化。用于经典推理强化学习的基础设施是不够的。在推理强化学习中，你通常可以将轨迹生成为大部分自包含的、带有相对清晰评估器的过程。在智能体强化学习中，策略被嵌入到一个更大的框架中：工具服务器、浏览器、终端、搜索引擎、模拟器、执行沙盒、API层、内存系统和编排框架。环境不再是一个静态的验证器；它是训练系统的一部分。

这带来了一个新的系统要求：训练和推理必须更清晰地解耦。没有这种解耦，轨迹生成的吞吐量就会崩溃。考虑一个必须针对实时测试框架执行生成代码的编码智能体：推理端在等待执行反馈时停滞，训练端因缺少完成的轨迹而饥饿，整个流程的GPU利用率远低于你在经典推理强化学习中预期的水平。添加工具延迟、部分可观测性和有状态的环境会加剧这些低效问题。结果是，实验速度变慢，并且在达到你目标能力水平之前很久就会变得令人痛苦。

环境本身也成为一个一流的研究对象。在监督微调时代，我们痴迷于数据的多样性。在智能体时代，我们应该痴迷于环境的质量：稳定性、真实性、覆盖率、难度、状态的多样性、反馈的丰富性、抗利用性以及轨迹生成的扩展性。环境构建已开始成为一个真正的创业类别，而不仅仅是副项目。如果智能体被训练来在生产环境中运行，那么环境就是核心能力栈的一部分。

六、下一个前沿是更实用的思考

我的预期是，智能体式思考将成为思考的主导形式。我认为它最终可能会取代许多旧的静态独白式的推理思考：那种试图通过生成越来越多的文本来弥补缺乏交互的、过长的、孤立的内部轨迹。即使在非常困难的数学或编码任务上，一个真正先进的系统也应该有权进行搜索、模拟、执行、检查、验证和修正。目标是稳健且高效地解决问题。

训练此类系统最难的挑战是奖励破解。一旦模型获得了有意义的工具访问权限，奖励破解就会变得危险得多。一个拥有搜索能力的模型可能会学会在强化学习期间直接查找答案。一个编码智能体可能会利用代码仓库中的未来信息、滥用日志，或者发现使任务无效的捷径。一个存在隐藏漏洞的环境可能会让策略看起来表现超群，而实际上却在训练它作弊。这正是智能体时代比推理时代更微妙的地方。更好的工具让模型更有用，但它们也扩大了虚假优化的攻击面。我们应该预料到，下一个严峻的研究瓶颈将来自环境设计、评估器的鲁棒性、反作弊协议，以及策略与世界之间更规范的接口。尽管如此，方向是明确的。启用工具的思考比孤立的思考有用得多，并且更有可能真正提高生产力。

智能体式思考也意味着框架工程。核心智能将越来越多地来自多个智能体的组织方式：一个负责规划和分派工作的编排器，充当领域专家的专用智能体，以及执行更狭窄任务、同时帮助控制上下文、避免污染并保持不同推理层级之间分离的子智能体。未来是从训练模型转向训练智能体，再从训练智能体转向训练系统。

七、结论

推理浪潮的第一阶段确立了一件重要的事：当反馈信号可靠且基础设施能够支撑时，在语言模型之上进行强化学习可以产生质量上更强的认知能力。

更深层的转变是从推理思考转向智能体式思考：从思考更久转向为了行动而思考。训练的核心对象已经改变。它是“模型加环境”的系统，或者更具体地说，是智能体及其周围的框架。这改变了哪些研究要素最为重要：模型架构和训练数据，当然，但也包括环境设计、轨迹生成基础设施、评估器的鲁棒性，以及多个智能体协调的接口。这改变了“好的思考”的含义：在现实世界约束下维持行动最有用的轨迹，而不是最长或最显眼的轨迹。

这也改变了竞争优势的来源。在推理时代，优势来自更好的强化学习算法、更强的反馈信号和更具扩展性的训练流程。在智能体时代，优势将来自更好的环境、更紧密的训练-服务集成、更强的框架工程，以及能够在模型的决策与其产生的后果之间形成闭环的能力。

来源:https://www.163.com/dy/article/KP19414R051180F7.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：具身智能生态：龙岗实践从模型到现实的5大技术回顾下一篇：奥迪电动新篇章：从E5到E7X，重塑德系豪华未来