首页 游戏 软件 资讯 排行榜 专题
首页
AI
林俊离首发文谈融合:“思考+指令”为何未能合并?

林俊离首发文谈融合:“思考+指令”为何未能合并?

热心网友
70
转载
2026-03-27


智东西
编译|李水青
编辑|心缘

智东西3月27日报道,昨日晚间,前阿里千问大模型负责人林俊旸(Junyang Lin)在社交平台X上发表了《从“推理式思考”到“智能体式思考”(From “Reasoning” Thinking to “Agentic” Thinking)》的长文,引起AI技术产业圈关注。


这是继掀起阿里离职风波后,他首次在X平台正式发文。在文中,他主要阐述了AI技术和产业发展的脉络,也不免透露出对千问大模型技术路线的反思。文章主要核心观点如下:

1、我们正从训练模型的时代转向训练智能体的时代。智能体式思考是指为了行动而思考,在与环境交互中持续更新计划。

2、o1和R1的崛起教会了我们:从扩展预训练转向扩展推理后训练,强化学习已成为系统工程,基础设施与可验证反馈是关键。

3、Qwen团队曾认为理想的系统应该统一思考模式和指令模式,但合并思考和指令,说起来容易,做起来难得多。难点在于数据。

4、当试图在模型合并与提升后训练数据的质量和多样性之间寻找平衡时,我们并未把所有事情都做对。

5、环境本身正在成为一流的研究对象。在智能体时代,我们应该专注于环境的质量,而非仅仅关注数据多样性。

6、更好的工具让模型更有用,但也放大了奖励破解的攻击面。

7、未来竞争优势将从更好的算法,转向更好的环境、更紧密的训练-服务集成,以及更强的框架工程。

林俊旸发文的原文内容编译如下:

过去两年重塑了我们评估模型的方式以及对模型的期望。OpenAI的o1表明,“思考”可以成为一种一流的能力,是你可以为此进行训练并向用户展示的东西。DeepSeek-R1证明了基于推理的后训练可以在原始实验室之外被复现和扩展。OpenAI将o1描述为一个通过强化学习训练出来的、“在回答前先思考”的模型。DeepSeek则将R1定位为一个能与o1竞争的开放推理模型。

那个阶段很重要。但2025年上半年主要关注的还是推理思考:如何让模型投入更多推理时计算,如何用更强的奖励信号训练它们,以及如何展现或控制这种额外的推理努力。现在的问题是,接下来是什么。我相信答案是智能体式思考:为了行动而思考,在与环境交互的同时,根据来自世界的反馈持续更新计划。

一、o1和R1的崛起实际教会了我们什么

第一波推理模型教会我们,如果想在语言模型中扩展强化学习,我们需要确定性的、稳定的、可扩展的反馈信号。数学、代码、逻辑和其他可验证的领域变得核心,因为这些场景下的奖励信号远比通用的偏好监督更强。它们让强化学习能够针对正确性而非合理性进行优化。基础设施变得至关重要。

一旦一个模型经过训练,能够通过更长的轨迹进行推理,强化学习就不再是监督微调之上一个轻量级的附加项。它变成了一个系统工程问题。你需要大规模的轨迹生成、高吞吐量的验证、稳定的策略更新、高效的采样。推理模型的出现,既是一个建模的故事,也是一个基础设施的故事。OpenAI将o1描述为一个通过强化学习训练的推理模型系列,而DeepSeek R1后来通过展示基于推理的强化学习需要多么专注的算法和基础设施工作,进一步强化了这一方向。第一个重大转变是:从扩展预训练转向扩展用于推理的后训练。

二、真正的问题从来不仅仅是“合并思考与指令”

2025年初,我们Qwen团队的许多人都抱有一个雄心勃勃的设想。理想的系统应该统一思考模式和指令模式。它应该支持可调节的推理努力程度,类似于低/中/高推理设置的理念。更进一步,它应该能从提示词和上下文中自动推断出合适的推理量,这样模型就能决定何时立即回答,何时思考更久,何时在真正困难的问题上投入更多的计算资源。

从概念上讲,这是正确的方向。Qwen3是最明确的公开尝试之一。它引入了“混合思考模式”,在一个模型家族中同时支持思考和非思考行为,强调可控的思考预算,并描述了一个四阶段的后训练流程,其中明确包含了在长思维链冷启动和推理强化学习之后的“思考模式融合”。

但是,合并说起来容易,做好却难得多。难点在于数据。当人们谈论合并思考与指令时,他们通常首先考虑模型端的兼容性:一个检查点能否同时支持两种模式,一个对话模板能否在两者间切换,一个服务堆栈能否暴露正确的开关。更深层的问题在于,这两种模式的数据分布和行为目标是截然不同的。

在尝试平衡模型合并与提升后训练数据的质量和多样性时,我们并未把所有事情都做对。在那个修订过程中,我们也密切关注用户实际如何使用思考模式和指令模式。一个强大的指令模型通常因其直接、简洁、符合格式要求、低延迟地处理重复性、高并发的企业任务(如重写、标注、模板化支持、结构化提取和运营问答)而获得好评。一个强大的思考模型则因其在难题上投入更多词元、保持连贯的中间结构、探索替代路径、以及保留足够的内部计算以切实提升最终正确性而获得好评。

这两种行为模式是相互冲突的。如果合并的数据没有得到精心策划,结果通常是在两方面都表现平庸:“思考”行为变得嘈杂、臃肿或缺乏决断力,而“指令”行为则变得不那么清晰、不那么可靠,并且比商业用户实际想要的成本更高。

在实践中,保持分离仍然很有吸引力。2025年下半年,在Qwen3最初的混合框架之后,2507系列发布了独立的指令模型和思考模型更新,包括单独的30B和235B变体。在商业部署中,大量客户仍然希望为批处理任务提供高吞吐量、低成本、高可控性的指令行为。对于这些场景,合并显然不是一项优势。分离不同模型系列使得团队能够更专注地解决每种模式的数据和训练问题。

其他实验室选择了相反的道路。Anthropic公开主张一种集成模型理念:Claude 3.7 Sonnet作为一个混合推理模型推出,用户可以选择普通响应或扩展思考,API用户可以设置思考预算。Anthropic明确表示,他们认为推理应该是一种集成能力,而不是一个独立的模型。GLM-4.5也公开定位为一个混合推理模型,兼具思考和非思考模式,统一了推理、编码和智能体能力;DeepSeek后来也通过V3.1的“思考与非思考”混合推理向类似方向发展。

关键问题在于合并是否是自然的。如果思考和指令仅仅是共存在一个检查点内,但行为上仍然像两个生硬拼接的人格,那么产品体验就会不自然。一个真正成功的合并需要一个平滑的推理努力程度谱系。模型应该能够展现不同层级的努力,并且最好能够自适应地选择。GPT风格的努力程度控制正指向这一点:一种关于计算资源的策略,而非一个二元开关。

三、为什么Anthropic的方向是一个有用的修正

Anthropic围绕Claude 3.7和Claude 4的公开表述是克制的。他们强调了集成推理、用户可控的思考预算、现实世界任务、编码质量,以及后来在扩展思考期间使用工具的能力。Claude 3.7被呈现为一个具有可控预算的混合推理模型;Claude 4在此基础上扩展,允许推理与工具使用交错进行,同时Anthropic强调编码、长时间运行任务和智能体工作流是主要目标。

产生更长的推理轨迹并不会自动让模型变得更智能。在许多情况下,过多的可见推理信号表明分配策略不佳。如果模型试图以同样的冗长方式对所有事情进行推理,它可能无法进行优先级排序,无法进行信息压缩,或者无法采取行动。Anthropic的路线图暗示了一种更严谨的观点:思考应该由目标工作负载来塑造。如果目标是编码,那么思考应该有助于代码库导航、规划、分解、错误恢复和工具编排。如果目标是智能体工作流,那么思考应该提升长时间跨度的执行质量,而不是产生令人印象深刻的中间文本。

这种对针对性实用性的强调指向了更大的图景:我们正从训练模型的时代迈向训练智能体的时代。我们在Qwen3的博客中明确指出了这一点,写道“我们正从以训练模型为中心的时代过渡到以训练智能体为中心的时代”,并将未来的强化学习进展与环境反馈(用于长时程推理)联系起来。智能体是一个能够制定计划、决定何时行动、使用工具、感知环境反馈、修正策略并在长时间跨度内持续运行的系统。它的定义是与世界的闭环交互。

四、 “智能体式思考”的真正含义

智能体式思考是一个不同的优化目标。推理思考通常通过最终答案之前内部思考过程的质量来评判:模型能否解出定理、写出证明、生成正确的代码或通过基准测试。智能体式思考关注的是模型在与环境交互时能否持续取得进展。

核心问题从“模型能思考足够久吗?”转变为“模型能以维持有效行动的方式进行思考吗?”智能体式思考必须处理几个纯粹推理模型大多可以避免的问题:
– 决定何时停止思考并采取行动
– 选择调用哪个工具以及以何种顺序调用
– 整合来自环境的有噪声或部分观测信息
– 在失败后修正计划
– 在多次交互和多次工具调用中保持连贯性

智能体式思考是一个通过行动进行推理的模型。

五、为什么智能体强化学习基础设施更难

一旦目标从解决基准问题转变为解决交互式任务,强化学习技术栈就发生了变化。用于经典推理强化学习的基础设施是不够的。在推理强化学习中,你通常可以将轨迹生成为大部分自包含的、带有相对清晰评估器的过程。在智能体强化学习中,策略被嵌入到一个更大的框架中:工具服务器、浏览器、终端、搜索引擎、模拟器、执行沙盒、API层、内存系统和编排框架。环境不再是一个静态的验证器;它是训练系统的一部分。

这带来了一个新的系统要求:训练和推理必须更清晰地解耦。没有这种解耦,轨迹生成的吞吐量就会崩溃。考虑一个必须针对实时测试框架执行生成代码的编码智能体:推理端在等待执行反馈时停滞,训练端因缺少完成的轨迹而饥饿,整个流程的GPU利用率远低于你在经典推理强化学习中预期的水平。添加工具延迟、部分可观测性和有状态的环境会加剧这些低效问题。结果是,实验速度变慢,并且在达到你目标能力水平之前很久就会变得令人痛苦。

环境本身也成为一个一流的研究对象。在监督微调时代,我们痴迷于数据的多样性。在智能体时代,我们应该痴迷于环境的质量:稳定性、真实性、覆盖率、难度、状态的多样性、反馈的丰富性、抗利用性以及轨迹生成的扩展性。环境构建已开始成为一个真正的创业类别,而不仅仅是副项目。如果智能体被训练来在生产环境中运行,那么环境就是核心能力栈的一部分。

六、下一个前沿是更实用的思考

我的预期是,智能体式思考将成为思考的主导形式。我认为它最终可能会取代许多旧的静态独白式的推理思考:那种试图通过生成越来越多的文本来弥补缺乏交互的、过长的、孤立的内部轨迹。即使在非常困难的数学或编码任务上,一个真正先进的系统也应该有权进行搜索、模拟、执行、检查、验证和修正。目标是稳健且高效地解决问题。

训练此类系统最难的挑战是奖励破解。一旦模型获得了有意义的工具访问权限,奖励破解就会变得危险得多。一个拥有搜索能力的模型可能会学会在强化学习期间直接查找答案。一个编码智能体可能会利用代码仓库中的未来信息、滥用日志,或者发现使任务无效的捷径。一个存在隐藏漏洞的环境可能会让策略看起来表现超群,而实际上却在训练它作弊。这正是智能体时代比推理时代更微妙的地方。更好的工具让模型更有用,但它们也扩大了虚假优化的攻击面。我们应该预料到,下一个严峻的研究瓶颈将来自环境设计、评估器的鲁棒性、反作弊协议,以及策略与世界之间更规范的接口。尽管如此,方向是明确的。启用工具的思考比孤立的思考有用得多,并且更有可能真正提高生产力。

智能体式思考也意味着框架工程。核心智能将越来越多地来自多个智能体的组织方式:一个负责规划和分派工作的编排器,充当领域专家的专用智能体,以及执行更狭窄任务、同时帮助控制上下文、避免污染并保持不同推理层级之间分离的子智能体。未来是从训练模型转向训练智能体,再从训练智能体转向训练系统。

七、结论

推理浪潮的第一阶段确立了一件重要的事:当反馈信号可靠且基础设施能够支撑时,在语言模型之上进行强化学习可以产生质量上更强的认知能力。

更深层的转变是从推理思考转向智能体式思考:从思考更久转向为了行动而思考。训练的核心对象已经改变。它是“模型加环境”的系统,或者更具体地说,是智能体及其周围的框架。这改变了哪些研究要素最为重要:模型架构和训练数据,当然,但也包括环境设计、轨迹生成基础设施、评估器的鲁棒性,以及多个智能体协调的接口。这改变了“好的思考”的含义:在现实世界约束下维持行动最有用的轨迹,而不是最长或最显眼的轨迹。

这也改变了竞争优势的来源。在推理时代,优势来自更好的强化学习算法、更强的反馈信号和更具扩展性的训练流程。在智能体时代,优势将来自更好的环境、更紧密的训练-服务集成、更强的框架工程,以及能够在模型的决策与其产生的后果之间形成闭环的能力。

来源:https://www.163.com/dy/article/KP19414R051180F7.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

具身智能研发框架Dexbotic重塑机器人开发流程
AI
具身智能研发框架Dexbotic重塑机器人开发流程

近日,开源具身智能原生框架Dexbotic宣布正式支持以RLinf作为其分布式强化学习后端。对具身智能开发者而言,这不仅是一次普通的工程适配,更意味着VLA模型研发中长期存在的「SFT与RL割裂」问题,正在被真正打通。 这是一种典型的「乐高式协作」:双方不强行Fork、不粗暴揉合代码,而是保持清晰边

热心网友
05.13
RMS-MoE模型通过检索记忆优化专家路由调度效率
AI
RMS-MoE模型通过检索记忆优化专家路由调度效率

随着大模型参数规模不断增长,混合专家(Mixture-of-Experts, MoE)架构因其稀疏激活特性,成为平衡模型性能与计算开销的主流方案。然而,在实际的Web级应用部署中,一个关键挑战日益凸显:传统MoE的路由机制通常是“无记忆”的。 试想,在搜索引擎、智能问答或多轮对话等高并发场景下,用户

热心网友
05.12
编程入门指南从零基础到理解核心概念
编程语言
编程入门指南从零基础到理解核心概念

编程十年的一点分享 在软件开发的路上走过十几年,从一个爱好者到以此为业,有些体会或许值得聊聊,就当是抛砖引玉吧。 最早接触编程,是从BASIC和C语言开始的。工作后,随着需要,陆续学习了dBase、Access这类桌面数据库的开发。真正以开发为职业,可以说始于FoxPro 5 0,之后技术栈随着项目

热心网友
05.07
编程初学者入门指南与核心思维解析
编程语言
编程初学者入门指南与核心思维解析

引言 编程,是一门实践科学。这意味着,学习它的最佳方式就是动手去敲代码。但这是否意味着,我们可以因此轻视理论的学习呢? 入门编程 如果你去各大技术社区提问“该如何入门编程”,五花八门的答案会瞬间涌来。 不过,仔细梳理一下,无外乎以下几种流派: 学院派 他们推荐从C语言入手,并辅以数据结构、操作系统等

热心网友
05.07
Agent 需要“油表”和“刹车”:一篇论文,扒光了 Agent 的“糊涂账”
科技数码
Agent 需要“油表”和“刹车”:一篇论文,扒光了 Agent 的“糊涂账”

想象一下这个场景: 你让 AI Agent 帮你修一个代码 Bug。它打开项目,读了 20 个文件,改了改,跑了一下测试,没过,又改,又跑,还是没过……来回折腾了十几轮,终于——还是没修好。 你关掉电脑,松了口气。然后收到了 API 账单。 上面的数字可能让你倒吸一口凉气——AI Agent 自主修

热心网友
05.06

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

英特尔酷睿Ultra游戏本性能解析:AI加持下的全新体验
AI
英特尔酷睿Ultra游戏本性能解析:AI加持下的全新体验

根据Gartner最新市场报告,2025年全球PC出货量突破2 7亿台,同比增长9 1%。在人工智能技术浪潮与AI PC算力升级需求的双重驱动下,整个PC行业正迈入一个全新的增长周期。作为细分市场的重要力量,游戏笔记本电脑也迎来了关乎性能、体验与场景定义的关键换代节点。 回顾行业发展,英特尔于202

热心网友
05.15
TUSD稳定币详解:TrueUSD项目背景、主要用途与投资风险全解析
web3.0
TUSD稳定币详解:TrueUSD项目背景、主要用途与投资风险全解析

TUSD是一种与美元1:1锚定的合规稳定币,由TrustToken团队推出。它通过第三方机构定期审计和银行账户托管确保透明度,旨在提供可靠的数字美元解决方案。其用途涵盖交易、支付、DeFi及跨境结算,但用户仍需关注其中心化托管、监管变化及智能合约安全等潜在风险。

热心网友
05.15
OpenClaw Peekaboo v3发布:机器人视觉抓取技术实现一日三更
AI
OpenClaw Peekaboo v3发布:机器人视觉抓取技术实现一日三更

OpenClaw 生态中那个关键的“眼睛”和“手”——Peekaboo v3,正式回归了。这不仅是一次版本更新,更像是一次关键的“补完”。它让 AI 不再只是停留在聊天框里给出建议,而是真正获得了观察屏幕、点击按钮、操作真实桌面的能力。 过去几个月,OpenClaw 的热度经历了一个典型的周期:从概

热心网友
05.15
微信小程序找个球全关卡通关攻略图文详解
游戏攻略
微信小程序找个球全关卡通关攻略图文详解

微信小游戏《找个球》,玩的就是眼力。每张看似相同的图片里,都藏着好几处“破绽”——有的明显,有的则隐蔽得让人抓狂。从简单的卧室场景,到复杂的宴会、雨夜,关卡越往后,画面细节越多,挑战也越大。想通关?秘诀就一个:沉住气,从左到右,一寸一寸地对比。 为了方便大家攻克难关,这里整理了一份全关卡通关攻略图合

热心网友
05.15
找个球第10关怎么过 图文通关步骤详解
游戏攻略
找个球第10关怎么过 图文通关步骤详解

《找个球》第10关攻略详解:如何快速找出15处不同?本关场景围绕经典角色“嬛嬛”与“大胖橘”展开,挑战在于发现两幅图片间的细微差别。这些差异点主要隐藏在人物的发饰造型、衣领褶皱、服饰花纹等细节处。同时,背景中的花草形态、秋千绳索乃至庭院摆设也可能存在巧妙改动。想要高效通关,建议玩家采用分区对比法,先

热心网友
05.15