首页 游戏 软件 资讯 排行榜 专题
首页
AI
林俊烨离职首谈千问复盘:AI之路的反思与未来指向

林俊烨离职首谈千问复盘:AI之路的反思与未来指向

热心网友
53
转载
2026-03-27

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

林俊旸,离职阿里千问后首次发声。

他没有回应离职风波或宣告去向,而是发长文探讨从“推理模型时代的思考”到“智能体时代的思考”的转变。



整篇文章谈的是技术和AI的未来方向,但字里行间对千问技术路线的反思藏不住。

他在文中坦白承认“我们没有全做对”(We did not get everything right),



千问团队曾有一个雄心勃勃的构想:把thinking和instruct两种模式合并到一个模型里。

Qwen3就是这个方向上“最清晰的公开尝试之一”,它引入了混合思维模式。

但在今天的林俊旸仍不够满意,他觉得最终thinking变得啰嗦且犹豫不决,instruct变得不够干脆、不够可靠,还更贵了。

在他看来,真正成功的合并,不是把两种人格硬塞进一个checkpoint,而是让模型拥有一个连续的推理努力光谱。



面对未来,他还给出这样的判断:过去两年Reasoning Thinking时代的使命已经完成了。

OpenAI的o1和DeepSeek-R1证明了推理能力可以被训练和复现,这教会了整个行业一个关键认知:

要在语言模型上做强化学习,需要确定性强、可规模化的反馈信号。

2025年上半年开始,大家几乎都在研究同一件事:怎么让模型花更多推理时间、怎么训练更强的奖励、怎么控制推理的力度。

现在最关键的问题是,下一步是什么?

林俊旸的答案是Agentic Thinking,智能体式思维,在与环境的交互中不断修正计划。

他列出了Agentic Thinking和Reasoning Thinking的关键区别:

判断何时停止思考、开始行动。推理模型输出完答案就结束了,智能体要在思考和行动之间不断切换。选择调用哪个工具、以什么顺序。不是简单的function call,是动态规划问题。消化来自环境的噪声和部分观测。真实世界不会给你完美反馈。失败后修正计划,而不是推倒重来。跨越多轮对话和多次工具调用保持连贯。

他用一句话做出总结:

从“想更久”到“为了行动而想”。

在林俊旸看来,未来的竞争力不只来自更好的模型,还来自更好的环境设计、更强的harness工程、以及多个智能体之间的编排。

从训练模型,到训练智能体,再到训练系统。

(以下为林俊旸原文翻译。)

从“推理式思考”到“智能体式思考”

过去两年,重新定义了我们评估模型的方式和我们对模型的期待。

OpenAI的o1表明,“思考”可以成为一种一等公民级别的能力——一种你专门去训练、并向用户开放的能力。

DeepSeek-R1,证明了推理式后训练可以在原始实验室之外被复现和规模化。

OpenAI将o1描述为通过强化学习训练出“先想后答”能力的模型,DeepSeek则将R1定位为与o1具有竞争力的开源推理模型。



那个阶段很重要。

但2025年上半年,行业把大部分精力花在了推理式思考上:怎么让模型在推理时花更多算力,怎么用更强的奖励来训练,怎么暴露或控制这些额外的推理力度。

现在的问题是:下一步是什么?

我认为答案是智能体思考(agentic thinking)——为了行动而思考,在与环境的交互中思考,并根据来自真实世界的反馈持续更新计划。

1. o1和R1的崛起真正教会了我们什么

第一波推理模型教会了我们:

如果想在语言模型上规模化强化学习,我们需要确定性强、稳定且可扩展的反馈信号。

数学、代码、逻辑以及其他可验证领域变得至关重要,因为这些场景中的奖励信号远强于通用的偏好监督。

它们让RL能够针对正确性进行优化,而非仅追求“看起来合理”。基础设施变得至关重要。

一旦模型被训练出在更长轨迹上进行推理的能力,RL就不再是监督微调(SFT)的轻量附加模块,它变成了一个系统工程问题。

你需要大规模的轨迹采样(rollout)、高吞吐量的验证、稳定的策略更新、高效的采样。

推理模型的崛起,既是一个建模的故事,也同样是一个基础设施的故事。

OpenAI将o1描述为一条用RL训练的推理产品线,DeepSeek R1随后进一步验证了这个方向——它展示了基于推理的RL需要多么专门化的算法和基础设施工作。

第一次重大转变:从扩展预训练,到扩展面向推理的后训练。

2. 真正的问题从来不只是“合并思考和指令”

2025年初,千问团队中的我们很多人心中都有一幅宏大的蓝图。

理想的系统应当统一思考模式和指令模式。它应支持可调节的推理力度,类似低/中/高推理档位的设定。

更理想的状态是,它能从提示和上下文中自动推断合适的推理量——让模型自行决定何时直接回答、何时多想一会儿、何时在真正困难的问题上投入大量计算。

从概念上看,这个方向是对的。Qwen3是这个方向上最清晰的公开尝试之一。

它引入了“混合思维模式”,在一个模型家族中同时支持思考和非思考行为,强调可控的思维预算,并设计了一条四阶段后训练流水线——在长CoT冷启动和推理RL之后,明确包含了“思维模式融合”这一步。



但合并说起来容易做好难,真正的难点是数据。

人们谈到合并思考和指令时,往往首先想到的是模型侧的兼容性:一个checkpoint能不能同时支持两种模式,一个对话模板能不能在它们之间切换,一套推理服务架构能不能暴露正确的开关。

更深层的问题是,两种模式的数据分布和行为目标有本质差异。

在试图平衡模型合并与提升后训练数据的质量和多样性时,我们没有全做对。

在迭代过程中,我们也密切关注了用户实际使用思考和指令模式的方式。一个强指令模型通常因简洁直接、格式规范、低延迟而受到奖励——尤其是在改写、标注、模板化支持、结构化提取、运营QA等重复性高、批量大的企业任务上。

一个强思考模型则因在难题上花更多token、保持连贯的中间推理结构、探索替代路径、并保留足够的内部计算以切实提升最终正确率而受到奖励。

这两种行为模式互相拉扯。

如果合并数据未经精心策划,结果通常两边都做得平庸:“思考”行为变得嘈杂、臃肿或不够果断,“指令”行为则变得不够干脆、不够可靠,而且比商业用户实际需要的更贵。

在实践中,将两者分离仍然更有吸引力。

2025年下半年,在Qwen3最初的混合框架之后,2507版本发布了独立的Instruct和Thinking更新,包括分开的30B和235B版本。

在商业部署中,大量客户仍然需要高吞吐、低成本、高度可控的指令行为来进行批量操作。对这些场景来说,合并的好处并不明显。分离产品线让团队可以更专注地解决每种模式各自的数据和训练问题。

其他实验室选择了相反的路线。

Anthropic公开主张整合模型的理念:Claude 3.7 Sonnet作为混合推理模型推出,用户可以选择普通回复或扩展思考,API用户可以设置思维预算。Anthropic明确表示,他们认为推理应该是一种整合的能力,而非独立的模型。

GLM-4.5也公开将自身定位为同时具备思考和非思考模式的混合推理模型,统一了推理、编程和智能体能力。

DeepSeek后来也在V3.1的“Think & Non-Think”混合推理中走向了类似方向。

关键问题是,这种合并是否是有机的。

如果思考和指令只是被塞进同一个checkpoint,却仍然像两个别扭拼接的人格那样运作,产品体验仍然是不自然的。

真正成功的合并,需要的是一个流畅的推理力度连续光谱。模型应该能表达多个层级的推理力度,理想情况下还能自适应地做出选择。

GPT式的力度控制指向了这个方向:一种关于算力分配的策略,而非一个非此即彼的开关。

3. 为什么Anthropic的方向是一次有用的纠偏

Anthropic围绕Claude 3.7和Claude 4的公开表述是克制的。

他们强调整合推理、用户可控的思维预算、真实世界任务、编程质量,以及后来在扩展思考过程中使用工具的能力。Claude 3.7被呈现为一个具有可控预算的混合推理模型;Claude 4在此基础上更进一步,允许推理与工具使用交替进行,同时Anthropic将编程、长时间运行的任务和智能体工作流强调为首要目标。

产出更长的推理轨迹并不会自动让模型更聪明。

在很多情况下,过多的可见推理恰恰是算力分配低效的信号。如果模型试图用同样啰嗦的方式对所有事情进行推理,它可能是在失败地确定优先级、失败地压缩信息,或者失败地采取行动。

Anthropic的发展轨迹暗示了一种更有纪律的视角:思考应当由目标工作负载来塑造。

如果目标是编程,那么思考应当帮助代码库导航、规划、分解、错误恢复和工具编排。如果目标是智能体工作流,那么思考应当提升长周期内的执行质量,而非产出华丽的中间文字。

这种对目标化效用的强调,指向了更大的图景:

我们正在从训练模型的时代走向训练智能体的时代。

我们在Qwen3博客中明确写下了这一点——“我们正在从专注于训练模型的时代,走向以训练智能体为核心的时代”,并将未来的RL进展与面向长周期推理的环境反馈联系在一起。



一个智能体是一个能够制定计划、决定何时行动、使用工具、感知环境反馈、修正策略、并在长周期内持续运行的系统。它的定义特征是与世界的闭环交互。

4. “智能体式思考”到底意味着什么

智能体式思考是一个不同的优化目标。

推理式思考通常以最终答案之前的内部推理质量来衡量:模型能不能解出定理、写出证明、生成正确代码、通过基准测试。智能体式思考则关注的是:模型能不能在与环境交互的过程中持续取得进展。

核心问题从“模型能不能想得足够久?”转变为“模型能不能以一种维持有效行动的方式来思考?”智能体式思考必须处理几件纯推理模型大多可以回避的事:

决定何时停止思考、采取行动选择调用哪个工具、以什么顺序消化来自环境的噪声或部分观测失败后修正计划跨越多轮交互和多次工具调用保持连贯

智能体式思考,是通过行动来进行推理的模型。

5. 为什么智能体RL的基础设施更难

一旦优化目标从解决基准测试问题转向解决交互式任务,RL技术栈就要跟着变,经典推理RL的基础设施不够用了。

在推理RL中,你通常可以将采样轨迹视为基本自包含的序列,配以相对干净的评估器。

在智能体RL中,策略被嵌入到一个更大的编排框架(harness)中:工具服务器、浏览器、终端、搜索引擎、模拟器、执行沙箱、API层、记忆系统和调度框架。

环境不再是一个静态的验证器,它本身就是训练系统的一部分。

这带来了一个新的系统需求:训练和推理必须更彻底地解耦。

没有这种解耦,采样吞吐量就会崩溃。

想象一个编程智能体需要在实时测试框架上执行生成的代码:推理侧因等待执行反馈而停滞,训练侧因缺少已完成轨迹而“饥饿”,整个流水线的GPU利用率远低于你对经典推理RL的预期。

加上工具延迟、部分可观测性和有状态环境,这些低效会被进一步放大。结果就是,在你达到目标能力水平之前很久,实验就已经慢得令人痛苦了。

环境本身也变成了一等公民级别的研究对象。

在SFT时代,我们痴迷于数据多样性。在智能体时代,我们应该痴迷于环境质量:稳定性、真实性、覆盖度、难度、状态多样性、反馈丰富度、防作弊能力,以及轨迹生成的可扩展性。

构建环境已经开始变成一个真正的创业赛道,而非副业。如果智能体是为了在类生产环境中运行而训练的,那么环境就是核心能力栈的一部分。

6. 下一个前沿是更可用的思考

我的预期是,智能体式思考将成为主流的思维形式。

我认为它最终可能取代大部分旧式的“静态独白”推理式思考——那些过长的、孤立的内部推理轨迹,试图通过输出越来越多的文字来弥补缺乏交互的不足。

即使面对非常困难的数学或编程任务,一个真正先进的系统也应该有权去搜索、模拟、执行、检查、验证和修正。目标是稳健且高效地解决问题。

训练此类系统最大的挑战是reward hacking(奖励作弊)。

一旦模型获得了有意义的工具访问权限,reward hacking就变得危险得多。

一个能搜索的模型可能学会在RL训练中直接搜索答案。一个编程智能体可能利用代码仓库中的未来信息、滥用日志,或发现让任务失效的捷径。一个有隐藏泄漏的环境可能让策略看起来超越人类水平,实际上却是在训练它作弊。

这就是智能体时代变得比推理时代微妙得多的地方。

更好的工具让模型更有用,但也扩大了虚假优化的攻击面。

我们应该预期,下一批严肃的研究瓶颈将来自环境设计、评估器鲁棒性、防作弊协议,以及策略与世界之间更有原则的接口。尽管如此,方向是明确的。工具赋能的思维就是比孤立的思维更有用,也更有可能真正提升生产力。

智能体式思考还意味着编排工程(harness engineering)的兴起。核心智能将越来越多地来自多个智能体的组织方式:

一个负责规划和分发任务的编排者,多个像领域专家一样行动的专业智能体,以及执行更窄任务的子智能体——它们帮助控制上下文、避免信息污染、并维护不同层级推理之间的隔离。

未来的方向是:从训练模型到训练智能体,从训练智能体到训练系统。

结语

推理浪潮的第一阶段确立了一件重要的事:

当反馈信号可靠且基础设施能够支撑时,语言模型之上的RL可以产出质的飞跃式的认知能力。

更深层的转变是从推理式思考到智能体式思考:

从想得更久,到为了行动而想。训练的核心对象已经改变了——它变成了模型+环境的系统,或者更具体地说,是智能体和围绕它的编排框架。

这改变了哪些研究要素最重要:

模型架构和训练数据当然仍然重要,但环境设计、轨迹采样基础设施、评估器鲁棒性、以及多智能体之间的协调接口同样关键。

这也改变了“好的思考”的定义:

最有用的轨迹,是能在真实世界约束下维持有效行动的那个——而非最长或最醒目的那个。

这也改变了竞争优势的来源:

在推理时代,优势来自更好的RL算法、更强的反馈信号和更可扩展的训练流水线。

在智能体时代,优势将来自更好的环境、更紧密的训练-推理耦合、更强的编排工程,以及在模型的决策与这些决策产生的后果之间实现闭环的能力。

原文地址:
https://x.com/JustinLin610/status/2037116325210829168?s=20

来源:https://www.163.com/dy/article/KP1J3CBG0511DSSR.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

RMS-MoE模型通过检索记忆优化专家路由调度效率
AI
RMS-MoE模型通过检索记忆优化专家路由调度效率

随着大模型参数规模不断增长,混合专家(Mixture-of-Experts, MoE)架构因其稀疏激活特性,成为平衡模型性能与计算开销的主流方案。然而,在实际的Web级应用部署中,一个关键挑战日益凸显:传统MoE的路由机制通常是“无记忆”的。 试想,在搜索引擎、智能问答或多轮对话等高并发场景下,用户

热心网友
05.12
编程入门指南从零基础到理解核心概念
编程语言
编程入门指南从零基础到理解核心概念

编程十年的一点分享 在软件开发的路上走过十几年,从一个爱好者到以此为业,有些体会或许值得聊聊,就当是抛砖引玉吧。 最早接触编程,是从BASIC和C语言开始的。工作后,随着需要,陆续学习了dBase、Access这类桌面数据库的开发。真正以开发为职业,可以说始于FoxPro 5 0,之后技术栈随着项目

热心网友
05.07
编程初学者入门指南与核心思维解析
编程语言
编程初学者入门指南与核心思维解析

引言 编程,是一门实践科学。这意味着,学习它的最佳方式就是动手去敲代码。但这是否意味着,我们可以因此轻视理论的学习呢? 入门编程 如果你去各大技术社区提问“该如何入门编程”,五花八门的答案会瞬间涌来。 不过,仔细梳理一下,无外乎以下几种流派: 学院派 他们推荐从C语言入手,并辅以数据结构、操作系统等

热心网友
05.07
Agent 需要“油表”和“刹车”:一篇论文,扒光了 Agent 的“糊涂账”
科技数码
Agent 需要“油表”和“刹车”:一篇论文,扒光了 Agent 的“糊涂账”

想象一下这个场景: 你让 AI Agent 帮你修一个代码 Bug。它打开项目,读了 20 个文件,改了改,跑了一下测试,没过,又改,又跑,还是没过……来回折腾了十几轮,终于——还是没修好。 你关掉电脑,松了口气。然后收到了 API 账单。 上面的数字可能让你倒吸一口凉气——AI Agent 自主修

热心网友
05.06
OpenClaw人人养虾:接入Discord
AI
OpenClaw人人养虾:接入Discord

Discord接入:让OpenClaw成为你的社区智能管家 对于全球数亿的游戏玩家和社群爱好者来说,Discord几乎等同于线上“大本营”。那么,有没有可能让你精心搭建的Discord服务器也拥有一个聪明能干的AI助手呢?答案是完全可行。通过创建Discord Bot(机器人),你可以将OpenCl

热心网友
04.15

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

2026年以太坊交易所排名:成交活跃度如何影响交易决策
web3.0
2026年以太坊交易所排名:成交活跃度如何影响交易决策

以太坊网络交易活跃度是衡量其生态健康与市场流动性的关键指标。本文分析了影响ETH成交活跃度的核心因素,包括网络性能、Gas费用及用户行为。通过梳理当前主流交易平台的特点,展望了至2026年可能影响排名的技术趋势与市场格局,为参与者提供长期观察视角与决策参考。

热心网友
05.13
欧易OKX官网入口:虚拟币交易平台与APP下载安装教程
web3.0
欧易OKX官网入口:虚拟币交易平台与APP下载安装教程

欧易OKX是全球知名数字资产交易平台,提供现货、合约等多种交易模式及理财服务。用户可通过官方网站或官方应用商店下载正版App,确保访问安全。注册需完成手机或邮箱验证及身份认证。平台功能包括多元交易、专业行情工具、多重安全验证及跨平台数据同步,保障用户资产安全与操作便捷。

热心网友
05.13
2026年十大安全加密货币交易所排名与正规平台推荐
web3.0
2026年十大安全加密货币交易所排名与正规平台推荐

选择可靠平台是加密货币投资的关键。币安交易量领先,OKX衍生品突出,Gate io资产丰富。火币在亚洲市场稳定,Coinbase以合规安全著称。Bybit专注衍生品,Bitget提供复制交易功能。KuCoin资产种类多,Kraken安全体系完善,MEXC支持资产超2000种。各平台特色不同,需根据自身需求综合选择。

热心网友
05.13
2026年交易所实力排名:深度解析BTC现货市场与平台竞争力
web3.0
2026年交易所实力排名:深度解析BTC现货市场与平台竞争力

本文从BTC现货深度这一核心指标出发,探讨其对衡量交易平台综合实力的重要性。通过分析深度数据的构成与意义,并结合市场流动性、用户信任与平台生态等维度,对2026年主流数字资产交易所的潜在格局进行展望。深度不仅是交易体验的保障,更是平台技术、风控与长期运营能力的集中体现,是投资者选择平台时不可忽视的关键参考。

热心网友
05.13
火币HTX官网下载与苹果版安装教程 最新交易入口指南
web3.0
火币HTX官网下载与苹果版安装教程 最新交易入口指南

火币HTX全球站提供官方网址入口及安卓与iOS客户端安装指引。安卓用户需从官网下载安装包,并在系统设置中允许安装。iOS用户可直接通过AppStore下载安装。应用安装后需注册账户并完成邮箱验证,之后即可登录进行数字货币交易。

热心网友
05.13