通过OpenAI最近这12天的发布会,可以清晰地看到他们在技术路线上的重心转移。一头一尾,o1和o3两代推理模型前后亮相,这说明o系列在内部的战略地位已经相当明确。虽然GPT系列还在默默训练,但至少在当下,它的优先级已经不像o系列那么高了。

先说几个核心判断。
我们都知道,Ilya Sutskever是GPT系列研发的主导者。但很多人可能不知道,他也是AlphaGo论文的合作者——而且是DeepMind团队之外唯一的合作者。在o1发布的官方博客中,即便他已经从OpenAI离职,依然被列为最核心的贡献者之一。
这种关联绝非偶然。正是AlphaGo的成功经验,让Ilya在创业早期就把强化学习和无监督学习,确立为OpenAI的两条技术主线。他对于强化学习的推崇,在2018年MIT的演讲中就已经表露得很彻底了。
如果把这两条线对号入座:无监督学习对应GPT系列,那么强化学习对应的就是o系列。有理由相信,Ilya是把AlphaGo的技术思想直接迁移到了o系列的研发中。
那么,Alpha系列和o系列到底是怎么联系起来的?
o3可能的技术实现
AlphaGo的训练分成两个阶段:先基于人类数据进行模仿学习,再通过强化学习来优化策略函数和估值函数;测试阶段则使用蒙特卡洛树搜索(MCTS)。
这个框架映射到今天的大模型训练,大致是这样对应的:模仿学习和强化学习,约等于大模型的预训练和后训练;而MCTS,则对应了大模型推断时的推理过程。
顺着这条对应关系,我们可以从AlphaGo后续的进化中,看到一些对大模型未来发展的重要启示。
先从AlphaGo到AlphaGo Zero说起。一个广为流传的变化,是去掉了第一阶段的模仿学习,直接从强化学习起步。这就像今天行业中越来越重视后训练的趋势。当然,我们目前还做不到完全不依赖互联网数据做冷启动,但这个方向已经很明确了。
不过AlphaGo Zero还有一个不那么高调的变化:它把MCTS从推断阶段移到了训练阶段。思路很简单——在训练时通过树搜索把模型能力提到足够高,到了真正上场推断时,就不再需要搜索了。这其实就是“台上十分钟,台下十年功”的翻版。
这个思路对应的,正是今天大模型推理能力的变化。在o1之前,所谓的“Agent”其实都是靠人工设计的CoT工作流,或者用ToT(思维树)这类机制强行让模型在推断时“被迫”做推理。
而现在普遍认为,o1的多步推理完全是模型内部行为,不需要外部提示词的介入。因为ToT、MCTS这些工作,在训练阶段就已经被模型内化成了一种能力。就像AlphaGo Zero那样,推理成了模型“自愿”的行为。
那么问题来了:能不能在训练和推断阶段都做树搜索?AlphaGo Zero已经证明了这是可行的,而且效果极佳。只是对于已经天下无敌的它来说,没必要这么折腾——“不为也,非不能也”。
但大模型的推理能力显然远没到天花板。所以o3最直接的提升路径,就是在标准o1的基础上,在推断阶段也加入搜索。Arc Prize论文中的o3高配版和低配版,本质上对应就是推断时搜索复杂度的不同。
除了推断阶段的确定性提升,o3在训练阶段可能的突破点有两个:一是在o1的基础上通过SelfPlay持续自我进化,这和GPT系列靠堆数据量和模型规模的路数是一致的,只不过o系列的数据来自SelfPlay加强化学习的合成数据。二是不排除o3同时站在了GPT系列的肩膀上,比如说GPT-4o加上o1构成了通往o3的基础。在强化微调的实验中,我们已经发现GPT-4o的通用知识,对于策略行为和奖励函数的泛化,确实有正向帮助。
挑战一:环境状态预测 → 世界模型编码
从目前的演示来看,o3仍然把火力集中在数学和编程这类问题上。但要走向真正的通用,就必须解决更广泛的任务泛化问题。
回头看看DeepMind Alpha系列的发展路径,能找到一些线索。从AlphaGo Zero到AlphaZero,去掉了“Go”的限定,就能处理多个棋类游戏。再到MuZero,从“Alpha”直接跳到了“Mu”,能同时玩57款Atari游戏。
MuZero处理的电子游戏任务,包含远比棋盘复杂的游戏场景。Alpha系列在用树搜索规划路径时,需要预测环境的下一个状态:给定当前状态和候选行为,输出可能会发生什么。这在强化学习中通常需要一个世界模型来提供一个状态转移概率。
棋类游戏的状态转移概率是游戏规则写死的——你下完一步,棋盘变成什么样是确定的。但电子游戏就不一样了,它没法用规则完全描述。
如果把o系列用到类似Computer Use这样的复杂环境任务,就会遇到同样的问题:路径规划需要状态预测,而要跟真实环境不停地交互来更新状态,成本太高了。所以必须编码一个世界模型,用它来做状态预测。
但问题是,给环境学一个完美的世界模型,太难了。最近那些交互式生成内容的工作,无论是Genie-2还是Genesis,建模的都是相对连续的状态空间,和手机操作这类离散、高维的环境差得挺远。
好在不一定非得完美才行。因为真正在意的,只是那些对决策有影响的环境状态。MuZero给出的解法是同时学习世界模型和策略模型,而且为了提高效率,不一定要把状态显式映射回电子游戏画面,在特征空间里表示就足够了。
挑战二:奖励函数适配 → 强化微调?
强化微调是目前解决领域任务泛化的一个思路,但它绕不开两个核心问题:奖励函数和行为空间的适配。
先看AlphaZero和MuZero是怎么处理的。
首先是行为空间。棋类和电子游戏的行为空间都是离散且有限的——比如“向左”“向右”“跳跃”“发射子弹”,这些基础操作在不同游戏之间有很强的共通性,只需要在具体任务中稍加微调和适应。
奖励函数也相对纯粹。游戏的结果就是输赢,非常明确。过程奖励方面,行为空间相对确定的任务也有一定统一性:棋类游戏里吃子、占关键位置,Atari游戏里收集道具、躲避危险,都值得奖励。
但对于大语言模型来说,情况就复杂了。它的行为是生成一串token,行为空间是高维且连续的。光确定不同任务之间行为的粒度,就已经是个不小的挑战。当然可以选择固定每次行为的token数量,但这显然有限制,天花板不高。
奖励函数就更麻烦了。数学、编程这类有确定答案的判别式问题还好办,但文本生成、翻译、问答这类任务,结果好不好本身就是主观判断。更别提过程奖励了——文本生成里要奖励语法正确、逻辑连贯、有创意,问答则更看重准确检索和给出正确答案;而且就算同样是文本生成,不同领域要求的风格和格式也完全不同。
从这个角度看,Alpha系列似乎没法直接给出参考。但换个角度想,Alpha系列本来就是为特定任务而设计的。而大语言模型之所以在“系统一”层面相对通用,很大程度上是因为语言本身就是一个通用的接口,可以连接各种不同的任务。
所以,当o系列模型的能力足够强大时,它是否能够自行判断应该使用什么样的行为空间,并且自己调整所需的过程奖励和结果奖励函数?这个问题,可能是决定o系列能否真正走向通用的关键。
