从DeepMind Alpha系列核心技术全面深度分析OpenAI o3突破与创新_AI热点日报

从DeepMind Alpha系列核心技术全面深度分析OpenAI o3突破与创新

类型：热点整理2026-06-30

通过OpenAI最近这12天的发布会，可以清晰地看到他们在技术路线上的重心转移。一头一尾，o1和o3两代推理模型前后亮相，这说明o系列在内部的战略地位已经相当明确。虽然GPT系列还在默默训练，但至少在当下，它的优先级已经不像o系列那么高了。先说几个核心判断。我们都知道，Ilya Sutskeve

通过OpenAI最近这12天的发布会，可以清晰地看到他们在技术路线上的重心转移。一头一尾，o1和o3两代推理模型前后亮相，这说明o系列在内部的战略地位已经相当明确。虽然GPT系列还在默默训练，但至少在当下，它的优先级已经不像o系列那么高了。

o3技术分析：从DeepMind的Alpha系列看OpenAI的o系列

先说几个核心判断。

我们都知道，Ilya Sutskever是GPT系列研发的主导者。但很多人可能不知道，他也是AlphaGo论文的合作者——而且是DeepMind团队之外唯一的合作者。在o1发布的官方博客中，即便他已经从OpenAI离职，依然被列为最核心的贡献者之一。

这种关联绝非偶然。正是AlphaGo的成功经验，让Ilya在创业早期就把强化学习和无监督学习，确立为OpenAI的两条技术主线。他对于强化学习的推崇，在2018年MIT的演讲中就已经表露得很彻底了。

如果把这两条线对号入座：无监督学习对应GPT系列，那么强化学习对应的就是o系列。有理由相信，Ilya是把AlphaGo的技术思想直接迁移到了o系列的研发中。

那么，Alpha系列和o系列到底是怎么联系起来的？

o3可能的技术实现

AlphaGo的训练分成两个阶段：先基于人类数据进行模仿学习，再通过强化学习来优化策略函数和估值函数；测试阶段则使用蒙特卡洛树搜索（MCTS）。

这个框架映射到今天的大模型训练，大致是这样对应的：模仿学习和强化学习，约等于大模型的预训练和后训练；而MCTS，则对应了大模型推断时的推理过程。

顺着这条对应关系，我们可以从AlphaGo后续的进化中，看到一些对大模型未来发展的重要启示。

先从AlphaGo到AlphaGo Zero说起。一个广为流传的变化，是去掉了第一阶段的模仿学习，直接从强化学习起步。这就像今天行业中越来越重视后训练的趋势。当然，我们目前还做不到完全不依赖互联网数据做冷启动，但这个方向已经很明确了。

不过AlphaGo Zero还有一个不那么高调的变化：它把MCTS从推断阶段移到了训练阶段。思路很简单——在训练时通过树搜索把模型能力提到足够高，到了真正上场推断时，就不再需要搜索了。这其实就是“台上十分钟，台下十年功”的翻版。

这个思路对应的，正是今天大模型推理能力的变化。在o1之前，所谓的“Agent”其实都是靠人工设计的CoT工作流，或者用ToT（思维树）这类机制强行让模型在推断时“被迫”做推理。

而现在普遍认为，o1的多步推理完全是模型内部行为，不需要外部提示词的介入。因为ToT、MCTS这些工作，在训练阶段就已经被模型内化成了一种能力。就像AlphaGo Zero那样，推理成了模型“自愿”的行为。

那么问题来了：能不能在训练和推断阶段都做树搜索？AlphaGo Zero已经证明了这是可行的，而且效果极佳。只是对于已经天下无敌的它来说，没必要这么折腾——“不为也，非不能也”。

但大模型的推理能力显然远没到天花板。所以o3最直接的提升路径，就是在标准o1的基础上，在推断阶段也加入搜索。Arc Prize论文中的o3高配版和低配版，本质上对应就是推断时搜索复杂度的不同。

除了推断阶段的确定性提升，o3在训练阶段可能的突破点有两个：一是在o1的基础上通过SelfPlay持续自我进化，这和GPT系列靠堆数据量和模型规模的路数是一致的，只不过o系列的数据来自SelfPlay加强化学习的合成数据。二是不排除o3同时站在了GPT系列的肩膀上，比如说GPT-4o加上o1构成了通往o3的基础。在强化微调的实验中，我们已经发现GPT-4o的通用知识，对于策略行为和奖励函数的泛化，确实有正向帮助。

挑战一：环境状态预测 → 世界模型编码

从目前的演示来看，o3仍然把火力集中在数学和编程这类问题上。但要走向真正的通用，就必须解决更广泛的任务泛化问题。

回头看看DeepMind Alpha系列的发展路径，能找到一些线索。从AlphaGo Zero到AlphaZero，去掉了“Go”的限定，就能处理多个棋类游戏。再到MuZero，从“Alpha”直接跳到了“Mu”，能同时玩57款Atari游戏。

MuZero处理的电子游戏任务，包含远比棋盘复杂的游戏场景。Alpha系列在用树搜索规划路径时，需要预测环境的下一个状态：给定当前状态和候选行为，输出可能会发生什么。这在强化学习中通常需要一个世界模型来提供一个状态转移概率。

棋类游戏的状态转移概率是游戏规则写死的——你下完一步，棋盘变成什么样是确定的。但电子游戏就不一样了，它没法用规则完全描述。

如果把o系列用到类似Computer Use这样的复杂环境任务，就会遇到同样的问题：路径规划需要状态预测，而要跟真实环境不停地交互来更新状态，成本太高了。所以必须编码一个世界模型，用它来做状态预测。

但问题是，给环境学一个完美的世界模型，太难了。最近那些交互式生成内容的工作，无论是Genie-2还是Genesis，建模的都是相对连续的状态空间，和手机操作这类离散、高维的环境差得挺远。

好在不一定非得完美才行。因为真正在意的，只是那些对决策有影响的环境状态。MuZero给出的解法是同时学习世界模型和策略模型，而且为了提高效率，不一定要把状态显式映射回电子游戏画面，在特征空间里表示就足够了。

挑战二：奖励函数适配 → 强化微调？

强化微调是目前解决领域任务泛化的一个思路，但它绕不开两个核心问题：奖励函数和行为空间的适配。

先看AlphaZero和MuZero是怎么处理的。

首先是行为空间。棋类和电子游戏的行为空间都是离散且有限的——比如“向左”“向右”“跳跃”“发射子弹”，这些基础操作在不同游戏之间有很强的共通性，只需要在具体任务中稍加微调和适应。

奖励函数也相对纯粹。游戏的结果就是输赢，非常明确。过程奖励方面，行为空间相对确定的任务也有一定统一性：棋类游戏里吃子、占关键位置，Atari游戏里收集道具、躲避危险，都值得奖励。

但对于大语言模型来说，情况就复杂了。它的行为是生成一串token，行为空间是高维且连续的。光确定不同任务之间行为的粒度，就已经是个不小的挑战。当然可以选择固定每次行为的token数量，但这显然有限制，天花板不高。

奖励函数就更麻烦了。数学、编程这类有确定答案的判别式问题还好办，但文本生成、翻译、问答这类任务，结果好不好本身就是主观判断。更别提过程奖励了——文本生成里要奖励语法正确、逻辑连贯、有创意，问答则更看重准确检索和给出正确答案；而且就算同样是文本生成，不同领域要求的风格和格式也完全不同。

从这个角度看，Alpha系列似乎没法直接给出参考。但换个角度想，Alpha系列本来就是为特定任务而设计的。而大语言模型之所以在“系统一”层面相对通用，很大程度上是因为语言本身就是一个通用的接口，可以连接各种不同的任务。

所以，当o系列模型的能力足够强大时，它是否能够自行判断应该使用什么样的行为空间，并且自己调整所需的过程奖励和结果奖励函数？这个问题，可能是决定o系列能否真正走向通用的关键。

来源：https://www.53ai.com/news/LargeLanguageModel/2025021567801.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。