o1模型技术分析重制版深度解析及原理应用_AI热点日报

o1模型技术分析重制版深度解析及原理应用

类型：热点整理2026-07-02

o1模型的核心创新在后训练阶段，针对部分场景设计精密奖励函数进行强化学习，推理采用单一路径内部思考后输出答案，能力可泛化至其他领域。回答格式为“思考”+“回答”两段式，预埋步骤结束token用于分段摘要。MCTS和PRM并非核心，训练为在线RL。o1promode采用多路采样选答案。o3成本随复杂度快速增加，细节未知。

好的，作为一名在AI技术领域深耕多年的资深分析师，这次我想为这篇关于o1模型的技术拆解，注入一些更贴近真实观察的“人味儿”。关于o1模型的技术分析，最近圈内的讨论热度确实有所下降。但细究起来，很多朋友可能至今仍没完全搞清楚它的核心优势到底在哪里。趁着翻看旧文，我发现之前自己做的技术拆解有不少地方判断有误。正好，结合这几个月来逐渐公开的新信息，我重新梳理了一版分析，希望能成为一个经得起时间考验的长期留存版本。先来复盘一下，当初的分析为什么会出现偏差。主要有三个因素干扰了判断：第一，当时技术社区里流传着一份关于“LLM RL范式”的报告。现在回顾，报告中对强化学习（RL）部分的判断是准确的，但其他内容则不够可靠。尤其是被很多人看好的MCTS（蒙特卡洛树搜索）和PRM（过程奖励模型），现在看来，其实都不是o1的核心。第二，谷歌的AlphaProof横空出世，它那种用MCTS解数学题的方式，恰好与我们当时对数学推理数据的想象高度吻合。只能说，时机太巧合了。第三，o1模型本身在思考过程中展现出的“分段输出摘要”特性，也引导大家往“分段推理”的方向去猜测。所以，之前基于这些线索做出的推演，自然就偏离了实际方向。接下来，我们直接进入正题，聊聊目前我认为最有可能的o1技术方案。 **对o1模型方案的最新猜测** 我的所有猜测都基于一个核心假设：**在众多可能性中，最容易被实现、并且能稳定复现效果的那个方案，就是最接近真相的方案。** 从这个角度看，o1的核心创新其实集中在**后训练阶段（post-training）**。它主要针对数学等部分特定场景，设计了精密的奖励函数，然后进行强化学习训练。如果你觉得这不太好想象，可以参考DeepSeek R1和R1-Zero的训练过程。o1不一定采用了GRPO（一种策略优化算法），但思路和逻辑大概率是类似的。在推理阶段，也是先进行一段内部思考，再给出最终答案，属于单一路径的推理，而非多路并行。若想查看具体的推理过程，直接参考R1的表现即可。一个很关键的现象是：尽管只在部分场景上做了针对奖励函数的RL训练，但这个能力却可以**泛化**到其他领域。这个特性在DeepSeek R1上也能观察到，说明这是此类训练范式的共性。在回答格式上，基本可以确定是类似R1的“思考”+“回答”两段式结构。不过，这里有一个我之前没猜到的细节：**在生成的格式里，大概率还预埋了一个粗粒度的“步骤结束”特殊token，或者说分节标记。** 这个token目前的主要作用，是在流式输出思考过程时，每个步骤一结束就触发一次动作，把当前的思考内容总结并“翻译”成用户使用的语言。这样就实现了我们看到的那种“分段思考摘要”。在缺乏好的RPM（奖励预测模型）的情况下，这个token似乎没有其他关键用途。这个负责生成摘要的旁路模型本身不算太大，而且偶尔还有些小bug，这也侧面印证了它并非核心模块。除此之外，应该没有其他复杂的旁路了。推理模型本身的对齐和对抗奖励黑客（Reward Hacking）的能力，本身就比之前的传统模型强得多。所以，开篇提到的MCTS和PRM，基本可以排除在核心方案之外了。整个训练过程也大概率是**在线RL**的方式，在训练中实时地合成数据并训练。那些获得高奖励的推理轨迹（trace）会被存下来，与其他任务的数据混合，用在下一轮训练里。至于是否掺了AlphaProof这类方式合成的数据，只能说并非必须。最后，关于`reasoning_effort`参数的实现方式，我目前比较倾向于两种推测：**一种比较简单直接，就是降低“思考结束”这个token的出现概率，迫使模型产出更长的思考内容；另一种则是在RL训练时，针对不同长度的推理轨迹设置不同的长度惩罚，并在回答开头加入不同effort等级的标签，推理时通过指定标签来控制其思考深度。** **对o1 pro mode的猜测** 从API的token生成速度和耗时来看，o1模型的耗时与总生成token量是**线性关系**。但o1 pro mode的表现完全不同，没有这种线性关系。再结合pro mode不能流式输出结果这个特点，几乎可以断定，它是一种**多路采样再选答案**的方案。具体是用了Self-Consistency（自洽性）还是Best-of-N（从N个候选中选最优），目前无法确定，但方向肯定是这两个之一。 **关于o3** 目前OpenAI没有发布独立o3模型的计划。已经开放的o3-mini，成本与o1-mini持平，推测也采用了类似的技术路线。我们对o3成本的认知，主要来自之前ARC-AGI测试发布的那张图。从图上看，o3成本的增加速度非常快，这感觉不太像是单路推理能达到的。至于具体细节，信息太少，很难再往下推测了。

来源：https://www.53ai.com/news/finetuning/2025030542638.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。

o1模型技术分析重制版深度解析及原理应用

相关热点

延伸阅读