o1模型技术分析重制版深度解析及原理应用
o1模型的核心创新在后训练阶段,针对部分场景设计精密奖励函数进行强化学习,推理采用单一路径内部思考后输出答案,能力可泛化至其他领域。回答格式为“思考”+“回答”两段式,预埋步骤结束token用于分段摘要。MCTS和PRM并非核心,训练为在线RL。o1promode采用多路采样选答案。o3成本随复杂度快速增加,细节未知。
好的,作为一名在AI技术领域深耕多年的资深分析师,这次我想为这篇关于o1模型的技术拆解,注入一些更贴近真实观察的“人味儿”。
关于o1模型的技术分析,最近圈内的讨论热度确实有所下降。但细究起来,很多朋友可能至今仍没完全搞清楚它的核心优势到底在哪里。趁着翻看旧文,我发现之前自己做的技术拆解有不少地方判断有误。正好,结合这几个月来逐渐公开的新信息,我重新梳理了一版分析,希望能成为一个经得起时间考验的长期留存版本。
先来复盘一下,当初的分析为什么会出现偏差。主要有三个因素干扰了判断:
第一,当时技术社区里流传着一份关于“LLM RL范式”的报告。现在回顾,报告中对强化学习(RL)部分的判断是准确的,但其他内容则不够可靠。尤其是被很多人看好的MCTS(蒙特卡洛树搜索)和PRM(过程奖励模型),现在看来,其实都不是o1的核心。
第二,谷歌的AlphaProof横空出世,它那种用MCTS解数学题的方式,恰好与我们当时对数学推理数据的想象高度吻合。只能说,时机太巧合了。
第三,o1模型本身在思考过程中展现出的“分段输出摘要”特性,也引导大家往“分段推理”的方向去猜测。
所以,之前基于这些线索做出的推演,自然就偏离了实际方向。
接下来,我们直接进入正题,聊聊目前我认为最有可能的o1技术方案。
**对o1模型方案的最新猜测**
我的所有猜测都基于一个核心假设:**在众多可能性中,最容易被实现、并且能稳定复现效果的那个方案,就是最接近真相的方案。**
从这个角度看,o1的核心创新其实集中在**后训练阶段(post-training)**。它主要针对数学等部分特定场景,设计了精密的奖励函数,然后进行强化学习训练。
如果你觉得这不太好想象,可以参考DeepSeek R1和R1-Zero的训练过程。o1不一定采用了GRPO(一种策略优化算法),但思路和逻辑大概率是类似的。在推理阶段,也是先进行一段内部思考,再给出最终答案,属于单一路径的推理,而非多路并行。若想查看具体的推理过程,直接参考R1的表现即可。
一个很关键的现象是:尽管只在部分场景上做了针对奖励函数的RL训练,但这个能力却可以**泛化**到其他领域。这个特性在DeepSeek R1上也能观察到,说明这是此类训练范式的共性。
在回答格式上,基本可以确定是类似R1的“思考”+“回答”两段式结构。
不过,这里有一个我之前没猜到的细节:**在生成的格式里,大概率还预埋了一个粗粒度的“步骤结束”特殊token,或者说分节标记。**
这个token目前的主要作用,是在流式输出思考过程时,每个步骤一结束就触发一次动作,把当前的思考内容总结并“翻译”成用户使用的语言。这样就实现了我们看到的那种“分段思考摘要”。在缺乏好的RPM(奖励预测模型)的情况下,这个token似乎没有其他关键用途。
这个负责生成摘要的旁路模型本身不算太大,而且偶尔还有些小bug,这也侧面印证了它并非核心模块。
除此之外,应该没有其他复杂的旁路了。推理模型本身的对齐和对抗奖励黑客(Reward Hacking)的能力,本身就比之前的传统模型强得多。
所以,开篇提到的MCTS和PRM,基本可以排除在核心方案之外了。整个训练过程也大概率是**在线RL**的方式,在训练中实时地合成数据并训练。那些获得高奖励的推理轨迹(trace)会被存下来,与其他任务的数据混合,用在下一轮训练里。至于是否掺了AlphaProof这类方式合成的数据,只能说并非必须。
最后,关于`reasoning_effort`参数的实现方式,我目前比较倾向于两种推测:**一种比较简单直接,就是降低“思考结束”这个token的出现概率,迫使模型产出更长的思考内容;另一种则是在RL训练时,针对不同长度的推理轨迹设置不同的长度惩罚,并在回答开头加入不同effort等级的标签,推理时通过指定标签来控制其思考深度。**
**对o1 pro mode的猜测**
从API的token生成速度和耗时来看,o1模型的耗时与总生成token量是**线性关系**。但o1 pro mode的表现完全不同,没有这种线性关系。
再结合pro mode不能流式输出结果这个特点,几乎可以断定,它是一种**多路采样再选答案**的方案。具体是用了Self-Consistency(自洽性)还是Best-of-N(从N个候选中选最优),目前无法确定,但方向肯定是这两个之一。
**关于o3**
目前OpenAI没有发布独立o3模型的计划。已经开放的o3-mini,成本与o1-mini持平,推测也采用了类似的技术路线。
我们对o3成本的认知,主要来自之前ARC-AGI测试发布的那张图。从图上看,o3成本的增加速度非常快,这感觉不太像是单路推理能达到的。至于具体细节,信息太少,很难再往下推测了。
来源:https://www.53ai.com/news/finetuning/2025030542638.html
相关热点
继续查看同栏目近期热点。
延伸阅读
补充最近整理过的热点入口。
