游乐游手机版
首页/AI热点日报/热点详情

o1 pro思考过程技术分析(第二篇)

类型:热点整理2026-06-29
**贤言碎语**:关于o1 pro的思考过程,这篇技术分析可以说是“没有之一”的存在。核心看点有三:多路推理的判定依据、实验设计思路、以及结果对比分析。 先给几个核心判断: o1 pro大概率采用了多路推理机制,而不是像o1那样仅靠单路推理加反思判断是否终止。 其进度条显示的内容,很可能只是其中某一

**贤言碎语**:关于o1 pro的思考过程,这篇技术分析可以说是“没有之一”的存在。核心看点有三:多路推理的判定依据、实验设计思路、以及结果对比分析。

对o1 pro思考过程的技术分析(2)


先给几个核心判断:

  • o1 pro大概率采用了多路推理机制,而不是像o1那样仅靠单路推理加反思判断是否终止。

  • 其进度条显示的内容,很可能只是其中某一路的推理过程。

  • 无论是o1还是o1 pro,其推理阶段内部应该还保留着类似message的step设计,进度条上每一条目的划分就对应这些步骤。

这些判断,是延续上一轮分析的结果。

1、多路推理

在第一轮分析中,我们得出的结论是:o1 pro在生成完答案之后,背后仍有一个额外环节对答案进行评判。但这个环节到底是单路推理后的“自我反思”,还是等待多路推理结果后进行择优,当时还无法定论。

这次,我们借助国内一些逆向API进行了测试。从结果来看,o1 pro大概率采用了多路推理。原本想等到官方o1 pro API发布后再验证,但现在看来遥遥无期——说不定会直接跳到o3系列。因此只能先用逆向方案来做实验。

当然,这类实验注定存在不少干扰因素:逆向供应商会不会造假?所用账号有没有被降智?供应商返回流式结果是否足够及时?从手头数据来看,这些风险基本可控,但也谈不上百分百排除。

1.1、实验方式及结果

上一轮分析提到:o1 pro的最终答案是一次性输出的,其生成过程应该发生在思考进度条最后一项之后的那个长时间等待区间里。所以一个自然的思路是——如果等待时间与答案的token数存在明显线性关系,那就倾向于单路推理;反之,如果是多路推理,等待时间跟最终输出长度关系不大,更多取决于最慢的那路推理以及当前展示路径之间的长度差。

实验具体是这样做的:准备5个不同的prompt,每个重复请求10次,统计最后一段等待时间与最终输出字数(token数)之间的关系。o1 pro的结果如下:

作为对比,请求o1逆向API的结果如下:

(o1的响应时间以流式返回中“回答阶段”的时间为准,排除前面的思考时间。)

对比两张图可以发现几个有意思的点:

  • o1的结果虽然受到其他因素干扰,但总体仍呈线性趋势。

  • o1 pro的结果则几乎看不出线性关系。

  • 对于同一个prompt,o1 pro的输出长度比o1更集中、波动更小。

  • o1 pro最后一个阶段的耗时大多集中在1-2分钟之间,和回答长度几乎无关;但跟总的reasoning token数似乎关系更大——比如case5的思考过程很长,推理token数多,最终等待时间也偏长。

1.2、结果分析

o1 pro的等待时间与输出长度线性关系极弱,这指向两种可能:要么是多路推理,要么是单路推理后附加了一个耗时波动很大的验证过程。但常见的验证方法(比如简单重算、一致性检验)耗时通常比较稳定,波动不会这么大。所以单路+验证的可能性很小,更大概率是多路推理。

另外,o1 pro的输出长度更加一致,这正好是多路采样后做排序或归并时才会出现的现象——原始采样的波动性被“磨平”了。就像多个样本取平均或投票后,最终的输出长度自然更稳定。

所以目前的判断是:o1 pro采用了多路并行推理,然后在各路结果全部完成后,用一个独立的环节从多个候选结果中选出最优的那个返回。这个择优环节本身耗时也不短。

有兴趣的读者可以继续测试更多数据,分析需要多少次采样才能达到这种波动性降低的效果,从而反向推断o1 pro内部的采样次数。

1.3、其他佐证信息

从实际使用体验来看,在ChatGPT Web版上,一次o1 pro请求对PoW(工作量证明)难度的提升,会明显高于一次o1请求。这从侧面说明,在OpenAI眼中,o1 pro一次请求的成本明显高于o1。如果只是单路推理加反思检查,成本差异不会那么大。

SemiAnalysis之前的分析也认为o1 pro用了多路推理,但他们倾向于最后的择优方式是Self-Consistency(自洽性)或Majority Vote(多数投票)。但我们得承认,目前没有低成本的方法对输出结果做语义一致性检查,还是需要借助LLM来对比。而除了Majority Vote,也可以直接通过指令让LLM逐一分析每个输出是否符合原始prompt的要求,选出最匹配的那个。到底是哪种方式,现在还说不好。不过这部分或许可以从o1和o1 pro在结果长度分布上的差异来推测。

A、结语

原本以为多路推理加归并这种路线是o3的专属,但现在看来,o1 pro已经在用了。这样一来,o3系列到底改进了什么,反倒让人有些困惑。Altman最近在twitter上还提到,o3也会有Pro版本,所以o3的改进很可能和多路归并本身是两条独立的技术路线。当然,多路归并也可以和树形搜索等更复杂的方式结合——只是这就很难分析了,只能等o3正式发布再看了。

来源:https://www.53ai.com/news/finetuning/2025012045289.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。