o1模型在ARC挑战赛的全面评测与表现分析_AI热点日报

o1模型在ARC挑战赛的全面评测与表现分析

类型：热点整理2026-05-30

```html 资料来源：OpenAI o1 在 ARC-AGI-Pub 上的表现（arcprize org）在过去的24小时里，我们获得了OpenAI最新发布的o1-preview和o1-mini的使用权限。这两款模型的主打特色是“模拟推理”，即在给出最终答案前，它们会花费更多时间，生成并优化自

```html

资料来源：OpenAI o1 在 ARC-AGI-Pub 上的表现（arcprize.org）

o1模型在ARC挑战赛的评测与分析

在过去的24小时里，我们获得了OpenAI最新发布的o1-preview和o1-mini的使用权限。这两款模型的主打特色是“模拟推理”，即在给出最终答案前，它们会花费更多时间，生成并优化自身的推理链条。

许多朋友关心：o1在ARC Prize上究竟达到了什么水平？我们使用了与评估Claude 3.5 Sonnet、GPT-4o、Gemini 1.5完全一致的基准框架，对其进行了测试。结果如下：

那么，一个核心问题随之而来：o1是否代表着通往通用人工智能（AGI）的全新范式？它的能力能否通过堆叠算力持续扩展？为什么o1在IOI、AIME等高难度测试中表现惊艳，而在ARC-AGI上仅获得中等成绩？这其中的差距，值得深入剖析。

链式思考（Chain-of-Thought）

o1在训练和推理两个阶段，都彻底采用了“逐步推理”的方式——也就是我们所说的链式思考（CoT）技术。

实际运行后发现，当任务中的中间推理步骤已大规模出现在合成CoT训练数据中时，o1出错的概率显著降低。在训练阶段，OpenAI表示他们开发了一套全新的强化学习算法，配合高效的数据处理流程，核心正是利用CoT。换句话说，o1的底层依然是那组固定的预训练数据，但OpenAI能够通过生成大量模拟人类推理的合成CoT，再利用强化学习对模型进行持续训练。

然而，有一个谜团尚未解开：OpenAI是如何筛选这些用于训练的合成CoT的？虽然细节有限，但可以推测，强化学习的奖励信号可能来自两个方向：在数学和代码这类形式化领域，依靠验证器；在任务分解与规划这类非形式化领域，则依靠人工标注。推理阶段，OpenAI声称他们通过强化学习让o1能够优化自身的CoT并调整策略。推测这里的奖励信号，可能与之前开源的actor-critic系统类似。同时，他们在推理过程中还对生成的推理标记采用了搜索或回溯技术。

测试时计算（Test-Time Compute）

o1最突出的亮点在哪里？它成功地将CoT推理搜索这种策略，扩展到了非形式化语言（例如日常对话）的领域，而不再局限于数学、代码、Lean这类形式化场景。

在训练阶段使用CoT进行扩展当然值得肯定，但真正的亮点在于测试阶段的扩展能力。可以确定的是，通过迭代的CoT，模型确实有可能实现更广泛的泛化。自动迭代重提示，能够让模型像MindsAI团队使用的测试时微调那样，更好地应对新场景。如果只做一次推理，模型很难跳出记忆的局限。但在每个新任务中，都生成中间输出的CoT，就有机会将学到的各种程序组件组合起来，实现真正的适应能力。

这种方法，实际上是在解决大语言模型泛化的头号难题——适应新情境，尽管与测试时微调一样，最终仍会遇到天花板。

当AI系统被允许在测试阶段使用不同量的算力（例如推理标记的数量或搜索时间）时，不能仅仅用一个“分数”来概括它的表现，因为结果完全取决于你投入了多少算力。这正是下图所展示的道理：算力越强，准确性越高。

OpenAI发布o1时，本可以让开发者指定在测试阶段投入多少算力来优化CoT。但他们并未这样做，而是“硬编码”了一个固定的测试算力水平，并将这一细节隐藏起来。这意味着，在测试算力可变的情况下，不能再简单地拿两个不同AI系统的输出进行对比来衡量谁更聪明——还需要比较它们的计算效率。

OpenAI的公告中没有提及效率数据，但令人兴奋的是，我们正进入一个以“效率”为核心的时代。效率对于定义AGI至关重要，这也是ARC Prize对获奖方案设置效率限制的原因。可以预见：接下来，我们会看到越来越多以“准确性 vs. 测试阶段算力”为轴的基准测试图表。

ARC-AGI 公开模型基准

在ARC-AGI公开评估数据集上，OpenAI的o1-preview和o1-mini均超越了GPT-4o。其中，o1-preview在准确性上与Anthropic的Claude 3.5 Sonnet大致相当，但达到相似结果所花费的时间，是Sonnet的10倍左右。

为了获得ARC-AGI-Pub排行榜上的基准分数，我们沿用了测试GPT-4o时所用的基准提示。在测试类似o1这样的纯模型时，目的是尽量测出基础模型本身的性能，不叠加任何优化层。未来，如果有人找到了更好的提示CoT风格模型的方法，经验证后，我们也欢迎将其纳入排行榜。

当然，性能的提升是有代价的。处理400项公开任务，o1用了70个小时，而GPT-4o和Claude 3.5 Sonnet仅用了30分钟。值得注意的是，排行榜上那些顶尖的提交，不仅依赖前沿模型，背后还融合了许多巧妙的技巧。

AGI 是否已经到来？

OpenAI的图表展示了在AIME上准确性与测试时间算力之间的对数线性关系——算力每指数级增长，准确性就线性上升。这引出一个新问题：这种扩展，究竟能走多远？

这一概念的唯一限制在于：所提问题本身是否可判定。只要搜索过程包含一个拥有答案的外部验证器，你就会看到准确性随算力增加而对数增长。实际上，这个结果与Ryan Greenblatt在ARC Prize中的顶尖方法之一极为相似。他让GPT-4o为每个任务生成了k=2,048个解决方案程序，然后根据任务演示进行确定性验证，获得了43%的分数。接着，他又测量了不同k值下的准确性变化。

Ryan在ARC-AGI上也发现了同样的准确性与测试算力的对数线性关系。

那么，是不是只要扩展测试算力，AGI就算来了？远非如此。只要观察任何O(x^n)的暴力搜索，都能看到类似的指数增长曲线。实际上，我们知道至少50%的ARC-AGI问题可以用暴力搜索解决，而不是靠AI。但用这种方式击败ARC-AGI根本不现实——你需要为每个任务生成超过1亿个解决方案程序。从实用角度看，O(x^n)搜索对于扩展后的AI系统来说，已经出局了。

何况，人类并不是这样解决问题的。人类不会生成成千上万个备选方案，而是依靠大脑中的感知网络来“看见”少数几个潜在解法，再使用系统2型思维进行确定性验证。我们完全可以做得更聪明。

亟需新思维

衡量智能的标准，是系统在不同情境下将信息转化为行动的效率。这本质上是一个转化率问题，因此存在上限。当智能达到完美时，唯一的进步途径就是收集新信息。

有些方法能让不那么智能的系统看起来更聪明，但实际上并未真正提升智能水平。一种方法是让系统只记忆最优行动——这类系统非常脆弱，在某一领域可能表现不错，但换个领域就会迅速崩溃。另一种方法依赖于试错，系统最终得出正确答案可能会让人觉得聪明，但如果花费了上百次猜测，那显然不是真正的智能。

期待未来的测试算力研究能够更高效地扩展搜索和精炼过程，例如借助深度学习来引导搜索。但仅凭这些，还不足以解释o1在ARC-AGI和其他高难度基准测试（如IOI或AIME）之间的巨大性能差距。

更合理的解释是：o1很大程度上仍运行在预训练数据的分布范围内，只不过现在多了大量新生成的合成CoT。这些额外的合成CoT数据，让系统更加关注推理过程的分布，而不仅仅是答案的分布——换句话说，更多算力花在了“如何得出答案”上，而不是“答案是什么”。

可以预见，像o1这样的系统，在涉及重用已知模拟推理模板（程序）的基准测试上会表现良好，但在需要即时合成全新推理的问题上，仍然存在短板。测试阶段对CoT的精炼，只能在一定程度上纠正推理错误。这也就解释了为什么o1在某些领域特别出色——当基础模型本身已经用类似方式预训练时，测试阶段的CoT精炼会得到额外的助力。

单一方法无法实现质的飞跃。总的来说，o1代表了从“记忆答案”到“记忆推理”的范式转变，但它并未跳出通过拟合分布曲线来提升性能的广义范式。要真正迈向AGI，我们还需要全新的思路。

```

来源：https://www.53ai.com/news/finetuning/2024091659186.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。