游乐游手机版
首页/AI热点日报/热点详情

o1模型在ARC挑战赛的全面评测与表现分析

类型:热点整理2026-05-30
```html 资料来源:OpenAI o1 在 ARC-AGI-Pub 上的表现(arcprize org) 在过去的24小时里,我们获得了OpenAI最新发布的o1-preview和o1-mini的使用权限。这两款模型的主打特色是“模拟推理”,即在给出最终答案前,它们会花费更多时间,生成并优化自
```html

资料来源:OpenAI o1 在 ARC-AGI-Pub 上的表现(arcprize.org)

o1模型在ARC挑战赛的评测与分析

在过去的24小时里,我们获得了OpenAI最新发布的o1-preview和o1-mini的使用权限。这两款模型的主打特色是“模拟推理”,即在给出最终答案前,它们会花费更多时间,生成并优化自身的推理链条。

许多朋友关心:o1在ARC Prize上究竟达到了什么水平?我们使用了与评估Claude 3.5 Sonnet、GPT-4o、Gemini 1.5完全一致的基准框架,对其进行了测试。结果如下:

那么,一个核心问题随之而来:o1是否代表着通往通用人工智能(AGI)的全新范式?它的能力能否通过堆叠算力持续扩展?为什么o1在IOI、AIME等高难度测试中表现惊艳,而在ARC-AGI上仅获得中等成绩?这其中的差距,值得深入剖析。

链式思考(Chain-of-Thought)

o1在训练和推理两个阶段,都彻底采用了“逐步推理”的方式——也就是我们所说的链式思考(CoT)技术。

实际运行后发现,当任务中的中间推理步骤已大规模出现在合成CoT训练数据中时,o1出错的概率显著降低。在训练阶段,OpenAI表示他们开发了一套全新的强化学习算法,配合高效的数据处理流程,核心正是利用CoT。换句话说,o1的底层依然是那组固定的预训练数据,但OpenAI能够通过生成大量模拟人类推理的合成CoT,再利用强化学习对模型进行持续训练。

然而,有一个谜团尚未解开:OpenAI是如何筛选这些用于训练的合成CoT的?虽然细节有限,但可以推测,强化学习的奖励信号可能来自两个方向:在数学和代码这类形式化领域,依靠验证器;在任务分解与规划这类非形式化领域,则依靠人工标注。推理阶段,OpenAI声称他们通过强化学习让o1能够优化自身的CoT并调整策略。推测这里的奖励信号,可能与之前开源的actor-critic系统类似。同时,他们在推理过程中还对生成的推理标记采用了搜索或回溯技术。

测试时计算(Test-Time Compute)

o1最突出的亮点在哪里?它成功地将CoT推理搜索这种策略,扩展到了非形式化语言(例如日常对话)的领域,而不再局限于数学、代码、Lean这类形式化场景。

在训练阶段使用CoT进行扩展当然值得肯定,但真正的亮点在于测试阶段的扩展能力。可以确定的是,通过迭代的CoT,模型确实有可能实现更广泛的泛化。自动迭代重提示,能够让模型像MindsAI团队使用的测试时微调那样,更好地应对新场景。如果只做一次推理,模型很难跳出记忆的局限。但在每个新任务中,都生成中间输出的CoT,就有机会将学到的各种程序组件组合起来,实现真正的适应能力。

这种方法,实际上是在解决大语言模型泛化的头号难题——适应新情境,尽管与测试时微调一样,最终仍会遇到天花板。

当AI系统被允许在测试阶段使用不同量的算力(例如推理标记的数量或搜索时间)时,不能仅仅用一个“分数”来概括它的表现,因为结果完全取决于你投入了多少算力。这正是下图所展示的道理:算力越强,准确性越高。

OpenAI发布o1时,本可以让开发者指定在测试阶段投入多少算力来优化CoT。但他们并未这样做,而是“硬编码”了一个固定的测试算力水平,并将这一细节隐藏起来。这意味着,在测试算力可变的情况下,不能再简单地拿两个不同AI系统的输出进行对比来衡量谁更聪明——还需要比较它们的计算效率。

OpenAI的公告中没有提及效率数据,但令人兴奋的是,我们正进入一个以“效率”为核心的时代。效率对于定义AGI至关重要,这也是ARC Prize对获奖方案设置效率限制的原因。可以预见:接下来,我们会看到越来越多以“准确性 vs. 测试阶段算力”为轴的基准测试图表。

ARC-AGI 公开模型基准

在ARC-AGI公开评估数据集上,OpenAI的o1-preview和o1-mini均超越了GPT-4o。其中,o1-preview在准确性上与Anthropic的Claude 3.5 Sonnet大致相当,但达到相似结果所花费的时间,是Sonnet的10倍左右。

为了获得ARC-AGI-Pub排行榜上的基准分数,我们沿用了测试GPT-4o时所用的基准提示。在测试类似o1这样的纯模型时,目的是尽量测出基础模型本身的性能,不叠加任何优化层。未来,如果有人找到了更好的提示CoT风格模型的方法,经验证后,我们也欢迎将其纳入排行榜。

当然,性能的提升是有代价的。处理400项公开任务,o1用了70个小时,而GPT-4o和Claude 3.5 Sonnet仅用了30分钟。值得注意的是,排行榜上那些顶尖的提交,不仅依赖前沿模型,背后还融合了许多巧妙的技巧。

AGI 是否已经到来?

OpenAI的图表展示了在AIME上准确性与测试时间算力之间的对数线性关系——算力每指数级增长,准确性就线性上升。这引出一个新问题:这种扩展,究竟能走多远?

这一概念的唯一限制在于:所提问题本身是否可判定。只要搜索过程包含一个拥有答案的外部验证器,你就会看到准确性随算力增加而对数增长。实际上,这个结果与Ryan Greenblatt在ARC Prize中的顶尖方法之一极为相似。他让GPT-4o为每个任务生成了k=2,048个解决方案程序,然后根据任务演示进行确定性验证,获得了43%的分数。接着,他又测量了不同k值下的准确性变化。

Ryan在ARC-AGI上也发现了同样的准确性与测试算力的对数线性关系。

那么,是不是只要扩展测试算力,AGI就算来了?远非如此。只要观察任何O(x^n)的暴力搜索,都能看到类似的指数增长曲线。实际上,我们知道至少50%的ARC-AGI问题可以用暴力搜索解决,而不是靠AI。但用这种方式击败ARC-AGI根本不现实——你需要为每个任务生成超过1亿个解决方案程序。从实用角度看,O(x^n)搜索对于扩展后的AI系统来说,已经出局了。

何况,人类并不是这样解决问题的。人类不会生成成千上万个备选方案,而是依靠大脑中的感知网络来“看见”少数几个潜在解法,再使用系统2型思维进行确定性验证。我们完全可以做得更聪明。

亟需新思维

衡量智能的标准,是系统在不同情境下将信息转化为行动的效率。这本质上是一个转化率问题,因此存在上限。当智能达到完美时,唯一的进步途径就是收集新信息。

有些方法能让不那么智能的系统看起来更聪明,但实际上并未真正提升智能水平。一种方法是让系统只记忆最优行动——这类系统非常脆弱,在某一领域可能表现不错,但换个领域就会迅速崩溃。另一种方法依赖于试错,系统最终得出正确答案可能会让人觉得聪明,但如果花费了上百次猜测,那显然不是真正的智能。

期待未来的测试算力研究能够更高效地扩展搜索和精炼过程,例如借助深度学习来引导搜索。但仅凭这些,还不足以解释o1在ARC-AGI和其他高难度基准测试(如IOI或AIME)之间的巨大性能差距。

更合理的解释是:o1很大程度上仍运行在预训练数据的分布范围内,只不过现在多了大量新生成的合成CoT。这些额外的合成CoT数据,让系统更加关注推理过程的分布,而不仅仅是答案的分布——换句话说,更多算力花在了“如何得出答案”上,而不是“答案是什么”。

可以预见,像o1这样的系统,在涉及重用已知模拟推理模板(程序)的基准测试上会表现良好,但在需要即时合成全新推理的问题上,仍然存在短板。测试阶段对CoT的精炼,只能在一定程度上纠正推理错误。这也就解释了为什么o1在某些领域特别出色——当基础模型本身已经用类似方式预训练时,测试阶段的CoT精炼会得到额外的助力。

单一方法无法实现质的飞跃。总的来说,o1代表了从“记忆答案”到“记忆推理”的范式转变,但它并未跳出通过拟合分布曲线来提升性能的广义范式。要真正迈向AGI,我们还需要全新的思路。

```
来源:https://www.53ai.com/news/finetuning/2024091659186.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。