坦白说,奥特曼提出的“每人兜里一个博士级AI”的设想,听起来确实很令人兴奋。
GPT-5一经发布,全球开发者便蜂拥而至,API调用量激增,各类实测报告层出不穷。然而,这里有一个核心问题需要厘清——所谓的“博士级推理能力”,究竟有多少可信度?目前情绪化的讨论很多,甚至有人高呼“还我GPT-4o”。但真正应该关注的,是那个被反复强调的“博士级推理”。
这个说法站得住脚吗?

一项名为FormulaOne的硬核测试,让这些顶尖模型集体“露了馅”。
这套测试题目分为三个难度等级,逐级递增。在基础题部分,AI们尚能应对,唯独GPT-5能达到接近50%的正确率,算是矮子里拔将军。但一旦进入进阶题,情况急转直下。GPT-5的正确率直接暴跌至4%,其他模型更是惨不忍睹。至于最难的“最深层问题”部分?所有模型全军覆没——没错,直接交了白卷,全部零分。

论文地址:https://arxiv.org/pdf/2507.13337

那么,FormulaOne究竟是个什么样的测试?
它给自己的定义是:超越竞赛编程的算法推理深度测量。出品方是AAI,一家由Mobileye联合创始人、希伯来大学教授Amnon Shashua发起的科研型AI创业公司,2023年8月在耶路撒冷成立,长期保持“半隐身”状态。


Shashua的履历相当硬核:2020年丹·大卫奖人工智能领域得主,2022年被汽车名人堂评为移动创新者。他1999年联合创立的Mobileye,2014年创下以色列史上最大规模IPO,2017年被Intel以153亿美元收购,2022年再次在纳斯达克上市。
这样的背景,注定FormulaOne从一开始就不是闹着玩的。
AI必须硬核
现在的问题很明确:AI距离真正的专家水平,到底还有多远?
真正的专家,要解决的是硬核难题,是推动科学边界的人。因此,必须给AI上点真正的强度了。
目前的基准测试,说实话,已经有点跟不上节奏了。它们往往无法完整描绘出AI理解的真实深度。尽管最近AI成绩斐然,比如OpenAI在CodeForces上拿到2724的高分,或在国际信息学奥林匹克竞赛中夺得金牌——但这些成就依然掩盖了一个令人清醒的现实:为竞赛磨炼出的技能,并不足以覆盖解决大规模现实世界研究问题所需的所有推理能力。
举个例子:优化全球供应链、管理大规模电网、设计具有弹性的网络基础设施——这些任务比竞赛题复杂好几个数量级,所需的算法洞察力远超典型竞技编程的范畴。
FormulaOne包含220个新颖的、基于图的动态规划问题。它们被分为三个类别,难度从中等一路推到研究级别。这是一个完全处于图论、逻辑和算法交叉点的基准测试,而且所有问题都在前沿模型的训练分布范围内。换句话说,不存在“模型没学过”的借口。

这些问题极具挑战性,需要一系列推理步骤,涉及拓扑和几何洞察、数学知识、组合考虑、精确实现等等。FormulaOne有三个关键特性:
第一,商业价值。它与真实的大规模优化问题直接相关,比如路径规划、调度、网络设计中遇到的那些难题。
第二,生成机制。它基于图上的单一二阶逻辑这一高度表达的框架,为大规模自动问题生成铺平了道路——非常适合构建强化学习环境。
第三,理论前沿。许多问题与理论计算机科学的前沿猜想来联,比如强指数时间假设。
这里就引出一个关键问题:为什么模型在“最深层”任务上会出现概念崩溃,哪怕它们在算法编程竞赛中已经超越了人类顶尖选手?
答案很简单——“最深层”问题需要的推理深度,是现有模型根本无法达到的。这里可能需要一种完全不同的方法。FormulaOne正通过一个实时排行榜和评估框架,把这一切公开分享给社区。

值得一提的是,FormulaOne中的问题描述都非常简洁,通常只有一两句话,任何本科生都能看懂。但解决问题的过程,需要的是创造力和深度推理,两者缺一不可。



这些问题虽然容易描述,但解决方案绝非显而易见。其可解性由Courcelle提出的算法元定理保证:对于每个足够树状的图,任何可在单子二阶逻辑中定义的问题,都能通过一个动态规划算法求解,运行时间与图的阶数成线性关系。简单来说,这些问题就是图上的自然动态规划问题。
虽然许多问题在一般情况下是NP难的,但在“树状”图上,它们变得容易处理——可以通过线性时间的动态规划算法解决,算法在一个称为“bags”的小图窗口上操作。


这个“bag”是使用树分解结构生成的,它将图的顶点组织成一系列重叠的集合,以树的形式排列。算法遍历这棵“bag树”,用动态规划逐块解决问题。整个过程包括设计一个“状态”,来概括包中部分解决方案的所有必要信息,并定义在顶点被引入、遗忘或包合并时,状态如何转换。
「最深层」级别问题难在哪里
那么,是什么让“最深层”级别远难于“浅层”?换句话说,怎么解释前沿模型在这里的全面溃败?
是因为数据不足?还是动态规划专业知识不够?都不是。前沿模型最近已经在算法编程竞赛和奥林匹克竞赛中达到了顶尖人类水平,而动态规划正是这类竞赛的核心技术之一。
问题的关键在于,竞赛题和现实题的构造逻辑完全不同。
像CodeForces里的题目,通常是这样设计的:一个人想出一个非常巧妙的技巧(可能就一两个),然后围绕这个技巧设计一个问题。参赛者一旦理解了这个技巧,通常很快就能写出一个简洁的解决方案。这对于“浅层”问题来说,某种程度上也是如此。
但现实世界的问题,包括“更深”和“最深”层级的问题,涉及的是多个不确定的步骤,没有任何捷径可走。
设计一个正确且高效的动态规划程序,很难。难就难在每个包需要存储的那个“状态”上。状态设计既是一门艺术,也是一门科学。它必须足够丰富,以便在包之间过渡时能更新;同时又必须足够简洁,确保计算可行。
模型在这方面的表现如何?它们倾向于急切地过度承诺——做出过早且不可逆的决策,而这些决策的无效性往往要到很久之后才能显现。随着不确定性增加,这个问题更加明显。
事实上,这只是模型所犯的一系列分类错误之一。为了帮助理解模型的优势和不足,每个FormulaOne问题都配备了一系列标签,代表其核心思想。

所以,要突破这个新基准,到底需要什么?GPT-5在“更深”层级上显示出一些进展的迹象,但这种进展非常有限,到了“最深层”就完全空白。这或许可以解释为一种“信号缺失”——在“最深层”的问题中,存在太多的不确定点和需要做出的决策,要让所有细节都正确对齐,难如登天。以至于传统的训练技术,在这里基本失效。
