GPT-5零分惨败，顶级AI全军覆没，奥特曼博士级神话破灭

时间：2026-06-23 14:32

坦白说，奥特曼提出的“每人兜里一个博士级AI”的设想，听起来确实很令人兴奋。 GPT-5一经发布，全球开发者便蜂拥而至，API调用量激增，各类实测报告层出不穷。然而，这里有一个核心问题需要厘清——所谓的“博士级推理能力”，究竟有多少可信度？目前情绪化的讨论很多，甚至有人高呼“还我GPT-4o”。但真

坦白说，奥特曼提出的“每人兜里一个博士级AI”的设想，听起来确实很令人兴奋。

GPT-5一经发布，全球开发者便蜂拥而至，API调用量激增，各类实测报告层出不穷。然而，这里有一个核心问题需要厘清——所谓的“博士级推理能力”，究竟有多少可信度？目前情绪化的讨论很多，甚至有人高呼“还我GPT-4o”。但真正应该关注的，是那个被反复强调的“博士级推理”。

这个说法站得住脚吗？

一项名为FormulaOne的硬核测试，让这些顶尖模型集体“露了馅”。

这套测试题目分为三个难度等级，逐级递增。在基础题部分，AI们尚能应对，唯独GPT-5能达到接近50%的正确率，算是矮子里拔将军。但一旦进入进阶题，情况急转直下。GPT-5的正确率直接暴跌至4%，其他模型更是惨不忍睹。至于最难的“最深层问题”部分？所有模型全军覆没——没错，直接交了白卷，全部零分。

论文地址:https://arxiv.org/pdf/2507.13337

那么，FormulaOne究竟是个什么样的测试？

它给自己的定义是：超越竞赛编程的算法推理深度测量。出品方是AAI，一家由Mobileye联合创始人、希伯来大学教授Amnon Shashua发起的科研型AI创业公司，2023年8月在耶路撒冷成立，长期保持“半隐身”状态。

Shashua的履历相当硬核：2020年丹·大卫奖人工智能领域得主，2022年被汽车名人堂评为移动创新者。他1999年联合创立的Mobileye，2014年创下以色列史上最大规模IPO，2017年被Intel以153亿美元收购，2022年再次在纳斯达克上市。

这样的背景，注定FormulaOne从一开始就不是闹着玩的。

AI必须硬核

现在的问题很明确：AI距离真正的专家水平，到底还有多远？

真正的专家，要解决的是硬核难题，是推动科学边界的人。因此，必须给AI上点真正的强度了。

目前的基准测试，说实话，已经有点跟不上节奏了。它们往往无法完整描绘出AI理解的真实深度。尽管最近AI成绩斐然，比如OpenAI在CodeForces上拿到2724的高分，或在国际信息学奥林匹克竞赛中夺得金牌——但这些成就依然掩盖了一个令人清醒的现实：为竞赛磨炼出的技能，并不足以覆盖解决大规模现实世界研究问题所需的所有推理能力。

举个例子：优化全球供应链、管理大规模电网、设计具有弹性的网络基础设施——这些任务比竞赛题复杂好几个数量级，所需的算法洞察力远超典型竞技编程的范畴。

FormulaOne包含220个新颖的、基于图的动态规划问题。它们被分为三个类别，难度从中等一路推到研究级别。这是一个完全处于图论、逻辑和算法交叉点的基准测试，而且所有问题都在前沿模型的训练分布范围内。换句话说，不存在“模型没学过”的借口。

这些问题极具挑战性，需要一系列推理步骤，涉及拓扑和几何洞察、数学知识、组合考虑、精确实现等等。FormulaOne有三个关键特性：

第一，商业价值。它与真实的大规模优化问题直接相关，比如路径规划、调度、网络设计中遇到的那些难题。

第二，生成机制。它基于图上的单一二阶逻辑这一高度表达的框架，为大规模自动问题生成铺平了道路——非常适合构建强化学习环境。

第三，理论前沿。许多问题与理论计算机科学的前沿猜想来联，比如强指数时间假设。

这里就引出一个关键问题：为什么模型在“最深层”任务上会出现概念崩溃，哪怕它们在算法编程竞赛中已经超越了人类顶尖选手？

答案很简单——“最深层”问题需要的推理深度，是现有模型根本无法达到的。这里可能需要一种完全不同的方法。FormulaOne正通过一个实时排行榜和评估框架，把这一切公开分享给社区。

值得一提的是，FormulaOne中的问题描述都非常简洁，通常只有一两句话，任何本科生都能看懂。但解决问题的过程，需要的是创造力和深度推理，两者缺一不可。

这些问题虽然容易描述，但解决方案绝非显而易见。其可解性由Courcelle提出的算法元定理保证：对于每个足够树状的图，任何可在单子二阶逻辑中定义的问题，都能通过一个动态规划算法求解，运行时间与图的阶数成线性关系。简单来说，这些问题就是图上的自然动态规划问题。

虽然许多问题在一般情况下是NP难的，但在“树状”图上，它们变得容易处理——可以通过线性时间的动态规划算法解决，算法在一个称为“bags”的小图窗口上操作。

这个“bag”是使用树分解结构生成的，它将图的顶点组织成一系列重叠的集合，以树的形式排列。算法遍历这棵“bag树”，用动态规划逐块解决问题。整个过程包括设计一个“状态”，来概括包中部分解决方案的所有必要信息，并定义在顶点被引入、遗忘或包合并时，状态如何转换。

「最深层」级别问题难在哪里

那么，是什么让“最深层”级别远难于“浅层”？换句话说，怎么解释前沿模型在这里的全面溃败？

是因为数据不足？还是动态规划专业知识不够？都不是。前沿模型最近已经在算法编程竞赛和奥林匹克竞赛中达到了顶尖人类水平，而动态规划正是这类竞赛的核心技术之一。

问题的关键在于，竞赛题和现实题的构造逻辑完全不同。

像CodeForces里的题目，通常是这样设计的：一个人想出一个非常巧妙的技巧（可能就一两个），然后围绕这个技巧设计一个问题。参赛者一旦理解了这个技巧，通常很快就能写出一个简洁的解决方案。这对于“浅层”问题来说，某种程度上也是如此。

但现实世界的问题，包括“更深”和“最深”层级的问题，涉及的是多个不确定的步骤，没有任何捷径可走。

设计一个正确且高效的动态规划程序，很难。难就难在每个包需要存储的那个“状态”上。状态设计既是一门艺术，也是一门科学。它必须足够丰富，以便在包之间过渡时能更新；同时又必须足够简洁，确保计算可行。

模型在这方面的表现如何？它们倾向于急切地过度承诺——做出过早且不可逆的决策，而这些决策的无效性往往要到很久之后才能显现。随着不确定性增加，这个问题更加明显。

事实上，这只是模型所犯的一系列分类错误之一。为了帮助理解模型的优势和不足，每个FormulaOne问题都配备了一系列标签，代表其核心思想。

所以，要突破这个新基准，到底需要什么？GPT-5在“更深”层级上显示出一些进展的迹象，但这种进展非常有限，到了“最深层”就完全空白。这或许可以解释为一种“信号缺失”——在“最深层”的问题中，存在太多的不确定点和需要做出的决策，要让所有细节都正确对齐，难如登天。以至于传统的训练技术，在这里基本失效。

来源：https://www.aiagiai.com/14731.html

上一篇王兴兴谈机器人瓶颈：AI模型与大模型的不足 下一篇Perplexity获2亿美元融资估值达200亿美元

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

AI教程 · 2026-07-02

内网RPA离线部署从依赖打包到7×24无人值守踩坑与避坑方案

这三年，内网RPA项目接了不下二十个。每次开局都像闯关——断网、缺依赖、多机同步、定时执行、批量分发、源码保护、AI离线化，八个坑一个比一个深。今天把这些实战经验整理出来，希望能帮正在内网搞自动化的兄弟们少踩点雷。一、内网无网络环境怎么部署RPA流程：先搞清楚什么叫“真离线” 很多工具宣传“支持本

AI教程 · 2026-07-02

水利工程师用WorkBuddy写洪水报告效率提升3倍

WorkBuddy开发者分享季水利工程师AI提效实战：用WorkBuddy撰写洪水影响评价报告，效率提升3倍 WorkBuddy 效率人工智能开发工具一、我是谁，为什么需要AI 先介绍一下自己——我是一名水利工程师，在湖南长沙的一家小型水利设计公司任职。当前行业环境不太

AI教程 · 2026-07-02

日志服务数据加工规则洞察仪表盘使用指南

数据加工诊断仪表盘想实时掌握日志服务加工功能的运行状态？直接从加工列表页点击那个“规则洞察”按钮，仪表盘就会立刻呈现出来。入口就在那儿，不绕弯子。跳转后，你可以按作业名称、实例ID或源LogStore来筛选任务状态。比如下边这张图，展示的是当前实例ID（90c9d47714dbb807d47c1

AI教程 · 2026-07-02

基于RFID的固定资产管理系统技术架构与工程实践

固定资产管理难题是众多企事业单位的普遍困扰，资产数量动辄数千件，且广泛分布于不同部门、楼层乃至园区。传统人工盘点方式在工程维度上始终面临三大关键瓶颈：采集效率低下、数据闭环中断、状态同步滞后。使用条码枪逐一扫描标签，识别距离通常不超过30厘米，操作人员需逐个寻找并扫描，盘点效率完全受限于人力。面对5

AI教程 · 2026-07-02

WorkBuddy实战用AI搭建A股智能盯盘助手省心高效

炒股的朋友们想必都深有体会——每天重复盯盘、查行情、分析板块轮动，这一整套流程下来耗费大量精力。手动翻查数据不仅身心俱疲，还很容易错过关键买卖节点。今天我们就来聊聊如何打造一款趁手的盯盘工具，借助AI替你分担这些重复性工作。背景：盯盘的核心痛点股民都有同感——每天不只要查询单只股票的实时行情，还