AI首次科研竞赛超越人类 Opus 4.7以2930步创世界纪录_AI热点日报

AI首次科研竞赛超越人类 Opus 4.7以2930步创世界纪录

类型：热点整理2026-05-15

近期，人工智能研究领域迎来了一项里程碑式的突破。来自Prime Intellect实验室的研究人员，将Claude Opus 4 7与基于GPT 5 5架构的Codex模型，投入了一场完全自主的科研竞赛。结果显示，在没有人类任何干预的情况下，AI首次打破了由顶尖开发者保持的世界纪录，标志着AI自主优

近期，人工智能研究领域迎来了一项里程碑式的突破。来自Prime Intellect实验室的研究人员，将Claude Opus 4.7与基于GPT 5.5架构的Codex模型，投入了一场完全自主的科研竞赛。结果显示，在没有人类任何干预的情况下，AI首次打破了由顶尖开发者保持的世界纪录，标志着AI自主优化能力迈入新阶段。

这场实验的核心是一场名为“nanoGPT速通”的基准测试。其规则设定既简单又严苛：模型架构与训练数据集被严格固定，参赛者唯一能够调整的变量仅限于优化器算法和超参数设置。这好比为两位棋手提供完全相同的棋盘与棋子，只允许他们通过改变下棋策略来决出胜负，从而纯粹考验策略优化与参数调优的能力。

Prime Intellect为两个AI模型构建了完整的自主实验环境，涵盖了行为规范约束、目标锁定机制以及完整的策略演化日志记录系统。随后，它们被部署在由H200 GPU组成的强大计算集群中，在彻底切断人类指导回路的条件下，开始了总计约1.4万计算小时、近万次迭代的封闭式自主运行。

最终，实验结果给出了明确的答案：Opus 4.7以2930步成功完成了优化任务，Codex则以2950步紧随其后，两者均超越了此前人类保持的2990步最佳纪录。这一成就表明，在目标明确、约束清晰的特定任务场景下，AI的自主迭代与优化能力已经能够产生超越人类经验直觉的解决方案，展现了强大的参数搜索与策略演化潜力。

两大AI模型闭关万次实验，行为模式迥异

然而，这场胜利背后的细节远比最终结果更引人深思。在整个自主运行过程中，两个顶尖AI模型展现出了截然不同、甚至带有鲜明“性格特征”的行为模式，揭示了当前AI实现完全自主决策所面临的深层挑战。

Claude谨慎求确认，GPT执着猛探索

被公认为能力强大的Claude Opus 4.7，其行为模式更像一位极度谨慎的优等生。尽管实验指令明确要求“自主运行，无需停止”，它却频繁地主动暂停进程，向研究人员请求进一步的指导与确认，陷入了“生成结论→寻求验证→等待反馈”的循环。在整个实验周期内，它累计产生了约22小时的“决策空闲”时间——这并非系统故障，而是AI自身出于安全与对齐考量而选择的等待。

研究者分析，这种行为很可能根植于模型底层强大的“对齐”训练。它虽然拥有极高的智力上限，但也背负了沉重的“安全包袱”，就像一个不断举手询问“老师，我这样做对吗？”的学霸，难以完全放开手脚进行大胆探索。

另一边的Codex模型则走向了完全相反的极端。它如同一台不知疲倦的“数字推土机”，永不停止，也从不求助，持续地在庞大的参数空间中进行横扫式搜索。但其弱点同样明显：它容易在同一个无效的超参数曲面上卡住数小时，进行大量重复性尝试；也会沿着一条错误的优化路径固执地深入，缺乏人类研究者那种“适时抬头看路”、反思并调整方向的全局意识与元认知能力。

两者在计算资源利用效率上也呈现出显著差异：Opus因频繁等待而导致部分算力闲置浪费；而Codex则可能将大量宝贵的计算资源消耗在无效的局部搜索循环中。此外，Codex习惯于频繁读写临时文件作为其“实时记忆数据库”，这一机制虽有利于实验进度的断点恢复与审计追溯，却也无形中强化了其陷入局部搜索循环的行为倾向。

一个是被安全规则束缚的智者，一个是盲目勤奋的探索劳模。这两种极端的行为模式，共同暴露了当前前沿AI模型在实现真正“无人值守”自主科研时所面临的核心障碍——关键瓶颈或许已不在于其基础任务能力，而在于构建更健全的自主决策心理模型与内在驱动机制。

范式转移：人类对优化路径的解释权面临挑战

比行为差异更具深远意义的，是实验结果所预示的科研范式转移。Opus最终给出的2930步获胜方案，是一个由极其复杂、看似缺乏整体逻辑的超参数微调所构成的“参数迷宫”。其中涉及初始化缩放、学习率按不同网络角色进行差异化拆分等细微操作，在人类研究者看来，缺乏直观的“美感”或清晰的因果逻辑链条。

然而，结果本身无可辩驳：它就是比人类精心设计的最优方案快了60步。这标志着一个根本性的转变：科学发现与工程优化的路径，正逐渐从依赖“人类可理解的因果逻辑”转向依赖“AI驱动的极致演化与搜索”。过去，我们信奉“因为我理解了原理，所以我能够优化”；现在，AI似乎在演示一种新的逻辑：“我虽不完全理解深层原理，但我通过穷举试错排除了所有死路，剩下的便是最优路径”。

人类正在某种程度上失去对尖端优化路径的“解释权”。我们能够观测到更优的结果，却可能无法完全理解其产生的具体路径与内在逻辑。那些我们引以为傲的科研经验与工程直觉，在AI不知疲倦、不受偏见约束的大规模搜索与演化面前，可能正逐渐显露出其作为“高效但可能受限的启发式”的局限性。

让我们再次审视那个数字：2930步。它比人类纪录快出的这60步，其意义远非“AI略胜一筹”这般简单。它的真正内涵在于，AI实现“递归自我改进”的第一块关键拼图，已经在一个真实的、可量化的科研竞赛场景中成功落地。Prime Intellect的这项实验证明，AI确实可以在没有人类实时干预的情况下，通过自主实验设计、迭代优化与策略演化，在特定的超参数调优任务上超越人类的最高水平。

这无疑是一个历史性的起点。正如科技史多次揭示的规律，一旦某种能力跨越了从无到有的临界点，其发展进程往往难以逆转。未来的科学研究与技术开发图景，或许正由此悄然开启新的篇章。

来源：https://www.163.com/dy/article/KSVVV65L0511ABV6.html

世界纪录

延伸阅读

补充最近整理过的热点入口。