AI编程工具Codex两小时完成博士80小时代码改写任务

时间：2026-05-14 12:39

一项实验显示，OpenAICodex的 goal模式在机械可解释性任务中仅用约2小时完成博士预估需80小时的工作，效率提升约40倍。该模式使AI能自主拆解并执行目标，标志着向目标驱动型智能体的转变。实验表明AI正加速科研进程，相关基准测试成绩快速超越人类专家，递归自我改进趋势显现。有观点认为，按早期定义，通用。

科研领域的“奇点时刻”，或许比我们预想的更早降临。最近，一项关于OpenAI Codex“目标模式”的实验在学术界引发了不小的震动：它让AI驱动的科研效率提升了整整40倍。

事情源于Agentic AI工程师Dan McAteer在社交平台X上分享的一次实验。他利用OpenAI Codex的Goal Mode，尝试完成一项机械可解释性（Mechanistic Interpretability）的研究任务。根据GPT-5.5的估算，这项任务若由一位博士来完成，大约需要80个小时。然而，实际运行的结果令人咋舌：AI仅用了1小时56分钟就彻底完成了所有工作。

表面效率提升约40倍！

这项实验的核心，是Codex中一个名为/goal的内置技能。McAteer对此评价道，“/goal + GPT-5.5高精度 + 快速模式，是目前最高效的AI智能体配置方案。” 其关键在于，模型能够自行设定并拆解目标，而它生成的提示词，其质量甚至可能超越人类。

这已经超越了简单的“效率提升”，更像是一种“降维打击”。当科研周期从“周”缩短至“小时”，当AI开始自主撰写实验目标，一个不容回避的现实是：“智能爆炸”的曲线斜率已经显现，AI的自我迭代速度正脱离人类的掌控节奏。

Codex /goal 模式：从对话助手到目标驱动者

那么，这个引发轰动的实验究竟是如何进行的？

实验发起人Dan McAteer是一位专注于AI智能体工程化的工程师。他的实验配置相当简洁明了：

工具：OpenAI Codex /goal 命令
模型：GPT-5.5 high
模式：fast mode
任务：一项机械可解释性方向的研究任务

这套配置被他本人称为“当前可用的最高效AI智能体配置”。但更值得深究的，是/goal模式本身。

/goal 模式的本质与潜力

根据OpenAI工程师Philip Corey的解释，/goal 是对“Ralph循环”的一种工程实现。其核心在于，让一个目标在多轮对话中持续存在，不达目的不罢休。

简单来说，普通的Codex调用是“你问一句，它答一步”。而/goal模式则是“你给一个最终目标，它自己拆解成子任务、自主执行、自我审查、循环推进，直到成功或失败”。这标志着AI从“对话式助手”向“目标驱动型智能体”的关键转变。

对于机械可解释性这类研究任务，/goal模式有着天然的契合度。研究流程本身就是一个“提出假设→设计实验→运行分析→修正假设”的循环，正好可以交由一个具备自我循环能力的智能体来执行。

McAteer的实验真正证明的，是/goal模式在科研型循环任务上已具备实用价值。它并非要取代研究员，而是接管那些重复性高、流程固定的操作部分。

如果这种能力能够稳定下来，将对AI研究本身产生直接的杠杆效应。这意味着，未来AI实验室的内部研究员，或许可以利用AI智能体来完成训练数据准备、实验设置、消融研究、可视化生成乃至初步结果分析等一系列重复性工作。这也呼应了Anthropic和OpenAI近期反复提及的观点：AI正在加速AI研究本身。

80小时与2小时：科研门槛的崩塌

在传统科研范式下，一名博士生的日常充斥着文献查阅、模型构建、代码调试、结果验证和报告撰写。这套流程之所以漫长，源于人类大脑在处理复杂逻辑和海量数据时存在的物理上限。

但Codex的这次实验，彻底动摇了这一认知。

在“/goal + GPT-5.5 High + Fast Mode”这套顶级配置下，AI不再是一个被动“听指令”的工具，而是转变为一个能够“出策略”的独立研究单元。它能理解复杂的自然语言自动编码器实验需求，自主拆解任务，并在不到2小时的时间里，走完了人类精英可能需要两周才能完成的路径。

这标志着一个转折点：人类的科研门槛正在崩塌。那些曾经需要数年寒窗苦读才能获得的专业分析能力，正被算法快速模块化和自动化。更令人深思的是，自主AI研究员似乎已经提前降临。 OpenAI曾将实现AI自主科研的目标设定在2026年底，但从目前的实验进展来看，2026年或许不是起点，而可能是人类彻底交出科研主导权的终点。

递归自我改进：证据正在密集涌现

如果说Codex的40倍速实验只是一个刺眼的个案，那么围绕“递归自我改进”的更多证据，则构成了一个令人坐立不安的趋势。

今年5月7日，Anthropic联合创始人Jack Clark公开给出了一个预测：到2028年底，AI实现完全递归自我改进的概率超过60%。

与此同时，Sakana AI和UBC的研究团队今年推出了“Darwin Gödel Machine”——一个能够通过改写自身源代码来提升能力的编程智能体。

在SWE-bench基准测试中，它的得分从20.0%自我提升到了50.0%，全程无需人类干预。该团队的另一项目“AI Scientist”已于今年3月发表在《自然》杂志上，它能独立完成从产生研究想法、编写代码实验到撰写完整论文乃至进行同行评审的整个科研流水线。

再看一组硬数据。GPQA Diamond是一个由博士专家出题的科学问答基准。2023年11月，GPT-4的得分仅为39%，而人类领域专家的平均水平约为65%。到了2026年4月，前沿模型已实现集体越线：Gemini 3.1 Pro得分94.3%，Claude Opus 4.7得分94.2%。所有前沿模型的表现都已远超人类博士专家。

SWE-bench的演进轨迹更能说明这种加速趋势。

2023年底，Claude 2的通过率是2%。如今，这个数字变成了93.9%。短短两年半，就从2%飙升至93.9%。 这条曲线的形状，任何一个学过高中数学的人都能认出它代表的含义。

显然，递归自我改进的进程已经启动。一旦AI开始以这种40倍的效率去改写自身底层代码、优化架构，智力的增长将不再是线性的，而是垂直向上的。

AGI早已实现？被“煤气灯”的公众认知

事实上，关于AGI（通用人工智能）是否已经到来的争论，早已在学界掀起波澜。今年2月，四位分别来自哲学、机器学习、语言学和认知科学领域的顶尖学者联名发表了一篇题为《AGI案例研究：今日LLM已达标》的论文，其结论堪称“年度最令人不安”。

他们得出了一个惊人的一致结论：按照2022年之前的普遍定义，AGI其实早已实现。 之所以至今无人公开承认，是因为整个AI行业正在对公众进行一场集体性的“煤气灯效应”。

论文指出，人类在面对AI崛起时，表现出了一种强烈的心理防御机制。

2022年之前，AGI的定义相对清晰：能通过图灵测试、能跨领域处理任务即可。然而，在ChatGPT出现并展现出强大能力后，标准被悄然改变：“光有这些不行，还得有完美的推理能力、得有身体（具身性）、得有自我意识……” 每当模型突破一个旧关口，人类就会即兴加入新的、更为虚无缥缈的指标作为门槛，不断“移动球门”。

问题在于，如果AGI已经以某种形式存在，那么当前的行业叙事就显得极其荒诞。OpenAI仍在筹集数百亿美元声称要“构建AGI”；Anthropic每次发布新模型，也总将其包装成“接近AGI”的期货。论文犀利地揭示：科技巨头们可能正在把一个“已经交付”的东西，伪装成“即将研发出来”的神迹，以此换取持续的资金与影响力。

站在智能爆炸的前夜

如今，我们正站在一个极其诡异的节点上。

在实验室里，AI正以40倍的速度进行机械解释性研究，甚至开始为自己编写代码。在市场上，算力依然是硬通货，每一块新的高端芯片都在加速那个“奇点”的到来。然而，在社会心理层面，大众仍倾向于用“复读机”或“概率预测”这类过时的概念来安慰自己，低估了正在发生的根本性变革。

可以想象，如果40倍速的科研效率成为常态，人类文明积累数千年的知识总量，AI可能只需要几个月就能实现翻倍。当AI能够独立完成博士级的研究任务时，我们现有的教育体系、职称评定制度，乃至“专家”这个词本身的含义，都将面临前所未有的挑战。

正如哥白尼将地球移出了宇宙的中心，如今的AI正在将人类移出“唯一智慧生命”的圣殿。这场名为“智能爆炸”的战争没有硝烟，却关乎未来。我们要么学会如何与这种新的智能物种共生，要么就只能眼睁睁地看着它，以40倍的速度，将我们远远甩在身后。

来源：https://36kr.com/p/3807610387521289

其他

上一篇澳洲牧羊人用AI编程革新 Claude Code推出强制目标完成模式 下一篇Manus风暴中蝴蝶效应如何影响全球市场

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

AI编程工具Codex两小时完成博士80小时代码改写任务