游乐游手机版
首页/业界动态/文章详情

AI编程工具Codex两小时完成博士80小时代码改写任务

时间:2026-05-14 12:39
一项实验显示,OpenAICodex的 goal模式在机械可解释性任务中仅用约2小时完成博士预估需80小时的工作,效率提升约40倍。该模式使AI能自主拆解并执行目标,标志着向目标驱动型智能体的转变。实验表明AI正加速科研进程,相关基准测试成绩快速超越人类专家,递归自我改进趋势显现。有观点认为,按早期定义,通用。

科研领域的“奇点时刻”,或许比我们预想的更早降临。最近,一项关于OpenAI Codex“目标模式”的实验在学术界引发了不小的震动:它让AI驱动的科研效率提升了整整40倍。

事情源于Agentic AI工程师Dan McAteer在社交平台X上分享的一次实验。他利用OpenAI Codex的Goal Mode,尝试完成一项机械可解释性(Mechanistic Interpretability)的研究任务。根据GPT-5.5的估算,这项任务若由一位博士来完成,大约需要80个小时。然而,实际运行的结果令人咋舌:AI仅用了1小时56分钟就彻底完成了所有工作。

表面效率提升约40倍!

这项实验的核心,是Codex中一个名为/goal的内置技能。McAteer对此评价道,“/goal + GPT-5.5高精度 + 快速模式,是目前最高效的AI智能体配置方案。” 其关键在于,模型能够自行设定并拆解目标,而它生成的提示词,其质量甚至可能超越人类。

这已经超越了简单的“效率提升”,更像是一种“降维打击”。当科研周期从“周”缩短至“小时”,当AI开始自主撰写实验目标,一个不容回避的现实是:“智能爆炸”的曲线斜率已经显现,AI的自我迭代速度正脱离人类的掌控节奏。

Codex /goal 模式:从对话助手到目标驱动者

那么,这个引发轰动的实验究竟是如何进行的?

实验发起人Dan McAteer是一位专注于AI智能体工程化的工程师。他的实验配置相当简洁明了:

  • 工具:OpenAI Codex /goal 命令
  • 模型:GPT-5.5 high
  • 模式:fast mode
  • 任务:一项机械可解释性方向的研究任务

这套配置被他本人称为“当前可用的最高效AI智能体配置”。但更值得深究的,是/goal模式本身。

/goal 模式的本质与潜力

根据OpenAI工程师Philip Corey的解释,/goal 是对“Ralph循环”的一种工程实现。其核心在于,让一个目标在多轮对话中持续存在,不达目的不罢休。

简单来说,普通的Codex调用是“你问一句,它答一步”。而/goal模式则是“你给一个最终目标,它自己拆解成子任务、自主执行、自我审查、循环推进,直到成功或失败”。这标志着AI从“对话式助手”向“目标驱动型智能体”的关键转变。

对于机械可解释性这类研究任务,/goal模式有着天然的契合度。研究流程本身就是一个“提出假设→设计实验→运行分析→修正假设”的循环,正好可以交由一个具备自我循环能力的智能体来执行。

McAteer的实验真正证明的,是/goal模式在科研型循环任务上已具备实用价值。它并非要取代研究员,而是接管那些重复性高、流程固定的操作部分。

如果这种能力能够稳定下来,将对AI研究本身产生直接的杠杆效应。这意味着,未来AI实验室的内部研究员,或许可以利用AI智能体来完成训练数据准备、实验设置、消融研究、可视化生成乃至初步结果分析等一系列重复性工作。这也呼应了Anthropic和OpenAI近期反复提及的观点:AI正在加速AI研究本身。

80小时与2小时:科研门槛的崩塌

在传统科研范式下,一名博士生的日常充斥着文献查阅、模型构建、代码调试、结果验证和报告撰写。这套流程之所以漫长,源于人类大脑在处理复杂逻辑和海量数据时存在的物理上限。

但Codex的这次实验,彻底动摇了这一认知。

“/goal + GPT-5.5 High + Fast Mode”这套顶级配置下,AI不再是一个被动“听指令”的工具,而是转变为一个能够“出策略”的独立研究单元。它能理解复杂的自然语言自动编码器实验需求,自主拆解任务,并在不到2小时的时间里,走完了人类精英可能需要两周才能完成的路径。

这标志着一个转折点:人类的科研门槛正在崩塌。那些曾经需要数年寒窗苦读才能获得的专业分析能力,正被算法快速模块化和自动化。更令人深思的是,自主AI研究员似乎已经提前降临。 OpenAI曾将实现AI自主科研的目标设定在2026年底,但从目前的实验进展来看,2026年或许不是起点,而可能是人类彻底交出科研主导权的终点。

递归自我改进:证据正在密集涌现

如果说Codex的40倍速实验只是一个刺眼的个案,那么围绕“递归自我改进”的更多证据,则构成了一个令人坐立不安的趋势。

今年5月7日,Anthropic联合创始人Jack Clark公开给出了一个预测:到2028年底,AI实现完全递归自我改进的概率超过60%。

与此同时,Sakana AI和UBC的研究团队今年推出了“Darwin Gödel Machine”——一个能够通过改写自身源代码来提升能力的编程智能体。

在SWE-bench基准测试中,它的得分从20.0%自我提升到了50.0%,全程无需人类干预。该团队的另一项目“AI Scientist”已于今年3月发表在《自然》杂志上,它能独立完成从产生研究想法、编写代码实验到撰写完整论文乃至进行同行评审的整个科研流水线。

再看一组硬数据。GPQA Diamond是一个由博士专家出题的科学问答基准。2023年11月,GPT-4的得分仅为39%,而人类领域专家的平均水平约为65%。到了2026年4月,前沿模型已实现集体越线:Gemini 3.1 Pro得分94.3%,Claude Opus 4.7得分94.2%。所有前沿模型的表现都已远超人类博士专家。

SWE-bench的演进轨迹更能说明这种加速趋势。

2023年底,Claude 2的通过率是2%。如今,这个数字变成了93.9%。短短两年半,就从2%飙升至93.9%。 这条曲线的形状,任何一个学过高中数学的人都能认出它代表的含义。

显然,递归自我改进的进程已经启动。一旦AI开始以这种40倍的效率去改写自身底层代码、优化架构,智力的增长将不再是线性的,而是垂直向上的。

AGI早已实现?被“煤气灯”的公众认知

事实上,关于AGI(通用人工智能)是否已经到来的争论,早已在学界掀起波澜。今年2月,四位分别来自哲学、机器学习、语言学和认知科学领域的顶尖学者联名发表了一篇题为《AGI案例研究:今日LLM已达标》的论文,其结论堪称“年度最令人不安”。

他们得出了一个惊人的一致结论:按照2022年之前的普遍定义,AGI其实早已实现。 之所以至今无人公开承认,是因为整个AI行业正在对公众进行一场集体性的“煤气灯效应”。

论文指出,人类在面对AI崛起时,表现出了一种强烈的心理防御机制。

2022年之前,AGI的定义相对清晰:能通过图灵测试、能跨领域处理任务即可。然而,在ChatGPT出现并展现出强大能力后,标准被悄然改变:“光有这些不行,还得有完美的推理能力、得有身体(具身性)、得有自我意识……” 每当模型突破一个旧关口,人类就会即兴加入新的、更为虚无缥缈的指标作为门槛,不断“移动球门”。

问题在于,如果AGI已经以某种形式存在,那么当前的行业叙事就显得极其荒诞。OpenAI仍在筹集数百亿美元声称要“构建AGI”;Anthropic每次发布新模型,也总将其包装成“接近AGI”的期货。论文犀利地揭示:科技巨头们可能正在把一个“已经交付”的东西,伪装成“即将研发出来”的神迹,以此换取持续的资金与影响力。

站在智能爆炸的前夜

如今,我们正站在一个极其诡异的节点上。

在实验室里,AI正以40倍的速度进行机械解释性研究,甚至开始为自己编写代码。在市场上,算力依然是硬通货,每一块新的高端芯片都在加速那个“奇点”的到来。然而,在社会心理层面,大众仍倾向于用“复读机”或“概率预测”这类过时的概念来安慰自己,低估了正在发生的根本性变革。

可以想象,如果40倍速的科研效率成为常态,人类文明积累数千年的知识总量,AI可能只需要几个月就能实现翻倍。当AI能够独立完成博士级的研究任务时,我们现有的教育体系、职称评定制度,乃至“专家”这个词本身的含义,都将面临前所未有的挑战。

正如哥白尼将地球移出了宇宙的中心,如今的AI正在将人类移出“唯一智慧生命”的圣殿。这场名为“智能爆炸”的战争没有硝烟,却关乎未来。我们要么学会如何与这种新的智能物种共生,要么就只能眼睁睁地看着它,以40倍的速度,将我们远远甩在身后。

来源:https://36kr.com/p/3807610387521289
上一篇澳洲牧羊人用AI编程革新 Claude Code推出强制目标完成模式 下一篇Manus风暴中蝴蝶效应如何影响全球市场
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
长安汽车明年一季度发布首款车载人形机器人小安
业界动态 · 2026-06-29

长安汽车明年一季度发布首款车载人形机器人小安

长安汽车公布机器人战略,采用“1+N+X”布局,联合头部伙伴攻克大脑、能源、驱动技术。人形机器人“小安”身高169cm,体重69kg,移动速度0 8m s,具备40个自由度,续航超2小时。预计明年一季度发布首款车载组件机器人,已在广州车展展示。

中国信科刷新光通信世界纪录 每秒可下载1.4万部4K电影
业界动态 · 2026-06-29

中国信科刷新光通信世界纪录 每秒可下载1.4万部4K电影

3月25日,光通信领域迎来又一个里程碑:中国信科集团光通信技术和网络全国重点实验室联合鹏城实验室、烽火藤仓光纤科技有限公司,成功实现了2 5Pb s 24芯光纤超大容量实时光传输,再次刷新了世界纪录。 这一研究成果不仅入选国际顶级光通信会议OFC(2026)并荣获“高分论文”称号,还受国际权威SCI

美国调查18万辆特斯拉Model3车门应急释放装置易找性
业界动态 · 2026-06-29

美国调查18万辆特斯拉Model3车门应急释放装置易找性

美国国家公路交通安全管理局对约17 9万辆2024款特斯拉Model3启动缺陷调查,焦点在于车门应急释放装置是否不易找到且标识不清。该调查源于一份缺陷请愿,不意味着立即召回,但可能引发后续监管措施。

doc个人图书馆停服 创始人称无偿转让失败
业界动态 · 2026-06-29

doc个人图书馆停服 创始人称无偿转让失败

运营长达20年,累计服务8000万用户的360doc个人图书馆,最终还是迎来了谢幕时刻。2026年5月1日,这个承载着无数用户收藏记忆的知名平台将正式停止服务——关停原因并非用户流失,而是始终未能寻得一位能够安全接管的合适人选。 创始人蔡智在告别信中坦言,近两个月来,他一直在尝试将360doc无偿转

年Q1随身WiFi实测安全靠谱高性价比机型推荐
业界动态 · 2026-06-29

年Q1随身WiFi实测安全靠谱高性价比机型推荐

2025年10月,艾瑞咨询正式授予飞猫“AI WiFi品类开创者”认证,紧接着CIC也将其认定为“多网融合自由切换技术服务首创者”。这些权威认证背后,折射出一个清晰的市场趋势:移动办公、户外出行、宿舍上网等场景的需求正在快速增长,随身WiFi几乎已成为不少用户的刚需装备。但问题也随之而来——网络卡顿