AI代码工具Codex两小时完成博士八十小时工作科研效率迎来突破

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
科研领域的“奇点”或许比我们预想的更近。近日,一项关于OpenAI Codex“目标模式”的实验在学术界引发了震动:AI将一项复杂的科研任务效率提升了约40倍。

Agentic AI工程师Dan McAteer在社交平台X上披露了这次实验。他使用OpenAI Codex的Goal Mode来执行一项机械可解释性研究任务。根据GPT-5.5的估算,这项任务可能需要一位博士投入约80小时才能完成。然而,在实际操作中,AI仅用了1小时56分钟就彻底跑完了整个流程。

表面效率提升达到了惊人的40倍。这不再是简单的效率优化,而更像是一场“降维打击”。当科研周期从以“周”为单位压缩至“小时”,一个关键问题浮出水面:我们是否已经站在了智能爆炸的临界点上?

实验的核心在于Codex中一种名为“/goal”的内置技能。McAteer认为,“/goal”指令配合GPT-5.5高精度模型与快速模式,构成了当前最高效的AI智能体配置。其关键在于,模型能够自行设定并拆解目标,它写出的提示词甚至可能比人类工程师的更出色。

Codex /goal 模式:从对话到自主目标驱动
那么,这个引发效率革命的“/goal”模式究竟是什么?
根据OpenAI Codex工程师Philip Corey的描述,“/goal”是对“Ralph循环”的一种实现——它让一个目标在多轮对话中持续存在,不达成则不停止。
简单来说,普通的Codex调用是“你问一句,它答一步”。而Codex /goal模式则是“你给定一个最终目标,它自己拆分子任务、自己执行、自己审查结果、自己继续推进”,直到目标达成或宣告失败。这标志着AI从被动的对话工具,转向了主动的目标驱动体。

对于机械可解释性这类研究任务,/goal模式有着天然的契合度。这类研究本身就是一个“提出假设→设计实验→运行→分析结果→修正假设”的循环过程,正好可以交由一个能够自我循环的智能体去执行。
McAteer的实验真正证明的,是Codex /goal模式在科研型循环任务上具备了实际可用性。它并非要替代研究员,而是替代了研究过程中那些重复性高、流程化的操作部分。

这个能力如果稳定下来,将对AI研究本身产生直接的杠杆效应。这意味着,未来AI实验室内部的研究员,或许可以利用AI智能体来完成训练数据准备、实验设置、消融研究、可视化生成以及初步结果分析等重复性工作。这也呼应了Anthropic和OpenAI近来反复提及的观点:AI正在加速AI本身的研究。

效率跃迁:博士80小时 vs AI 2小时
在传统科研范式中,一名博士生的日常充斥着文献查阅、模型构建、代码调试、结果验证和报告撰写。这套流程之所以漫长,源于人类大脑在处理复杂逻辑和海量数据时存在的物理与认知上限。
但Codex的这次实验打破了这种认知框架。

在“/goal + GPT-5.5 High + Fast Mode”的配置下,AI不再是一个等待指令的工具,而更像是一位能够“出策略”的独立研究员。它能理解复杂的自然语言自动编码器实验需求,自主拆解任务,并在不到2小时的时间里,走完了人类精英可能需要两周才能完成的路径。
这暗示着,某些领域的科研门槛正在发生结构性崩塌。过去需要经年累月训练才能获得的专业分析能力,正被算法模块化、自动化。甚至,自主AI研究员可能已经提前降临。

OpenAI曾将实现AI自主科研的目标设定在2026年底。但从目前的实验进展来看,2026年可能不是起点,而是人类在某些研究环节彻底交出“接力棒”的节点。
递归自我改进:证据正在密集涌现
如果说Codex的40倍速实验是一个刺眼的个案,那么更令人警觉的,是围绕“递归自我改进”的证据正在全球多个实验室密集涌现。
5月7日,据Axios报道,Anthropic联合创始人Jack Clark公开给出了一个预测:到2028年底,AI实现完全递归自我改进的概率超过60%。


另一边,Sakana AI和UBC的研究团队今年开发出了“Darwin Gödel Machine”,这是一个能够通过改写自身源代码来提升能力的编程智能体。

在SWE-bench基准测试上,它的得分从20.0%自我提升到了50.0%,全程无需人类干预。同一团队打造的“AI Scientist”项目,已于今年3月发表在《自然》期刊上,它能自主产生研究想法、编写代码运行实验、撰写完整论文并进行同行评审,实现了从端到端的独立科研流水线。

再看一组硬核数据。GPQA Diamond是一个由博士专家出题的科学问答基准,2024年11月GPT-4的得分约为39%,人类领域专家的平均水平在65%左右。而到了2026年4月,前沿模型集体越线:Gemini 3.1 Pro得分94.3%,Claude Opus 4.7得分94.2%,均已远超人类博士专家水平。

SWE-bench的演进轨迹更能说明这种加速度。

2024年底,Claude 2的通过率是2%。如今,这个数字已经变成了93.9%。两年半时间,从2%飙升至93.9%,这条增长曲线的形状,任何一个学过基础数学的人都能认出它所代表的趋势。
显然,递归自我改进的进程已经悄然启动。一旦AI开始以40倍的效率去改写自己的底层代码、优化自身架构,智力的增长将不再是线性的,而可能是指数级甚至垂直向上的。

AGI 已经交付?被“移动的球门”
一个更碘伏性的观点认为,我们讨论的AGI或许早已以某种形式存在,只是整个行业在集体“移动球门”。
今年2月,四位分别来自哲学、机器学习、语言学和认知科学领域的顶尖学者联名发表了一篇题为《AGI 案例研究:今日 LLM 已达标》的论文,其结论堪称“年度最令人不安”。

他们得出一致结论:按照2024年之前学术界普遍接受的定义,AGI其实已经实现。当下之所以无人正式承认,是因为整个AI行业正在对公众进行一场集体性的“煤气灯效应”。
论文指出,人类在面对AI崛起时,表现出了一种强烈的心理防御机制。

2024年之前,AGI的定义相对清晰:能通过图灵测试、能跨领域处理任务即可。然而,当ChatGPT等模型展现出这些能力后,标准被瞬间拔高:“光有这些不行,还得有完美的逻辑推理、得有物理身体、得有自我意识……”每当模型突破一个旧关口,人类就即兴加入新的、更为虚无缥缈的指标作为门槛。
如果这个假设成立,那么当前的行业逻辑就显现出一种荒诞。一方面,OpenAI仍在筹集巨额资金声称要“构建AGI”;另一方面,Anthropic每次发布新模型都将其包装成“接近AGI”的期货。论文犀利地揭示:巨头们可能正在把一个“已经交付”的东西,伪装成“即将研发出来”的神迹,以此换取持续的资金与话语权。

智能爆炸的前夜
如今,我们正处在一个极其矛盾的节点。
在实验室里,AI已经以40倍速进行着前沿研究,甚至开始自我编程优化。在市场上,算力依然是硬通货,每一块新发布的顶级芯片都在为那个可能的“奇点”添砖加瓦。然而,在社会心理层面,大众仍倾向于用“高级复读机”或“概率预测”这类过时的概念来寻求安慰。
可以设想,如果40倍速的科研效率成为常态,人类文明积累数千年的知识总量,AI可能只需要几个月就能完成迭代与翻倍。当AI能够独立完成博士级的研究任务时,我们现有的高等教育体系、职称评定制度,乃至“专家”一词的定义本身,都将面临根本性的挑战。
历史仿佛在重演,正如哥白尼将地球移出了宇宙的中心,今天的AI正在将人类移出“唯一智慧生命”的圣殿。这场名为“智能爆炸”的变革没有硝烟,但其影响将同样深远。摆在人类面前的路径似乎越来越清晰:要么尽快学会如何与这种新的智能形态共生,要么就只能眼睁睁地看着它,以我们难以想象的速度,将旧范式远远甩在身后。
相关攻略
一项实验显示,OpenAICodex的“目标模式”将复杂科研任务效率提升约40倍,原本需80小时的任务AI在2小时内完成。该模式支持AI自主拆解并推进目标,适用于研究循环。证据表明,AI已启动递归自我改进,在多项测试中迅速超越人类专家。有观点认为,按早期定义AGI或已实现,但行业标准正不断抬高,AI正快速重塑科研范式。
近日,上海临港新片区传来核聚变领域的重磅突破,能量奇点能源科技(上海)有限公司自主研发的全球首台全高温超导托卡马克装置“洪荒70”,成功实现1337秒稳态长脉冲等离子体运行。这一成果让能量奇点成为全
在成功实现了1337秒稳态长脉冲等离子体运行后,位于上海临港的能量奇点厂房内,全球首台建成运行的全高温超导托卡马克装置“洪荒70”,正在进行基于AI的等离子体控制算法更新、诊断设备升级,并增设温度测
记者从临港新片区了解到,近期,上海核聚变能源商业公司能量奇点自主研发的全球首台全高温超导托卡马克装置“洪荒70”,成功实现1337秒稳态长脉冲等离子体运行,成为全球唯一实现千秒级长脉冲运行的商业核
当前,中东战火正在扰动全球能源供给、加速能源转型。在新能源中,“人造太阳”也就是可控核聚变,被视为人类摆脱化石能源依赖的最后一块拼图,成为各国的竞争的战略制高点。最近,在上海临港,中国“人造太阳”实
热门专题
热门推荐
短期课程 开发人员的ChatGPT提示工程 你将在本课程中学到什么 想用大型语言模型(LLM)快速构建强大的应用吗?《开发人员的ChatGPT提示工程》这门课,正是为你准备的。通过OpenAI API,你将能解锁那些在过去成本高昂、技术门槛高甚至无法实现的能力,快速将创新想法转化为价值。 这门短期课
志设是什么 在创意设计领域,灵感与效率往往难以平衡。是否存在一个工具,既能深度理解您的创意构思,又能迅速将其转化为高品质视觉作品?这正是专业级AI图像生成平台“志设”致力于解决的核心问题。 简而言之,志设是一个融合了前沿人工智能技术的综合性设计解决方案平台。它全面覆盖从平面广告、海报设计到网页UI、
对于渴望提升外语口语与听力水平的学习者而言,如何找到一个高效、便捷且能轻松练习的环境,常常是首要难题。今天我们要深入解析的这款产品——TalkMe,正是精准切入这一需求,试图通过前沿的AI技术,提供一种全新的语言练习解决方案。 简而言之,TalkMe是一款专注于跨语言学习的AI应用,其核心功能设计紧
当冰冷的钢铁巨兽被注入炽热的战斗意志,会碰撞出怎样的战略火花?《王牌机甲》这款游戏,将宏大的科幻叙事深度融入现代战争战术框架,为玩家开启了一段关于征服、策略与深厚羁绊的未来纪元。 在这里,你绝非孤军奋战。每一位通过招募加入的精英机师,都拥有独立的背景故事、专属技能树与独特的成长路线。游戏核心的“羁绊
《暗黑大天使》的技能分支系统提供元素、物理和辅助三大专精方向,玩家需根据角色属性与战斗需求选择分支。技能可投入资源升级并可能触发连锁效果,实战中需结合装备、敌人及团队配合灵活运用。该系统丰富了玩法,但需大量资源与多系统联动,选择需谨慎规划。





