首页 游戏 软件 资讯 排行榜 专题
首页
业界动态
AI编程工具Codex两小时完成博士80小时代码改写任务

AI编程工具Codex两小时完成博士80小时代码改写任务

热心网友
24
转载
2026-05-14

科研领域的“奇点时刻”,或许比我们预想的更早降临。最近,一项关于OpenAI Codex“目标模式”的实验在学术界引发了不小的震动:它让AI驱动的科研效率提升了整整40倍。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

事情源于Agentic AI工程师Dan McAteer在社交平台X上分享的一次实验。他利用OpenAI Codex的Goal Mode,尝试完成一项机械可解释性(Mechanistic Interpretability)的研究任务。根据GPT-5.5的估算,这项任务若由一位博士来完成,大约需要80个小时。然而,实际运行的结果令人咋舌:AI仅用了1小时56分钟就彻底完成了所有工作。

表面效率提升约40倍!

这项实验的核心,是Codex中一个名为/goal的内置技能。McAteer对此评价道,“/goal + GPT-5.5高精度 + 快速模式,是目前最高效的AI智能体配置方案。” 其关键在于,模型能够自行设定并拆解目标,而它生成的提示词,其质量甚至可能超越人类。

这已经超越了简单的“效率提升”,更像是一种“降维打击”。当科研周期从“周”缩短至“小时”,当AI开始自主撰写实验目标,一个不容回避的现实是:“智能爆炸”的曲线斜率已经显现,AI的自我迭代速度正脱离人类的掌控节奏。

Codex /goal 模式:从对话助手到目标驱动者

那么,这个引发轰动的实验究竟是如何进行的?

实验发起人Dan McAteer是一位专注于AI智能体工程化的工程师。他的实验配置相当简洁明了:

  • 工具:OpenAI Codex /goal 命令
  • 模型:GPT-5.5 high
  • 模式:fast mode
  • 任务:一项机械可解释性方向的研究任务

这套配置被他本人称为“当前可用的最高效AI智能体配置”。但更值得深究的,是/goal模式本身。

/goal 模式的本质与潜力

根据OpenAI工程师Philip Corey的解释,/goal 是对“Ralph循环”的一种工程实现。其核心在于,让一个目标在多轮对话中持续存在,不达目的不罢休。

简单来说,普通的Codex调用是“你问一句,它答一步”。而/goal模式则是“你给一个最终目标,它自己拆解成子任务、自主执行、自我审查、循环推进,直到成功或失败”。这标志着AI从“对话式助手”向“目标驱动型智能体”的关键转变。

对于机械可解释性这类研究任务,/goal模式有着天然的契合度。研究流程本身就是一个“提出假设→设计实验→运行分析→修正假设”的循环,正好可以交由一个具备自我循环能力的智能体来执行。

McAteer的实验真正证明的,是/goal模式在科研型循环任务上已具备实用价值。它并非要取代研究员,而是接管那些重复性高、流程固定的操作部分。

如果这种能力能够稳定下来,将对AI研究本身产生直接的杠杆效应。这意味着,未来AI实验室的内部研究员,或许可以利用AI智能体来完成训练数据准备、实验设置、消融研究、可视化生成乃至初步结果分析等一系列重复性工作。这也呼应了Anthropic和OpenAI近期反复提及的观点:AI正在加速AI研究本身。

80小时与2小时:科研门槛的崩塌

在传统科研范式下,一名博士生的日常充斥着文献查阅、模型构建、代码调试、结果验证和报告撰写。这套流程之所以漫长,源于人类大脑在处理复杂逻辑和海量数据时存在的物理上限。

但Codex的这次实验,彻底动摇了这一认知。

“/goal + GPT-5.5 High + Fast Mode”这套顶级配置下,AI不再是一个被动“听指令”的工具,而是转变为一个能够“出策略”的独立研究单元。它能理解复杂的自然语言自动编码器实验需求,自主拆解任务,并在不到2小时的时间里,走完了人类精英可能需要两周才能完成的路径。

这标志着一个转折点:人类的科研门槛正在崩塌。那些曾经需要数年寒窗苦读才能获得的专业分析能力,正被算法快速模块化和自动化。更令人深思的是,自主AI研究员似乎已经提前降临。 OpenAI曾将实现AI自主科研的目标设定在2026年底,但从目前的实验进展来看,2026年或许不是起点,而可能是人类彻底交出科研主导权的终点。

递归自我改进:证据正在密集涌现

如果说Codex的40倍速实验只是一个刺眼的个案,那么围绕“递归自我改进”的更多证据,则构成了一个令人坐立不安的趋势。

今年5月7日,Anthropic联合创始人Jack Clark公开给出了一个预测:到2028年底,AI实现完全递归自我改进的概率超过60%。

与此同时,Sakana AI和UBC的研究团队今年推出了“Darwin Gödel Machine”——一个能够通过改写自身源代码来提升能力的编程智能体。

在SWE-bench基准测试中,它的得分从20.0%自我提升到了50.0%,全程无需人类干预。该团队的另一项目“AI Scientist”已于今年3月发表在《自然》杂志上,它能独立完成从产生研究想法、编写代码实验到撰写完整论文乃至进行同行评审的整个科研流水线。

再看一组硬数据。GPQA Diamond是一个由博士专家出题的科学问答基准。2023年11月,GPT-4的得分仅为39%,而人类领域专家的平均水平约为65%。到了2026年4月,前沿模型已实现集体越线:Gemini 3.1 Pro得分94.3%,Claude Opus 4.7得分94.2%。所有前沿模型的表现都已远超人类博士专家。

SWE-bench的演进轨迹更能说明这种加速趋势。

2023年底,Claude 2的通过率是2%。如今,这个数字变成了93.9%。短短两年半,就从2%飙升至93.9%。 这条曲线的形状,任何一个学过高中数学的人都能认出它代表的含义。

显然,递归自我改进的进程已经启动。一旦AI开始以这种40倍的效率去改写自身底层代码、优化架构,智力的增长将不再是线性的,而是垂直向上的。

AGI早已实现?被“煤气灯”的公众认知

事实上,关于AGI(通用人工智能)是否已经到来的争论,早已在学界掀起波澜。今年2月,四位分别来自哲学、机器学习、语言学和认知科学领域的顶尖学者联名发表了一篇题为《AGI案例研究:今日LLM已达标》的论文,其结论堪称“年度最令人不安”。

他们得出了一个惊人的一致结论:按照2022年之前的普遍定义,AGI其实早已实现。 之所以至今无人公开承认,是因为整个AI行业正在对公众进行一场集体性的“煤气灯效应”。

论文指出,人类在面对AI崛起时,表现出了一种强烈的心理防御机制。

2022年之前,AGI的定义相对清晰:能通过图灵测试、能跨领域处理任务即可。然而,在ChatGPT出现并展现出强大能力后,标准被悄然改变:“光有这些不行,还得有完美的推理能力、得有身体(具身性)、得有自我意识……” 每当模型突破一个旧关口,人类就会即兴加入新的、更为虚无缥缈的指标作为门槛,不断“移动球门”。

问题在于,如果AGI已经以某种形式存在,那么当前的行业叙事就显得极其荒诞。OpenAI仍在筹集数百亿美元声称要“构建AGI”;Anthropic每次发布新模型,也总将其包装成“接近AGI”的期货。论文犀利地揭示:科技巨头们可能正在把一个“已经交付”的东西,伪装成“即将研发出来”的神迹,以此换取持续的资金与影响力。

站在智能爆炸的前夜

如今,我们正站在一个极其诡异的节点上。

在实验室里,AI正以40倍的速度进行机械解释性研究,甚至开始为自己编写代码。在市场上,算力依然是硬通货,每一块新的高端芯片都在加速那个“奇点”的到来。然而,在社会心理层面,大众仍倾向于用“复读机”或“概率预测”这类过时的概念来安慰自己,低估了正在发生的根本性变革。

可以想象,如果40倍速的科研效率成为常态,人类文明积累数千年的知识总量,AI可能只需要几个月就能实现翻倍。当AI能够独立完成博士级的研究任务时,我们现有的教育体系、职称评定制度,乃至“专家”这个词本身的含义,都将面临前所未有的挑战。

正如哥白尼将地球移出了宇宙的中心,如今的AI正在将人类移出“唯一智慧生命”的圣殿。这场名为“智能爆炸”的战争没有硝烟,却关乎未来。我们要么学会如何与这种新的智能物种共生,要么就只能眼睁睁地看着它,以40倍的速度,将我们远远甩在身后。

来源:https://36kr.com/p/3807610387521289
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

创业板指大涨超2%创近六年新高 市场情绪高涨
科技数码
创业板指大涨超2%创近六年新高 市场情绪高涨

市场情绪显著升温,创业板指盘中涨超2%,报4013点,创2015年6月以来新高。深证成指与上证指数分别上涨1 28%和0 42%,整体表现强劲,超3200只个股上涨。

热心网友
05.13
深成指今日涨幅超过1% 市场行情最新解读
科技数码
深成指今日涨幅超过1% 市场行情最新解读

市场情绪回暖,深证成份指数盘中涨幅超1%。部分成份股表现活跃,润泽科技涨超14%,网宿科技、晶盛机电等涨幅均超11%,带动指数走强。市场资金对相关板块关注度提升,反映出结构性机会,后续需观察量能与板块轮动持续性。

热心网友
05.13
岚图知音实测续航1300公里 京沪线全程智驾无需充电
科技数码
岚图知音实测续航1300公里 京沪线全程智驾无需充电

岚图知音在京沪线1300公里实测中全程未充电,续航达成率超95%,公开智驾过程在复杂路况下未出现误判或制动异常,展现了高性能传感器与智能系统的协同能力。此次实测以真实场景验证技术可靠性,凸显系统优化对缓解续航与智驾焦虑的关键作用。

热心网友
05.13
MOZA与Drift Masters强强联手 推动职业漂移与模拟赛车融合
游戏资讯
MOZA与Drift Masters强强联手 推动职业漂移与模拟赛车融合

近日,模拟赛车装备行业迎来重大合作动态:MOZA RACING魔爪正式宣布与欧洲顶级职业漂移赛事Drift Masters漂移大师赛达成全新战略合作伙伴关系。根据双方协议,自2026赛季起,MOZA RACING将与Drift Masters携手,为全球赛车爱好者呈现更丰富、更多元的互动体验。这不仅

热心网友
05.13
一线战队如何有效针对Donk打法策略解析
游戏资讯
一线战队如何有效针对Donk打法策略解析

知名电竞评论员BanKs近期深度分析了Spirit战队明星选手donk的竞技状态与未来展望。 BanKs指出,donk在IEM里约站的赛事中,其Rating数据为1 22,这确实低于他过往的巅峰水准。这一现象或许表明,这位天赋异禀的选手正面临职业生涯的新挑战与战术适应期。回顾他此前的比赛记录,其Ra

热心网友
05.13

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

2026年USDT交易软件排行榜:安全可靠的平台推荐与选择指南
web3.0
2026年USDT交易软件排行榜:安全可靠的平台推荐与选择指南

本文介绍了2026年主流的USDT交易软件,重点分析了币安、欧易和火币三大平台的特点与优势。内容涵盖平台安全性、交易功能、用户体验及费用结构,旨在为不同需求的用户提供选择参考。文中强调选择平台时应综合考虑资产安全、操作便捷性和交易成本,并提醒注意风险管理与合规操作。

热心网友
05.14
2026年USDT交易软件推荐:十大安全靠谱平台深度评测
web3.0
2026年USDT交易软件推荐:十大安全靠谱平台深度评测

本文介绍了USDT交易的基本概念与主流平台选择。USDT作为稳定币,其交易主要通过加密货币交易所进行。选择平台时需综合考虑安全性、流动性、手续费和用户体验。文中列举了当前市场认可度较高的几类交易平台,并提醒用户注意资产安全与合规操作,建议根据自身需求谨慎选择。

热心网友
05.14
哥本哈根大学新研究探索AI推荐系统如何消除偏见实现公平
AI
哥本哈根大学新研究探索AI推荐系统如何消除偏见实现公平

哥本哈根大学计算机科学系于2026年3月发布了一项具有里程碑意义的研究(论文编号arXiv:2603 12935v1),揭示了当前主流AI推荐系统可能潜藏的社会偏见风险。这项研究同时指出,一种高效且低成本的解决方案——提示工程,或许能成为破解这一难题的关键。 当您使用求职平台或新闻资讯应用时,背后的

热心网友
05.14
港科大团队创新图像修复技术:仅需千张训练图,视频生成模型效果媲美百万数据
AI
港科大团队创新图像修复技术:仅需千张训练图,视频生成模型效果媲美百万数据

照片模糊了、雨滴遮挡了画面、夜晚拍摄噪点过多……这些常见的图像质量问题,往往让人束手无策。传统的解决方案,就像请来一群专科医生:去模糊、去噪点、去雨滴,各有各的专长,但每个“医生”都需要海量的“临床经验”——动辄数百万张训练图片,才能达到可用的修复水平。 然而,一项由香港科技大学、哈尔滨工业大学深圳

热心网友
05.14
UBC与Vector研究院攻克AI资源管理难题 机器人低成本高效运行指南
AI
UBC与Vector研究院攻克AI资源管理难题 机器人低成本高效运行指南

这项由英属哥伦比亚大学(UBC)与Vector人工智能研究院联合主导的前沿研究,于2026年3月以预印本论文(arXiv:2603 12634v1)形式发布。研究团队创新性地提出了“预算感知价值树搜索”(Budget-Aware Value Tree Search,简称BA VT)框架,旨在攻克一个

热心网友
05.14