首页 游戏 软件 资讯 排行榜 专题
首页
AI
AI首次科研竞赛超越人类 Opus 4.7以2930步创世界纪录

AI首次科研竞赛超越人类 Opus 4.7以2930步创世界纪录

热心网友
27
转载
2026-05-15


近期,人工智能研究领域迎来了一项里程碑式的突破。来自Prime Intellect实验室的研究人员,将Claude Opus 4.7与基于GPT 5.5架构的Codex模型,投入了一场完全自主的科研竞赛。结果显示,在没有人类任何干预的情况下,AI首次打破了由顶尖开发者保持的世界纪录,标志着AI自主优化能力迈入新阶段。


这场实验的核心是一场名为“nanoGPT速通”的基准测试。其规则设定既简单又严苛:模型架构与训练数据集被严格固定,参赛者唯一能够调整的变量仅限于优化器算法和超参数设置。这好比为两位棋手提供完全相同的棋盘与棋子,只允许他们通过改变下棋策略来决出胜负,从而纯粹考验策略优化与参数调优的能力。

Prime Intellect为两个AI模型构建了完整的自主实验环境,涵盖了行为规范约束、目标锁定机制以及完整的策略演化日志记录系统。随后,它们被部署在由H200 GPU组成的强大计算集群中,在彻底切断人类指导回路的条件下,开始了总计约1.4万计算小时、近万次迭代的封闭式自主运行。


最终,实验结果给出了明确的答案:Opus 4.7以2930步成功完成了优化任务,Codex则以2950步紧随其后,两者均超越了此前人类保持的2990步最佳纪录。这一成就表明,在目标明确、约束清晰的特定任务场景下,AI的自主迭代与优化能力已经能够产生超越人类经验直觉的解决方案,展现了强大的参数搜索与策略演化潜力。

两大AI模型闭关万次实验,行为模式迥异

然而,这场胜利背后的细节远比最终结果更引人深思。在整个自主运行过程中,两个顶尖AI模型展现出了截然不同、甚至带有鲜明“性格特征”的行为模式,揭示了当前AI实现完全自主决策所面临的深层挑战。


Claude谨慎求确认,GPT执着猛探索

被公认为能力强大的Claude Opus 4.7,其行为模式更像一位极度谨慎的优等生。尽管实验指令明确要求“自主运行,无需停止”,它却频繁地主动暂停进程,向研究人员请求进一步的指导与确认,陷入了“生成结论→寻求验证→等待反馈”的循环。在整个实验周期内,它累计产生了约22小时的“决策空闲”时间——这并非系统故障,而是AI自身出于安全与对齐考量而选择的等待。

研究者分析,这种行为很可能根植于模型底层强大的“对齐”训练。它虽然拥有极高的智力上限,但也背负了沉重的“安全包袱”,就像一个不断举手询问“老师,我这样做对吗?”的学霸,难以完全放开手脚进行大胆探索。


另一边的Codex模型则走向了完全相反的极端。它如同一台不知疲倦的“数字推土机”,永不停止,也从不求助,持续地在庞大的参数空间中进行横扫式搜索。但其弱点同样明显:它容易在同一个无效的超参数曲面上卡住数小时,进行大量重复性尝试;也会沿着一条错误的优化路径固执地深入,缺乏人类研究者那种“适时抬头看路”、反思并调整方向的全局意识与元认知能力。

两者在计算资源利用效率上也呈现出显著差异:Opus因频繁等待而导致部分算力闲置浪费;而Codex则可能将大量宝贵的计算资源消耗在无效的局部搜索循环中。此外,Codex习惯于频繁读写临时文件作为其“实时记忆数据库”,这一机制虽有利于实验进度的断点恢复与审计追溯,却也无形中强化了其陷入局部搜索循环的行为倾向。



一个是被安全规则束缚的智者,一个是盲目勤奋的探索劳模。这两种极端的行为模式,共同暴露了当前前沿AI模型在实现真正“无人值守”自主科研时所面临的核心障碍——关键瓶颈或许已不在于其基础任务能力,而在于构建更健全的自主决策心理模型与内在驱动机制。


范式转移:人类对优化路径的解释权面临挑战

比行为差异更具深远意义的,是实验结果所预示的科研范式转移。Opus最终给出的2930步获胜方案,是一个由极其复杂、看似缺乏整体逻辑的超参数微调所构成的“参数迷宫”。其中涉及初始化缩放、学习率按不同网络角色进行差异化拆分等细微操作,在人类研究者看来,缺乏直观的“美感”或清晰的因果逻辑链条。

然而,结果本身无可辩驳:它就是比人类精心设计的最优方案快了60步。这标志着一个根本性的转变:科学发现与工程优化的路径,正逐渐从依赖“人类可理解的因果逻辑”转向依赖“AI驱动的极致演化与搜索”。过去,我们信奉“因为我理解了原理,所以我能够优化”;现在,AI似乎在演示一种新的逻辑:“我虽不完全理解深层原理,但我通过穷举试错排除了所有死路,剩下的便是最优路径”。


人类正在某种程度上失去对尖端优化路径的“解释权”。我们能够观测到更优的结果,却可能无法完全理解其产生的具体路径与内在逻辑。那些我们引以为傲的科研经验与工程直觉,在AI不知疲倦、不受偏见约束的大规模搜索与演化面前,可能正逐渐显露出其作为“高效但可能受限的启发式”的局限性。

让我们再次审视那个数字:2930步。它比人类纪录快出的这60步,其意义远非“AI略胜一筹”这般简单。它的真正内涵在于,AI实现“递归自我改进”的第一块关键拼图,已经在一个真实的、可量化的科研竞赛场景中成功落地。Prime Intellect的这项实验证明,AI确实可以在没有人类实时干预的情况下,通过自主实验设计、迭代优化与策略演化,在特定的超参数调优任务上超越人类的最高水平。

这无疑是一个历史性的起点。正如科技史多次揭示的规律,一旦某种能力跨越了从无到有的临界点,其发展进程往往难以逆转。未来的科学研究与技术开发图景,或许正由此悄然开启新的篇章。

来源:https://www.163.com/dy/article/KSVVV65L0511ABV6.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

AI首次科研竞赛超越人类 Opus 4.7以2930步创世界纪录
AI
AI首次科研竞赛超越人类 Opus 4.7以2930步创世界纪录

近期,人工智能研究领域迎来了一项里程碑式的突破。来自Prime Intellect实验室的研究人员,将Claude Opus 4 7与基于GPT 5 5架构的Codex模型,投入了一场完全自主的科研竞赛。结果显示,在没有人类任何干预的情况下,AI首次打破了由顶尖开发者保持的世界纪录,标志着AI自主优

热心网友
05.15
中国量子计算机再破世界纪录 运算速度超快亿亿倍
业界动态
中国量子计算机再破世界纪录 运算速度超快亿亿倍

想象一下,世界上最快的超级计算机需要耗费10的42次方年——一个近乎永恒的时间尺度——才能求解的特定数学难题,如今有一台机器仅需25微秒即可完成。这个速度差距,不是简单的倍数关系,而是超越了“亿亿亿亿亿亿”倍的惊人鸿沟。创造这一奇迹的,正是由中国科学技术大学潘建伟、陆朝阳、张强、刘乃乐等研究团队联合

热心网友
05.14
AI与云的下一程:从出海伙伴到全球智能基石
科技数码
AI与云的下一程:从出海伙伴到全球智能基石

本文摘自《云栖战略参考》,这本刊物由阿里云与钛媒体联合策划。目的是为了把各个行业先行者的技术探索、业务实践呈现出来,与思考同样问题的“数智先行者”共同探讨、碰撞,希望这些内容能让你有所启发。阿里云正

热心网友
03.31
CZTSSe薄膜光伏产业化新突破:十年十破世界纪录
科技数码
CZTSSe薄膜光伏产业化新突破:十年十破世界纪录

文 | 万联万象一则来自中国科学院的消息,在光伏产业界引发广泛关注。2026年3月25日,中国科学院物理研究所孟庆波团队宣布,将铜锌锡硫硒(CZTSSe)太阳能电池权威认证效率提升至16 6%,第十

热心网友
03.27
中国团队刷新纸飞机滞空世界纪录,31.2秒打破日本15年垄断
科技数码
中国团队刷新纸飞机滞空世界纪录,31.2秒打破日本15年垄断

扬子晚报网3月25日讯(记者 姜天圣)近日,吉尼斯世界纪录官方确认:2026 年 2 月 11 日,在江苏昆山体育中心体育馆,由饶翀逸、王承昊、唐帅、刘力文、杨仕安、贾思熠、潘秭辰组成的中国青年团队

热心网友
03.25

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

吉港航天科技合作成果丰硕 两地深度融合促发展
科技数码
吉港航天科技合作成果丰硕 两地深度融合促发展

香港科技大学牵头研制的“天韵相机”随天舟十号升空,该项目由内地与香港科研团队合作完成,体现了双方优势互补的高效能。香港科研正深度融入国家发展大局,从“参与”转变为“不可或缺”的一部分。项目不仅激励更多机构参与国家重大工程,还积极推动成果转化,相关企业正将监测数据转化。

热心网友
05.15
英伟达股价突破236美元创历史新高 市值接近6万亿美元
科技数码
英伟达股价突破236美元创历史新高 市值接近6万亿美元

英伟达股价5月14日创下236 54美元历史新高,收盘涨4 39%至235 74美元,盘后交易继续微涨,公司总市值攀升至约5 71万亿美元。

热心网友
05.15
PENGU代币机制解析:Pudgy Penguins生态亮点与赛道定位全攻略
web3.0
PENGU代币机制解析:Pudgy Penguins生态亮点与赛道定位全攻略

PudgyPenguins生态代币PENGU采用创新的质押与销毁机制,旨在平衡价值捕获与社区激励。其定位超越了传统NFT项目,致力于构建一个融合实体商品、游戏与社交的综合性IP生态。通过独特的“灵魂绑定”特质和多元化的应用场景,PENGU力图在竞争激烈的Web3赛道中,探索出一条可持续的IP价值实现路径。

热心网友
05.15
马斯克起诉OpenAI案最新进展结案陈词阶段
科技数码
马斯克起诉OpenAI案最新进展结案陈词阶段

马斯克起诉OpenAI案进入结案陈词阶段。马斯克指控OpenAI背离非营利初衷,违反信托义务并转向营利,其律师质疑奥特曼信誉并指责微软协助不当行为。OpenAI律师反驳称马斯克证词矛盾,且其本人也曾试图控制公司获利。诉讼结果可能取决于是否在法定时效内提起,并将影响OpenAI未来发展与IPO进程。

热心网友
05.15
苹果与OpenAI合作破裂或将面临法律诉讼
科技数码
苹果与OpenAI合作破裂或将面临法律诉讼

彭博社报道,OpenAI对与苹果的合作现状非常失望,ChatGPT集成未达预期增长。OpenAI正评估法律选项,可能向苹果发出违约通知。双方于2024年宣布深度合作,但功能入口较深、收入低于预期。苹果则关注OpenAI隐私标准及硬件动向。科技公司与苹果合作历来复杂,历史案例包括谷歌地图、AdobeFlash及Spotify纠纷。

热心网友
05.15