首页 游戏 软件 资讯 排行榜 专题
首页
AI
Anthropic联创预测AI自主进化概率达60% 2028年底前或实现

Anthropic联创预测AI自主进化概率达60% 2028年底前或实现

热心网友
75
转载
2026-05-17


AI自己创造AI的时代,可能比我们想象的更近。这不是科幻小说的情节,而是行业顶尖观察者基于一系列公开数据得出的严肃判断。

近日,Anthropic联合创始人Jack Clark在社交媒体上分享了一个引人注目的观点:他认为,到2028年底之前,AI实现“递归自我改进”(即AI系统能够自行构建和改进其后续版本)的概率高达60%。这个判断并非空xue来风,而是基于他对编程、科研复现、模型训练优化等多条能力曲线的长期追踪——这些曲线无一例外,都在向右上方飞速延伸,看不到减速的迹象。


作为长期跟踪AI能力进展的通讯《Import AI》的创办者,Clark在发布观点的同时,也附上了一篇详尽的分析文章。他在文中坦言,这个结论的影响如此巨大,以至于让他感到自身渺小,并担忧社会是否已准备好迎接自动化AI研发所带来的根本性变革。他将这一潜在转折点比作一道“卢比孔河”,一旦跨过,未来将变得几乎无法预测。


四年,从“半分钟”到“半天”的飞跃

支撑Clark结论的核心,是一组清晰的能力进展曲线。首先来看METR机构的时间轴图,它衡量的是AI系统独立完成任务的能力水平。


METR追踪的是:在达到50%成功率时,AI能独立完成一项任务所需的时间跨度,这个时间相当于一个熟练人类完成同样任务的时间。数据显示:

  • 2024年,GPT-3.5能处理约30秒的任务。
  • 同年,GPT-4将这个数字推到了4分钟。
  • 同样是2024年,o1模型达到了40分钟。
  • 2025年,GPT-5.2(高配版)突破了6小时。
  • 到了2026年,Claude Opus 4.6已经能处理长达12小时的任务。

短短四年,从30秒到12小时,能力跨度增长了1440倍。AI能力研究员Ajeya Cotra甚至预测,到2026年底,这个数字有望突破100小时。这意味着,AI将能够覆盖许多需要多日完成的软件或研究辅助任务。

编程与科研:基准被接连“打穿”

编程能力的进化同样惊人。SWE-Bench基准测试衡量AI解决真实GitHub工程问题的能力。2024年底,Claude 2的得分仅为2%。而到了今年,Claude Mythos Preview的得分达到了惊人的93.9%,这个基准可以说基本被解决了。

再看CORE-Bench,它测试的是AI根据一篇论文和对应代码库,独立复现实验结果的能力——这正是AI研究员的日常基本功。


2024年9月该测试推出时,最好成绩是21.5%。到了2025年12月,Opus 4.5在特定框架下的验证准确率达到了77.78%,经人工校验后高达95.5%。项目方宣布,CORE-Bench已被解决。从21.5%到95.5%,只用了15个月。

在机器学习工程领域,MLE-Bench测试AI独立参加Kaggle竞赛的能力。2024年10月发布时最高分为16.9%,而到2026年2月,Gemini 3结合搜索工具的组合,分数已经达到了64.4%。


更直接的证据来自Anthropic的内部测试:让模型优化一个仅使用CPU的小型语言模型的训练代码,目标是速度越快越好。

  • 2025年5月,Claude Opus 4的优化倍数是2.9倍。
  • 2025年11月,Opus 4.5提升到了16.5倍。
  • 2026年2月,Opus 4.6达到了30倍。
  • 2026年4月,Claude Mythos Preview实现了52倍的优化。

不到一年时间,优化效率从2.9倍暴涨至52倍。这直观地展示了AI在优化“AI训练”这件事上的进展速度。

“99%的汗水”即将被自动化

这里引出一个关键问题:AI研究工作中,有多少是纯粹的工程劳动,又有多少是真正的创意灵感?Clark借用爱迪生的名言给出了一个框架:天才是1%的灵感加上99%的汗水。他认为,AI研究也是如此。

一个典型的AI研究循环,大部分工作其实是数据清洗、跑实验、调参数、读论文、复现结果——这些都属于“汗水”部分,而非“灵感”。真正改变范式的发明,如Transformer或混合专家模型(MoE),只占那1%。而现状是,那99%的工程性工作,正在被AI快速接管。

几个信号值得关注:

首先,AI已经能够管理其他AI。在Claude Code、OpenCode这类工具中,单个AI可以扮演“项目经理”角色,将任务分发给多个子AI并行处理,然后汇总结果。这种组织方式,与人类研究团队已没有本质区别。

其次,PostTrainBench测试了AI微调开源小模型以提升其任务表现的能力,这通常是前沿实验室研究员的工 作。


截至2026年3月,AI系统在这个任务上能达到人类研究员效果的一半左右(提升幅度约25%-28%,人类基线为51%)。

更具说服力的是Anthropic内部的“自动化对齐研究”概念验证:让一组AI智能体在AI安全研究问题上自主攻关。结果,AI提出的方案甚至超过了Anthropic人类研究员的基线水平。


将这些证据串联起来,Clark的判断是:AI今天已经能够自动化AI工程中的绝大部分工作。至于AI研究中有多少能最终被自动化,虽然还不完全清楚,但迹象已经非常明显。

质疑与回应:循环不等于指数收益

Clark的观点也引发了一些行业质疑。《终极算法》作者、华盛顿大学教授Pedro Domingos回应指出,从LISP语言在50年代发明以来,AI就具备了构建自身的能力。核心问题在于,这个过程带来的是递增回报还是递减回报?目前并没有证据支持前者。


换句话说,递归自我改进听起来很科幻,但能循环不等于循环有收益。如果每一代AI优化自己的效率只有边际改善,而非指数级放大,那么其影响将非常有限。

也有研究者对概念本身提出疑问。研究员Dan Brickley问道:“递归自我改进到底有没有一个权威定义?”


一个更尖锐的观察来自账号@crepesupreme:Clark预测2027年概率为30%,2028年则跳升至60%。这意味着在2027到2028年之间,存在某个导致能力不连续跃升的关键事件。那个具体事件是什么?

Clark在文章中回应了这个隐含问题。他认为,AI研究仍需要某种创意突破才能真正进入“自我研发”循环,而AI目前在创意直觉方面只有“诱人的早期信号”,尚无系统性突破。这正是他将2027年概率只设定在30%的原因。如果这个创意缺口在2028年底前被填补,概率就会升至60%。同时他也承认,自己预测的是概率,而非确切时间点。

还有人质疑他的方法:“你在Anthropic工作,为什么不直接下楼问同事,反而去翻公开数据?”Clark的回答是,使用公开数据正是为了确保结论的可信度。他要的是一个任何人都能独立核验的判断,而非内部观点。

有限的窗口与治理的挑战

那么,为什么Clark不给2027年更高的概率?他在文章中解释,因为AI研究包含对创意直觉的要求,而AI目前在这一块仅有“诱人的早期信号”,比如Gemini模型参与攻克Erdős数学问题,在700个问题中解出了一个被数学家认为具有一定原创性的解;再如斯坦福、UBC等机构与Google DeepMind的合作中,AI在发现新数学证明中起到了“非常实质性的作用”。

这些结果,可能是能力演化时间轴上的早期信号。Clark估计,如果到2028年底他描述的情况仍未出现,则说明当前技术路径存在某个根本性的能力天花板,需要人类的创意才能突破。

然而,更关键的问题是“如果出现了”之后该怎么办。Anthropic在2026年3月宣布成立The Anthropic Institute时,其声明中就包含了一个尖锐的问题:如果AI系统的递归自我改进确实开始发生,那么世界上谁应该被告知,以及这些系统应该如何治理?


连Anthropic自己,也还没有这个问题的完整答案。

Clark在文章中提出了一个更技术性的担忧:假设今天的AI对齐技术有99.9%的准确率。在递归迭代50代之后,对齐的准确率会衰减到95.1%;迭代500代之后,则会暴跌至60.5%。除非对齐方案在理论上能保证对更智能的系统同样有效,否则问题将很快浮现。

或许,Clark真正想提醒的是:留给社会讨论、研究和设计治理框架的时间窗口是有限的,而且正在快速缩窄。

行业的动向也印证了这种紧迫感。据媒体报道,OpenAI的目标是让AI在2026年9月前达到“AI研究实习生”水平,2028年实现更完整的自动化研究员能力。Anthropic自身也在推进自动化对齐研究。一家名为Recursive Superintelligence的新公司刚刚完成5亿美元融资,其目标之一正是自动化AI研究。

整个行业,已经在朝这个方向加速前进。无论从哪个维度审视,数据都指向同一个方向。每一条能力曲线都在向右上方飞驰,时间越长,能力越强,并且没有任何一条显示出减速的迹象。

来源:https://www.163.com/dy/article/KS6KU9UU0511ABV6.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

马斯克解散xAI并将22万张GPU算力转租Anthropic
业界动态
马斯克解散xAI并将22万张GPU算力转租Anthropic

就在刚刚,科技行业传来一则重磅消息:埃隆·马斯克正式确认,其旗下的人工智能公司xAI将被解散。 根据最新安排,xAI公司及其核心产品——大语言模型Grok(包括社交平台X的相关AI业务)——将被整体整合进入SpaceX,成为一个全新的子部门,统一命名为“SpaceXAI”。 这一重大组织架构调整看似

热心网友
05.16
Anthropic AI 揭示大模型注意力回路机制
AI
Anthropic AI 揭示大模型注意力回路机制

Anthropic公司提出新方法,通过构建可解释的“替换模型”将大语言模型内部计算可视化,识别特征与回路,绘制“归因图”揭示输出答案的具体路径。干预实验验证了其有效性,并探讨了特征间全局关联,但存在无法解释注意力机制、替换模型与原模型不完全一致等局限。

热心网友
05.16
百度DuMate登顶PinchBench,超越Anthropic夺全球龙虾执行赛冠军
业界动态
百度DuMate登顶PinchBench,超越Anthropic夺全球龙虾执行赛冠军

5月8日凌晨,智能体评测领域迎来里程碑式突破:百度推出的智能体框架“搭子”DuMate,在业界公认的权威基准PinchBench上成功登顶,并在榜单前五名中强势占据三席。这一成绩标志着其综合执行能力已超越Anthropic与OpenAI的同类模型,问鼎全球智能体执行力竞赛榜首。与此同时,在另一项聚焦

热心网友
05.16
马斯克AI公司发布首个编程智能体 挑战Anthropic专业编程市场
AI
马斯克AI公司发布首个编程智能体 挑战Anthropic专业编程市场

图注:xAI公司发布编程AI智能体 北京时间5月15日,彭博社报道称,埃隆·马斯克旗下的人工智能公司xAI推出了其首个专注于编程领域的AI智能体——Grok Build。这一举措标志着,这家由马斯克创立的AI初创企业正式进军软件开发自动化赛道,旨在与行业领先者Anthropic旗下的Claude展开

热心网友
05.15
Anthropic产品负责人Cat Wu谈AI未来趋势 预判用户需求成关键
AI
Anthropic产品负责人Cat Wu谈AI未来趋势 预判用户需求成关键

当整个科技界的目光都聚焦于AI模型的军备竞赛时,有一家公司正悄然迎来自己的高光时刻——Anthropic。 这家公司正走在一条超越主要竞争对手的快车道上。一方面,它寻求筹集数百亿美元资金,此轮融资估值或将达到约9500亿美元,这个数字已经超过了OpenAI在今年3月融资轮中创下的8540亿美元估值。

热心网友
05.15

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

秒创AI视频制作平台:一键生成专业视频,简单高效
AI
秒创AI视频制作平台:一键生成专业视频,简单高效

在内容创作领域,效率是核心竞争力。随着AIGC技术浪潮的全面到来,一个能够整合文案、图像、音频、视频全流程的智能创作平台,已成为创作者提升生产力的关键工具。今天我们要深入解析的“秒创”,正是这样一个旨在实现“秒级”内容生成的一站式AI创作解决方案。 秒创是什么?一站式AI创作平台详解 秒创,其前身为

热心网友
05.17
UNI代币详解:Uniswap治理代币的作用与价值关联
web3.0
UNI代币详解:Uniswap治理代币的作用与价值关联

UNI是Uniswap平台的治理代币,持有者可参与协议决策。其总量10亿枚,分配注重社区发展。关键转折在于“UNIfication”提案通过后,平台部分手续费用于回购销毁UNI,使代币具备价值积累功能。Uniswap作为领先的去中心化交易所,其交易活跃度直接支撑UNI价值。未来发展与平台交易量及监管环境密切相关,需关注相关风险。

热心网友
05.17
自动做市商AMM详解:运作原理、DeFi影响与未来趋势
web3.0
自动做市商AMM详解:运作原理、DeFi影响与未来趋势

自动做市商通过算法和流动性池革新了加密资产交易,消除了对订单簿和中介的依赖。其核心是恒定乘积公式,能实时定价并降低参与门槛,但也伴随无常损失风险。未来,AMM将向可编程、跨链互操作、AI赋能及拓展至真实世界资产等方向发展,并在合规框架下演进,以提升交易效率与安全性。

热心网友
05.17
中国电影电视技术学会:科协团体会员单位的专业职能与服务
AI
中国电影电视技术学会:科协团体会员单位的专业职能与服务

在中国广播影视与网络视听行业的技术演进历程中,中国电影电视技术学会始终扮演着关键角色。作为该领域内唯一的国家级学术组织,学会依托中央广播电视总台的强大支撑,核心使命在于推动行业技术交流、协同创新与高质量发展。它不仅是我国广播、电影、电视及网络视听科技事业的重要社会力量,更是连接产学研用、促进行业整体

热心网友
05.17
iPhone重置三种简单方法详细步骤
iphone
iPhone重置三种简单方法详细步骤

iPhone硬重置可将设备彻底恢复至出厂状态,清除所有个人数据和设置,常用于解决系统故障或转让前清理隐私。具体可通过设备设置、连接电脑使用iTunes或Finder、以及借助专业解锁工具三种方法实现。其中专业工具能在忘记密码时强制清除设备数据。重置后所有内容将被永久删除,需提前备份重要信息。

热心网友
05.17