Anthropic联创预测AI自主进化概率达60% 2028年底前或实现

AI自己创造AI的时代,可能比我们想象的更近。这不是科幻小说的情节,而是行业顶尖观察者基于一系列公开数据得出的严肃判断。
近日,Anthropic联合创始人Jack Clark在社交媒体上分享了一个引人注目的观点:他认为,到2028年底之前,AI实现“递归自我改进”(即AI系统能够自行构建和改进其后续版本)的概率高达60%。这个判断并非空xue来风,而是基于他对编程、科研复现、模型训练优化等多条能力曲线的长期追踪——这些曲线无一例外,都在向右上方飞速延伸,看不到减速的迹象。

作为长期跟踪AI能力进展的通讯《Import AI》的创办者,Clark在发布观点的同时,也附上了一篇详尽的分析文章。他在文中坦言,这个结论的影响如此巨大,以至于让他感到自身渺小,并担忧社会是否已准备好迎接自动化AI研发所带来的根本性变革。他将这一潜在转折点比作一道“卢比孔河”,一旦跨过,未来将变得几乎无法预测。

四年,从“半分钟”到“半天”的飞跃
支撑Clark结论的核心,是一组清晰的能力进展曲线。首先来看METR机构的时间轴图,它衡量的是AI系统独立完成任务的能力水平。

METR追踪的是:在达到50%成功率时,AI能独立完成一项任务所需的时间跨度,这个时间相当于一个熟练人类完成同样任务的时间。数据显示:
- 2024年,GPT-3.5能处理约30秒的任务。
- 同年,GPT-4将这个数字推到了4分钟。
- 同样是2024年,o1模型达到了40分钟。
- 2025年,GPT-5.2(高配版)突破了6小时。
- 到了2026年,Claude Opus 4.6已经能处理长达12小时的任务。
短短四年,从30秒到12小时,能力跨度增长了1440倍。AI能力研究员Ajeya Cotra甚至预测,到2026年底,这个数字有望突破100小时。这意味着,AI将能够覆盖许多需要多日完成的软件或研究辅助任务。
编程与科研:基准被接连“打穿”
编程能力的进化同样惊人。SWE-Bench基准测试衡量AI解决真实GitHub工程问题的能力。2024年底,Claude 2的得分仅为2%。而到了今年,Claude Mythos Preview的得分达到了惊人的93.9%,这个基准可以说基本被解决了。
再看CORE-Bench,它测试的是AI根据一篇论文和对应代码库,独立复现实验结果的能力——这正是AI研究员的日常基本功。

2024年9月该测试推出时,最好成绩是21.5%。到了2025年12月,Opus 4.5在特定框架下的验证准确率达到了77.78%,经人工校验后高达95.5%。项目方宣布,CORE-Bench已被解决。从21.5%到95.5%,只用了15个月。
在机器学习工程领域,MLE-Bench测试AI独立参加Kaggle竞赛的能力。2024年10月发布时最高分为16.9%,而到2026年2月,Gemini 3结合搜索工具的组合,分数已经达到了64.4%。

更直接的证据来自Anthropic的内部测试:让模型优化一个仅使用CPU的小型语言模型的训练代码,目标是速度越快越好。
- 2025年5月,Claude Opus 4的优化倍数是2.9倍。
- 2025年11月,Opus 4.5提升到了16.5倍。
- 2026年2月,Opus 4.6达到了30倍。
- 2026年4月,Claude Mythos Preview实现了52倍的优化。
不到一年时间,优化效率从2.9倍暴涨至52倍。这直观地展示了AI在优化“AI训练”这件事上的进展速度。
“99%的汗水”即将被自动化
这里引出一个关键问题:AI研究工作中,有多少是纯粹的工程劳动,又有多少是真正的创意灵感?Clark借用爱迪生的名言给出了一个框架:天才是1%的灵感加上99%的汗水。他认为,AI研究也是如此。
一个典型的AI研究循环,大部分工作其实是数据清洗、跑实验、调参数、读论文、复现结果——这些都属于“汗水”部分,而非“灵感”。真正改变范式的发明,如Transformer或混合专家模型(MoE),只占那1%。而现状是,那99%的工程性工作,正在被AI快速接管。
几个信号值得关注:
首先,AI已经能够管理其他AI。在Claude Code、OpenCode这类工具中,单个AI可以扮演“项目经理”角色,将任务分发给多个子AI并行处理,然后汇总结果。这种组织方式,与人类研究团队已没有本质区别。
其次,PostTrainBench测试了AI微调开源小模型以提升其任务表现的能力,这通常是前沿实验室研究员的工 作。

截至2026年3月,AI系统在这个任务上能达到人类研究员效果的一半左右(提升幅度约25%-28%,人类基线为51%)。
更具说服力的是Anthropic内部的“自动化对齐研究”概念验证:让一组AI智能体在AI安全研究问题上自主攻关。结果,AI提出的方案甚至超过了Anthropic人类研究员的基线水平。

将这些证据串联起来,Clark的判断是:AI今天已经能够自动化AI工程中的绝大部分工作。至于AI研究中有多少能最终被自动化,虽然还不完全清楚,但迹象已经非常明显。
质疑与回应:循环不等于指数收益
Clark的观点也引发了一些行业质疑。《终极算法》作者、华盛顿大学教授Pedro Domingos回应指出,从LISP语言在50年代发明以来,AI就具备了构建自身的能力。核心问题在于,这个过程带来的是递增回报还是递减回报?目前并没有证据支持前者。

换句话说,递归自我改进听起来很科幻,但能循环不等于循环有收益。如果每一代AI优化自己的效率只有边际改善,而非指数级放大,那么其影响将非常有限。
也有研究者对概念本身提出疑问。研究员Dan Brickley问道:“递归自我改进到底有没有一个权威定义?”

一个更尖锐的观察来自账号@crepesupreme:Clark预测2027年概率为30%,2028年则跳升至60%。这意味着在2027到2028年之间,存在某个导致能力不连续跃升的关键事件。那个具体事件是什么?
Clark在文章中回应了这个隐含问题。他认为,AI研究仍需要某种创意突破才能真正进入“自我研发”循环,而AI目前在创意直觉方面只有“诱人的早期信号”,尚无系统性突破。这正是他将2027年概率只设定在30%的原因。如果这个创意缺口在2028年底前被填补,概率就会升至60%。同时他也承认,自己预测的是概率,而非确切时间点。
还有人质疑他的方法:“你在Anthropic工作,为什么不直接下楼问同事,反而去翻公开数据?”Clark的回答是,使用公开数据正是为了确保结论的可信度。他要的是一个任何人都能独立核验的判断,而非内部观点。
有限的窗口与治理的挑战
那么,为什么Clark不给2027年更高的概率?他在文章中解释,因为AI研究包含对创意直觉的要求,而AI目前在这一块仅有“诱人的早期信号”,比如Gemini模型参与攻克Erdős数学问题,在700个问题中解出了一个被数学家认为具有一定原创性的解;再如斯坦福、UBC等机构与Google DeepMind的合作中,AI在发现新数学证明中起到了“非常实质性的作用”。
这些结果,可能是能力演化时间轴上的早期信号。Clark估计,如果到2028年底他描述的情况仍未出现,则说明当前技术路径存在某个根本性的能力天花板,需要人类的创意才能突破。
然而,更关键的问题是“如果出现了”之后该怎么办。Anthropic在2026年3月宣布成立The Anthropic Institute时,其声明中就包含了一个尖锐的问题:如果AI系统的递归自我改进确实开始发生,那么世界上谁应该被告知,以及这些系统应该如何治理?

连Anthropic自己,也还没有这个问题的完整答案。
Clark在文章中提出了一个更技术性的担忧:假设今天的AI对齐技术有99.9%的准确率。在递归迭代50代之后,对齐的准确率会衰减到95.1%;迭代500代之后,则会暴跌至60.5%。除非对齐方案在理论上能保证对更智能的系统同样有效,否则问题将很快浮现。
或许,Clark真正想提醒的是:留给社会讨论、研究和设计治理框架的时间窗口是有限的,而且正在快速缩窄。
行业的动向也印证了这种紧迫感。据媒体报道,OpenAI的目标是让AI在2026年9月前达到“AI研究实习生”水平,2028年实现更完整的自动化研究员能力。Anthropic自身也在推进自动化对齐研究。一家名为Recursive Superintelligence的新公司刚刚完成5亿美元融资,其目标之一正是自动化AI研究。
整个行业,已经在朝这个方向加速前进。无论从哪个维度审视,数据都指向同一个方向。每一条能力曲线都在向右上方飞驰,时间越长,能力越强,并且没有任何一条显示出减速的迹象。
相关攻略
就在刚刚,科技行业传来一则重磅消息:埃隆·马斯克正式确认,其旗下的人工智能公司xAI将被解散。 根据最新安排,xAI公司及其核心产品——大语言模型Grok(包括社交平台X的相关AI业务)——将被整体整合进入SpaceX,成为一个全新的子部门,统一命名为“SpaceXAI”。 这一重大组织架构调整看似
Anthropic公司提出新方法,通过构建可解释的“替换模型”将大语言模型内部计算可视化,识别特征与回路,绘制“归因图”揭示输出答案的具体路径。干预实验验证了其有效性,并探讨了特征间全局关联,但存在无法解释注意力机制、替换模型与原模型不完全一致等局限。
5月8日凌晨,智能体评测领域迎来里程碑式突破:百度推出的智能体框架“搭子”DuMate,在业界公认的权威基准PinchBench上成功登顶,并在榜单前五名中强势占据三席。这一成绩标志着其综合执行能力已超越Anthropic与OpenAI的同类模型,问鼎全球智能体执行力竞赛榜首。与此同时,在另一项聚焦
图注:xAI公司发布编程AI智能体 北京时间5月15日,彭博社报道称,埃隆·马斯克旗下的人工智能公司xAI推出了其首个专注于编程领域的AI智能体——Grok Build。这一举措标志着,这家由马斯克创立的AI初创企业正式进军软件开发自动化赛道,旨在与行业领先者Anthropic旗下的Claude展开
当整个科技界的目光都聚焦于AI模型的军备竞赛时,有一家公司正悄然迎来自己的高光时刻——Anthropic。 这家公司正走在一条超越主要竞争对手的快车道上。一方面,它寻求筹集数百亿美元资金,此轮融资估值或将达到约9500亿美元,这个数字已经超过了OpenAI在今年3月融资轮中创下的8540亿美元估值。
热门专题
热门推荐
在内容创作领域,效率是核心竞争力。随着AIGC技术浪潮的全面到来,一个能够整合文案、图像、音频、视频全流程的智能创作平台,已成为创作者提升生产力的关键工具。今天我们要深入解析的“秒创”,正是这样一个旨在实现“秒级”内容生成的一站式AI创作解决方案。 秒创是什么?一站式AI创作平台详解 秒创,其前身为
UNI是Uniswap平台的治理代币,持有者可参与协议决策。其总量10亿枚,分配注重社区发展。关键转折在于“UNIfication”提案通过后,平台部分手续费用于回购销毁UNI,使代币具备价值积累功能。Uniswap作为领先的去中心化交易所,其交易活跃度直接支撑UNI价值。未来发展与平台交易量及监管环境密切相关,需关注相关风险。
自动做市商通过算法和流动性池革新了加密资产交易,消除了对订单簿和中介的依赖。其核心是恒定乘积公式,能实时定价并降低参与门槛,但也伴随无常损失风险。未来,AMM将向可编程、跨链互操作、AI赋能及拓展至真实世界资产等方向发展,并在合规框架下演进,以提升交易效率与安全性。
在中国广播影视与网络视听行业的技术演进历程中,中国电影电视技术学会始终扮演着关键角色。作为该领域内唯一的国家级学术组织,学会依托中央广播电视总台的强大支撑,核心使命在于推动行业技术交流、协同创新与高质量发展。它不仅是我国广播、电影、电视及网络视听科技事业的重要社会力量,更是连接产学研用、促进行业整体
iPhone硬重置可将设备彻底恢复至出厂状态,清除所有个人数据和设置,常用于解决系统故障或转让前清理隐私。具体可通过设备设置、连接电脑使用iTunes或Finder、以及借助专业解锁工具三种方法实现。其中专业工具能在忘记密码时强制清除设备数据。重置后所有内容将被永久删除,需提前备份重要信息。





