首页 游戏 软件 资讯 排行榜 专题
首页
业界动态
Anthropic联创预测AI自主开发概率达六成2028年前或实现

Anthropic联创预测AI自主开发概率达六成2028年前或实现

热心网友
75
转载
2026-05-07

人工智能系统,或许很快将具备自主构建与迭代自身的能力!

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

这一前瞻性判断出自Anthropic联合创始人杰克·克拉克。5月4日,他在社交平台X上发表了一个引发广泛关注的预测:「递归自我改进(RSI)有60%的概率在2028年底之前实现。」

克拉克不仅是Anthropic的联合创始人,也是知名行业通讯《Import AI》的创办者与主笔,长期深入追踪人工智能技术的前沿动态。此次,他同步发布了一篇详尽的分析文章,系统阐述其预测依据与逻辑。

这一预测意义重大。其潜在的颠覆性影响如此深远,促使我们反思:人类社会是否已为迎接自动化AI研发所带来的根本性变革做好了充分准备?

克拉克在文中强调:若这一天到来,人类将跨越一道关键的「卢比孔河」,步入一个几乎难以预测的全新未来

他并不认为这会在2026年发生,但他判断,未来一两年内,我们很可能在非最前沿的模型上看到概念验证:即一个AI模型能够端到端地训练出自己的「下一代」。这一结论并非基于内部机密,而是整合了一系列公开信息——包括arXiv、bioRxiv、NBER等平台的学术论文,以及他对各大前沿实验室产品的持续观察。克拉克将这些碎片拼合,描绘出AI能力进展的全景图。

在他看来,实现AI工程化自主迭代所需的核心组件已基本就绪。剩余的关键问题在于:模型何时能积累足够的「创造性思维」,开始像人类研究员一样,真正推动技术前沿的突破。

四年跃迁:从30秒到12小时的任务处理能力

克拉克的核心论据,建立在一系列清晰的能力增长曲线上。

首先关注METR机构绘制的时间轴图。该机构专注于评估AI能力,他们追踪一个关键指标:当AI系统独立完成一项任务达到50%成功率时,这项任务若由熟练人类完成所需的大致时间。

这一数字的变化轨迹令人震惊:2022年,GPT-3.5对应的时长为30秒;2023年,GPT-4将其提升至4分钟;2024年,o1模型达到40分钟;2025年,GPT-5.2(高配版)跨越了6小时门槛;而到2026年,Claude Opus 4.6已能处理长达12小时的任务。

短短四年,从30秒到12小时,能力跨度增长超过1400倍!AI能力研究员阿杰亚·科特拉甚至认为,到2026年底前,这一数字有望突破100小时。一旦达到100小时的时间跨度,AI将能够覆盖许多需要数日才能完成的复杂软件工程或深度研究辅助任务。

编程能力的飞跃同样显著。以衡量AI解决真实GitHub工程问题的SWE-Bench基准测试为例,2023年底,Claude 2的得分仅为2%。而到了今年,Claude Mythos Preview的得分达到了93.9%,这意味着该基准几乎被完全攻克。

再看CORE-Bench测试,它评估另一项关键能力:给AI一篇学术论文和对应代码库,让其独立复现实验结果——这正是AI研究员的基础日常工作之一。2024年9月该测试推出时,最佳成绩为21.5%。到了2025年12月,Opus 4.5在特定框架下的验证准确率达到77.78%,经人工校验后高达95.5%,项目方宣布CORE-Bench已被解决。

15个月内,从21.5%到95.5%,进步速度可见一斑。

还有MLE-Bench测试,它评估AI独立参加Kaggle数据科学竞赛的能力,覆盖75个真实项目。2024年10月发布时,最高分仅为16.9%;而到2026年2月,Gemini 3结合搜索工具的组合,分数已跃升至64.4%。

Anthropic内部还有一个更直接的测试:让模型优化一段仅使用CPU的小型语言模型训练代码,比拼优化后的速度提升倍数。2025年5月,Claude Opus 4的优化倍数是2.9倍;到了11月,Opus 4.5达到16.5倍;2026年2月,Opus 4.6提升至30倍;而到2026年4月,Claude Mythos Preview已能实现52倍的优化。

不到一年,从2.9倍飙升至52倍。这直观展示了AI在「优化AI训练代码」这一核心工程任务上的迅猛进展。

99%的工程性工作:正被AI快速接管

这引出一个核心问题:AI研究本身,究竟有多少是纯粹的工程劳动,又有多少是真正的创意灵感?

克拉克引用了一个经典框架——爱迪生的名言:天才是1%的灵感和99%的汗水。他认为,AI研究同样遵循这一比例。

一个典型的AI研究循环是:基于现有系统扩大规模,观察问题出现点,修复工程瓶颈,然后进行下一轮扩大。此过程中,绝大部分工作是数据清洗、实验运行、参数调整、论文研读、结果复现……这些都属于「汗水」,而非「灵感」。偶尔会出现真正改变范式的发明,如Transformer架构或混合专家模型(MoE)。但那只占1%,且越来越不构成瓶颈,因为那99%的工程性工作,正被AI快速接管。

克拉克列举了几个明确信号:

首先,AI已能够管理其他AI。在Claude Code、OpenCode等工具中,一个AI可扮演「项目经理」角色,将复杂任务分解并分发给多个子AI并行处理,最后汇总结果。这种工作流,与人类研究团队的组织方式已无本质区别。

其次,PostTrainBench测试揭示了一个趋势:AI能否自行微调开源小模型以提升特定任务表现?这通常是前沿实验室里资深研究员的工作。截至2026年3月,AI系统在此任务上已达到人类研究员效果的一半左右,提升幅度约为25%到28%,而人类基线的提升幅度为51%。

更引人注目的是Anthropic内部的一个概念验证——「自动化对齐研究」:让一组AI智能体在AI安全研究问题上进行自主攻关。结果显示,AI提出的解决方案,甚至超过了Anthropic人类研究员设定的基线水平。

串联这些证据,克拉克得出的判断是:AI今天已能自动化AI工程中的绝大部分工作。至于AI研究本身有多少能被自动化,虽未完全清晰,但迹象已足够明显。

行业内的理性质疑

克拉克的观点抛出后,行业内也出现了一些理性的质疑声音。

华盛顿大学机器学习教授、《终极算法》作者佩德罗·多明戈斯回复道:「自50年代LISP语言发明以来,AI就已具备自我构建的潜力。问题的核心在于,此过程带来的是递增回报还是递减回报——而目前尚无证据支持前者。」

这一观点切中要害。递归自我改进听起来颇具未来感,但能循环不等于循环有收益。若每一代AI优化自身的效率仅有边际改善,而非指数级放大,则其实际影响将非常有限。

也有人对概念本身提出质疑。研究员丹·布里克利问道:「RSI是否存在一个权威的统一定义?」

另一个更尖锐的观察来自账号@crepesupreme:克拉克预测2027年的概率是30%,2028年是60%。这意味着一年内概率跳升30个百分点,暗示2027至2028年间可能存在某个不连续的、突变性的能力事件。那么,这个具体事件可能是什么?

克拉克在通讯文章中回应了这个隐含问题。他认为,AI研究仍需要某种创意上的突破,才能真正进入「自我研发」的循环,而AI目前在创造性方面尚未表现出变革性能力。这正是他只给2027年设定30%概率的原因。若此能力缺口在2028年底前被填补,概率就会升至60%。同时他也承认,自己预测的是概率,而非确切时间点。

还有人提出了一个更直接的问题:「你在Anthropic工作,为何要去翻查公开数据?直接询问你的研究员同事不就行了?」

克拉克的答案体现了一种严谨态度:使用公开数据,是因为公开数据才具有可验证的公信力。他追求的并非内部主观判断,而是一个任何人都能独立核验、基于客观事实的结论。

有限的时间窗口:正在快速缩窄

那么,为何克拉克不给2027年更高的概率呢?

他在通讯文章中解释道,因为他认为AI研究仍包含一些对创意和直觉的要求,而AI目前在这一领域仅有「诱人的早期信号」,尚未取得系统性突破。他举了两个例子:一是Gemini模型参与攻克埃尔德什数学问题,在700个问题中解出了1个被数学家认为具有一定原创性的解;另一个是斯坦福、UBC等机构与Google DeepMind的合作,其中AI在发现新的数学证明中起到了「非常实质性的作用」。

这些成果,在AI能力演进的时间轴上,或许可被视为某种早期信号。克拉克估计,若到2028年底仍未出现他所描述的情况,那可能意味着当前技术路径存在某个根本性的能力天花板,必须依靠人类的创意才能突破。

然而,比「是否发生」更关键的问题是「如果发生」之后该如何应对。

Anthropic在2026年3月宣布成立「Anthropic研究所」时,其官方声明中写道:「如果AI系统的递归自我改进确实开始发生,那么世界上谁应该被告知,以及这些系统应该如何治理?」

即便是Anthropic自身,也尚未拥有这个问题的完整答案。

克拉克在文章中给出了一个更技术性的担忧:假设今天的AI对齐技术有99.9%的准确率,在递归迭代50代之后,准确率会衰减到95.1%;迭代500代之后,将骤降至60.5%。除非对齐方案在理论上能保证在更智能的系统上同样有效,否则问题可能很快失控。

或许,克拉克真正想传达的是:留给人类进行有效治理与准备的时间窗口是有限的,并且它正在快速缩窄。他希望通过这篇文章发出提醒:关于此事的公共讨论、深入研究与治理框架设计,所剩余的时间,比大多数人想象的要更为紧迫。

行业动向也印证了这种紧迫感。根据山姆·奥特曼的直播及相关媒体报道,OpenAI的目标是让AI在2026年9月前达到「AI研究实习生」水平,并在2028年实现更完整的自动化研究员能力。Anthropic自身也在推进自动化对齐研究的概念验证。一家名为「递归超级智能」的新公司刚刚完成5亿美元融资,其核心目标之一正是自动化AI研究。

整个行业,已在朝这个方向全力加速。

克拉克总结道,无论从哪个维度审视,数据都指向同一个方向。每一条能力曲线,都在向右上方飞速延伸——处理时间更长,能力更强,且没有任何一条曲线显示出减速的迹象。

来源:https://36kr.com/p/3797756582747395
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

2000 亿美元豪赌!Anthropic与谷歌深度捆绑,AI算力竞赛进入白热化
业界动态
2000 亿美元豪赌!Anthropic与谷歌深度捆绑,AI算力竞赛进入白热化

人工智能领域的重磅合作:Anthropic与谷歌的深度算力绑定 人工智能的竞赛,早已超越了算法与模型的层面,正演变为一场关于计算资源的深度博弈。近期,一则消息震动了整个行业:顶级AI初创公司Anthropic已正式承诺,将在未来五年内向谷歌支付高达2000亿美元的资金。这笔天文数字般的投入,核心用途

热心网友
05.06
Anthropic发布10款金融AI智能体,加速进军华尔街市场
业界动态
Anthropic发布10款金融AI智能体,加速进军华尔街市场

Anthropic 金融AI智能体发布:华尔街的“新分析师”入场 金融圈最近有个大动静。Anthropic,就是那个开发了Claude模型的AI公司,最近一口气推出了十款面向金融行业的智能体产品。这可不是小打小闹,目标直指银&行、保险、资管这些高价值领域,从生成客户材料、审阅报表到触发合规审查,几乎

热心网友
05.06
消息称Anthropic看上英国企业Fractile推理芯片,有意导入
科技数码
消息称Anthropic看上英国企业Fractile推理芯片,有意导入

Anthropic被曝洽谈投资英国AI芯片新锐,剑指推理成本“硬骨头” 近日,行业媒体The Information披露了一则引人注目的消息:AI领域的明星公司Anthropic,正将目光投向一家名为Fractile的英国芯片初创企业。其意图相当明确——为自身庞大的AI算力需求,寻找除英伟达GPU、

热心网友
05.04
Anthropic 被指控使用盗版书籍训练 AI,作者提起集体诉讼
AI
Anthropic 被指控使用盗版书籍训练 AI,作者提起集体诉讼

Anthropic 被指控使用盗版书籍训练 AI,作者提起集体诉讼 一桩人工智能领域的热点诉讼,再次把版权问题推到了聚光灯下。根据路透社的报道,人工智能公司 Anthropic 正面临一群作家的集体诉讼,核心指控是其使用了盗版书籍来训练自家的AI模型。 这起案件于本周一在加利福尼亚州法院正式提起。原

热心网友
04.30
Anthropic或以9000亿美元估值超越OpenAI!
web3.0
Anthropic或以9000亿美元估值超越OpenAI!

AI独角兽估值再攀高峰:Anthropic或将以9000亿美元估值开启新一轮融资 AI领域的估值天花板,恐怕又要被刷新了。最近几周,一个惊人的数字在硅谷和华尔街流传开来:炙手可热的AI初创公司Anthropic,正在酝酿新一轮大规模融资,而潜在的估值目标,竟然被推高到了9000亿美元以上。 消息来自

热心网友
04.30

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

Java对象比对防空指针指南Objects.equals方法安全使用详解
编程语言
Java对象比对防空指针指南Objects.equals方法安全使用详解

在Java中直接调用a equals(b)进行对象比较时,若a为null会抛出NullPointerException。使用Objects equals(a,b)方法能自动处理参数为null的情况,其内部通过先检查引用是否为null再调用equals,从而安全地完成比较。该方法适用于实体字段判等等场景,但需注意其将两个null视为相等的设计是否符合具体业务逻

热心网友
05.07
Java子线程崩溃全局捕获与处理指南ThreadsetUncaughtExceptionHandler方法详解
编程语言
Java子线程崩溃全局捕获与处理指南ThreadsetUncaughtExceptionHandler方法详解

全局拦截子线程崩溃需设置默认处理器并结合自定义ThreadFactory为每个新线程注入统一处理器,前者作为兜底方案,但无法覆盖已有专属处理器的线程及Android主线程。Android中还需额外处理主线程及异步框架异常。捕获崩溃后应留存现场、异步上报并防止雪崩。

热心网友
05.07
CMS垃圾收集器详解初始标记并发标记重新标记与并发清除阶段分析
编程语言
CMS垃圾收集器详解初始标记并发标记重新标记与并发清除阶段分析

CMS垃圾收集器以低延迟为目标,其四个阶段中仅初始标记和重新标记需要暂停所有用户线程。初始标记快速标记直接关联对象,重新标记修正并发标记期间变动的引用,两者停顿时间极短。而并发标记和并发清除阶段则与用户线程并行执行,避免了长时间中断。

热心网友
05.07
Java只读缓冲区创建指南ByteBufferasReadOnlyBuffer方法详解与数据保护实践
编程语言
Java只读缓冲区创建指南ByteBufferasReadOnlyBuffer方法详解与数据保护实践

ByteBuffer asReadOnlyBuffer()方法创建原缓冲区的只读视图,共享底层数据且禁止写入,但无法阻止通过其他可写引用修改数据,因此不提供真正的数据隔离。它适用于需只读访问且避免拷贝的场景;若需完全隔离,则应进行深拷贝。

热心网友
05.07
Java单例模式初始化空指针异常ExceptionInInitializerError排查指南
编程语言
Java单例模式初始化空指针异常ExceptionInInitializerError排查指南

ExceptionInInitializerError常包裹单例模式静态初始化时发生的空指针异常。排查需通过getCause()找到根源,通常是静态字段赋值或静态代码块中的空值。应注意静态初始化顺序,避免循环依赖。对于复杂初始化,推荐使用懒汉式并在getInstance()方法内进行异常处理,以便直接定位问题。

热心网友
05.07