游乐游手机版
首页/AI教程/文章详情

Anthropic首次公开内部数据:80%代码已由AI编写

时间:2026-06-06 16:24
Anthropic公开内部数据:截至2026年5月,超过80%的代码由Claude编写。工程端每位工程师合并代码量达2024年的8倍,研究端实验优化加速52倍。AI已能独立编写和编辑整个文件,并委派工作给其他AI,递归自我改进趋势明确。

Anthropic 首次公开内部数据:80% 的代码已经由 AI 编写

Anthropic 近期发布了一篇题为《When AI builds itself》的深度报告。这并非一篇泛泛的趋势展望,而是基于真实的内部运营数据,揭示了一个正在加速发生的趋势:AI 正在加速构建 AI 自身,其演进速度已远超大多数人的预期。

首先,我们需要厘清两个关键背景:

报告中最为令人瞩目的数据是:截至 2026 年 5 月,Anthropic 合并到代码库中的代码,有超过 80% 是由 Claude 完成的。这不是实验演示,也不是测试数据,而是生产环境中的真实统计。换言之,AI 自我递归迭代的时代,已经悄然拉开序幕。

什么是递归自我改进?简单来说,就是 AI 系统自行设计并搭建下一代 AI 系统。不再是由人类编写代码来提升 AI,而是由 AI 编写代码来让自己变得更强大。一旦这个闭环形成,技术进步的速度将不再取决于人类工程师的产出,而完全由算力与算法效率来驱动。

Anthropic 在文中绘制了一条清晰的时间演进线:

  • 2021–2023:人类手动编写代码,AI 未参与开发
  • 2023–2025:人类借助聊天机器人辅助完成代码编写
  • 2025–2026:AI 能够独立编写和编辑整个文件
  • 今天:AI 自主运行代码,甚至可以将任务分派给其他 AI
  • 20XX:AI 构建并训练自身的下一代模型

我们目前正处于第四阶段。第五阶段仍在途中,但趋势线已经足够明确。

AI 能力的增速正在加快

从外部基准测试的变化来看,加速态势十分显著:

  • AI 能够独立完成的任务时长,从每 7 个月翻一番,加速到每 4 个月翻一番
  • 2024 年 3 月,Claude 可以完成 4 分钟的任务;2025 年 3 月,这一指标提升至 1.5 小时;2026 年 3 月,已经跃升至 12 小时
  • SWE-bench(真实 bug 修复测试):两年内从个位数得分快速走向饱和
  • CORE-Bench(论文复现测试):2024 年成功率仅为 20%,15 个月后同样趋于饱和

如果这一趋势持续下去,数天的任务在今年内将被纳入能力范围,数周的任务到 2027 年也大概率能够完成。

Anthropic 内部发生了什么

公开的基准测试只能展示 AI 的能力上限,却无法揭示它对 AI 开发本身的深远影响。而这部分,才是文章的核心所在。

如果你只想抓住这一节最重要的变化,下面这张图可以帮助你迅速建立直观印象。

这张图对应后文的核心判断:Anthropic 的变化并非单点突破,而是代码来源、工程节奏、研究速度以及质量审查——这几个维度同时被改写。

工程端:8 倍产出

2021 年到 2024 年,每位工程师每天合并的代码量一直保持稳定。但 2025 年 Claude 开始自主运行代码时,曲线开始抬头。到 2026 年模型能够长时间自主工作时,加速趋势更加陡峭。到 2026 年 Q2,典型工程师每天合并的代码量,是 2024 年的 8 倍。

当然,8 倍这个数字可能高估了真实生产力——代码行数本身并不是一个完美指标。但它足以说明一件事:加速度是真实存在的。Anthropic 并不按代码行数考核工程师,产出的增加纯粹是因为使用了 AI 撰写更多代码。

举个例子:2026 年 4 月,Claude 提交了 800 多个修复,将一类 API 错误减少了上千倍。负责监督的工程师表示,如果换人类来完成这项工作,至少需要四年时间。

研究端:从助手到竞争对手

在实验优化的基准测试中,2025 年 5 月 Claude Opus 4 达到了约 3 倍加速;到 2026 年 4 月,Claude Mythos Preview 已经飙升至 52 倍。作为参照,熟练的人类研究员完成 4 倍加速通常需要 4 到 8 小时。

更有意思的是研究判断力测试。如果给模型展示一段“即将走偏”的研究会话,并询问它下一步该做什么——2025 年 11 月时,最好的模型仅有 51% 的情况下能优于人类选择;但到 2026 年 4 月,这一数字已经上升到 64%。文章原话指出:「研究品味」可能只是 AI 系统暂时还做不好的又一项能力,随后它就会变得擅长。

代码质量:今年内会超过人类

Claude 编写的代码,在 2025 年底还比 Anthropic 的人类工程师略逊一筹;而今天,两者已经基本持平。文章预测:预计在年内,AI 会严格超过人类。

目前,Anthropic 的每次代码变更都会先经过一次自动化的 Claude 审查。回溯分析发现,这套自动审查系统本可以提前捕获 claude.ai 过去所有事故中三分之一的 bug。别忘了,编写那些代码的可都是全球顶尖的工程师。Claude 正在发现他们遗漏的错误。

AI 开发循环的演进

如果你想更深入地理解“递归自我改进”为什么现在突然变得如此具体,下面这张图可能会更直观。

先把主线记住:AI 先是帮助人类写代码,接着开始独立完成整段工作流,最后才逼近“帮自己变得更强”的闭合回路。

Anthropic 将这几年的演进画成了一张图,非常清晰:

时间阶段人在做什么
2021–2023建造第一个 Claude人写代码、写文档,和其他公司一样
2023–2025聊天机器人让 AI 生成短代码片段,人复制粘贴
2025–2026编码智能体AI 能独立编写和编辑代码,处理整个文件
今天自主智能体AI 自己跑代码,还能把工作委派给其他 AI
20XX?闭合回路AI 构建和训练自身模型,Claude 由 Claude 改进

我们现在处于第四行。第五行就是递归自我改进。

三种未来

如果你习惯从分叉路径的角度来理解趋势,可以先看下面这张图。

图的含义其实很简单:真正需要准备的,不是“AI 会不会变强”,而是它到底会沿着哪条路径继续加速。

文章提出了三种可能的走向:

场景一:趋势停滞。 指数曲线实际上是 S 曲线,能力增长终将见顶。但即使冻结在今天的水平,100 人的公司也能完成 1000 人的工作量。Anthropic 认为这个场景不太可能发生。

场景二:持续加速,但人类仍掌舵。 AI 开发基本实现自动化,人类负责选择方向和判断结果。100 人的公司能干 10 万人的活。Anthropic 认为我们正在步入这个场景。但阿姆达尔定律同样适用——当你加速了一部分工作,瓶颈就会转移到别处。如今,人类代码审查已经成了新的瓶颈。

场景三:完整的递归自我改进。 AI 自行设计下一代版本,人类仅做监督和验证。进步速度完全由算力决定。这是最不确定的场景——对齐问题可能得到解决,也可能因为模型不断自我迭代而失控。

Anthropic 的态度

文章最后一段值得细读。Anthropic 的立场是:他们正在研究如何构建一个可信的验证机制,让各方都能确认其他人确实暂停了,然后 Anthropic 才愿意一起慢下来。但训练运行比导弹发射井更容易隐藏,可信暂停在技术上极其困难。

坦白说,这段话的信息量甚至比前面的数据还要大。一家前沿 AI 公司公开表示“我们愿意慢下来,但前提是别人也能证明他们慢下来了”——这本身就是一种强烈的信号。

最后说两句

这篇文章的分量不在于展望,而在于数据。80% 的代码、8 倍产出、52 倍加速——这些不是预测,而是已经发生的事实。

递归自我改进尚未到来,但 AI 构建 AI 的循环已经在加速转动。问题不是它会不会来,而是我们准备好了没有。

来源:https://juejin.cn/post/7647563502249836559
上一篇浏览器模拟IoT设备实践:从零打造虚拟小智 下一篇Opus4.8实测9个案例表现突出性能强劲
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
Windows Docker Desktop RabbitMQ生产级部署完整指南
AI教程 · 2026-06-29

Windows Docker Desktop RabbitMQ生产级部署完整指南

前言 在 Windows 本地开发环境中,直接安装 RabbitMQ 确实颇为周折:需要单独配置 Erlang 运行环境、手动管理环境变量、服务启停全凭手工操作。更令人困扰的是,版本兼容冲突、端口占用、环境不一致等问题层出不穷。笔者见过不少开发者为搭建环境就得耗费整整半天时间。 相比之下,借助 Do

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践
AI教程 · 2026-06-29

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践

先分享一个切实感受。过去两年,我们与福建制造企业合作较为频繁,发现一个非常突出的现象:超过80%的企业官网,产品参数仍然存放在PDF或图片中。AI爬虫?根本无法抓取。这些企业技术实力不弱、资质证照齐全、应用案例也丰富,但在AI搜索这一全新战场上,它们几乎处于隐身状态。 一、一个正在发生的行业变化 A

阿里云Token Plan团队版功能价格与省钱购买指南
AI教程 · 2026-06-29

阿里云Token Plan团队版功能价格与省钱购买指南

阿里云百炼近期推出了名为“Token Plan 团队版”的全新服务,这一服务专为企业与开发者量身打造,定位为AI大模型订阅平台。通过引入Credits作为统一计量单位,将文本生成、图像生成等多模态AI能力纳入单一计费体系,同时无缝兼容主流AI编程工具及智能体(Agent)生态系统。其核心亮点包括:全

阿里云物联网.NET Core客户端位置信息上报
AI教程 · 2026-06-29

阿里云物联网.NET Core客户端位置信息上报

阿里云物联网平台的位置服务并非一个完全独立的功能模块。位置信息可包含二维坐标与三维坐标,而位置数据的来源本质上是借助设备属性进行上传。换言之,若要让设备上报位置,您需先将其视为一个普通属性进行处理。 1)添加二维位置数据 操作过程十分简洁。进入数据分析 → 空间数据可视化 → 二维数据,点击添加,将

年阿里云服务器选型配置与网站部署全攻略
AI教程 · 2026-06-29

年阿里云服务器选型配置与网站部署全攻略

2026年,阿里云服务器生态已高度成熟,形成了清晰的轻量应用服务器与ECS云服务器两大产品阵营。无论你是计划搭建个人博客、企业官网,还是运营电商平台、进行应用开发,基本都能找到理想的解决方案。本指南将从服务器选型、配置选择、部署流程到安全运维,系统梳理2026年最实用的操作要点,帮助你少走弯路,让网