6月5日,Anthropic发布了一篇颇具影响力的博文,明确指出一个关键趋势:人工智能正在加速自身研发进程。更通俗地说,我们或许正站在“递归自我改进”技术概念的门槛上。
所谓递归自我改进,简单而言就是AI系统能够自主完成下一代版本的设计、训练、评估与迭代——形成一套自我完善的闭环系统。这一概念被视为里程碑,原因在于一旦闭环真正运作,技术进步速度将主要取决于算力、基础设施与验证机制,而非人类科研节奏。
不过切勿过早下结论。Anthropic也明确表示:这一阶段尚未真正实现,也并非必然路径。但值得警惕的是——相关迹象已经比多数机构预期来得更早、更强烈。

能力加速趋势
能力加速的首个信号来自公开基准数据。Anthropic指出,AI能够稳定独立完成任务的时长大约每四个月翻倍。以下数据可以佐证:
2024年3月,Claude Opus 3能稳定处理约4分钟的软件任务;一年后,Claude Sonnet 3.7提升至1.5小时;到2026年3月,Claude Opus 4.6已可持续处理12小时的任务。进步速度显而易见。
基准测试同样表现惊人。以SWE-bench为例,该基准专门评估真实软件工程修复能力,模型在两年内从个位数成绩一路逼近饱和。再看CORE-Bench,它衡量复现实验论文结果的能力,AI在2024年成功率仅约20%,15个月后同样接近饱和。此外,METR发现:Claude Mythos Preview的连续工作能力至少达到16小时,已接近现有任务集的可测上限。

Anthropic内部数据更具说服力。截至2026年5月,超过80%的合入代码由Claude编写——而在Claude Code于2025年2月进入研究预览阶段之前,这一比例仅为个位数。随着模型从代码建议转向自主运行与长期任务处理,工程师人均日合入代码量显著增长:2026年第二季度的典型工程师较2024年达到8倍。当然,文章也诚实指出:代码行数偏重数量,不能完全等同于实际生产率。
除代码产出外,Claude在执行复杂任务方面的效果也在增强。2026年3月,Anthropic内部一项覆盖130人的调查显示,受访者估计在Mythos Preview的辅助下,产出中位数达到无AI时的4倍。更具体的事例:2026年4月,Claude完成了超过800项修复,将一类API错误降低至原来的千分之一——负责监督的工程师估计,若完全依靠人工,可能需要四年时间。
不过,Anthropic文章反复强调一个观点:当前人类优势依然集中于研究判断、问题选择、结果信任与方向把控。换言之,AI在执行层面正逼近甚至超越人类,但在“决定该做什么”这一关键环节,差距仍然显著。这正是当前最微妙的平衡点。
文章还揭示了一个现实问题:AI的自我改进不会凭空爆发。即使Claude能编写更多代码,企业若要将这种闭环推向更高强度,仍需更大规模的计算资源。加速是真实的,但天花板也同样真实。
