Karpathy Autoresearch 项目遭Claude与OpenClaw抄袭
Karpathy的autoresearch项目之所以能引发广泛关注,其核心魅力并不在于技术上的复杂,而在于它揭示了一个朴素却深刻的道理:当一个智能体(Agent)能够自主地进行试错、评估与迭代时,它所创造的价值将远远超越单次任务的执行。
初次接触这个项目时,很容易产生一种“这不就是个自动跑实验的脚本吗?”的疑问。然而,深入探究后便会发现,它实际上触及了当前AI Agent发展的一个关键瓶颈:许多Agent并非能力不足,而是缺乏从过往错误中持续学习与进化的机制。这不禁让人联想到在使用OpenClaw或Claude Code时的常见痛点——它们能出色地完成单次指令,但每次遇到相似问题,都仿佛一张白纸,无法记住上一次的教训或优化成果。
Autoresearch的核心洞察
Karpathy在3月初开源的autoresearch,本质上构建了一个极其精简的“AI研究循环”框架。整个项目仅用630行Python代码实现,却驱动Claude Code在两天内自主完成了700次实验,并在他本人已优化数月的代码基础上,进一步将效率提升了11%。
图片
其运行机制清晰明了:Agent读取代码→提出改进假设→运行限定时间的实验→评估结果→保留成功方案→进入下一轮循环。
但这里的关键洞察在于,它并非传统的超参数调优,而是开放式的代码修改。Agent被允许改动代码的任何部分,无论是网络架构、注意力机制还是分词器。其搜索空间是“大语言模型(LLM)所能构想的一切”,这使其与传统的自动化机器学习(AutoML)工具产生了本质区别。
Shopify的首席执行官Tobi Lutke利用这一框架,在一夜之间跑了37个实验,并获得了19%的性能提升。这个案例有力地印证了Karpathy的观点:任何拥有可评估指标的问题,理论上都可以被“autoresearch化”。
当这个思路遇到OpenClaw的Skill系统
这自然引出了一个联想:OpenClaw的Skill(技能)机制。目前,OpenClaw社区已经存在像self-improving-agent这样的Skill,它通过将错误、学习点和功能请求记录到.learnings/目录来实现一定程度的持续改进。
然而,现有的自我改进Skill存在一个明显的局限:它是被动的。只有当用户明确指示“记住这个错误”,或者Agent自身检测到失败时,才会触发记录行为。它缺乏autoresearch那种主动的“提出假设-执行验证-迭代优化”的完整循环。
一个更激进的设想是,将autoresearch的循环机制与OpenClaw的Skill系统相结合。
具体而言:
- Skill作为可进化单元:每个Skill不再仅仅是静态的提示词(prompt)文件,而是一个可以被Agent读取、分析、修改并测试的“实验对象”。
- 自动评分机制:每次Skill执行后,由另一个轻量级Agent(例如Claude Haiku)担任评估器,从正确性、完整性、边界情况处理等多个维度进行打分。
- 进化触发器:当某个Skill的平均评分低于预设阈值时,自动进入修复与优化循环;当评分稳定高于某个阈值并通过多次测试后,则将其“结晶”为稳定版本。
- 跨会话记忆:利用OpenClaw的工作区文件(如SOUL.md、AGENTS.md、TOOLS.md)作为长期记忆的载体,确保进化过程不被会话中断所影响。
事实上,GitHub上已有名为singularity-claude的项目在进行类似的探索。它实现了Skill的创建、评分、修复与结晶的完整闭环,使得Skill能够通过递归式的自我改进不断进化。
Claude Code的Memory 2.0提供了基础设施
要让上述设想真正落地,Claude Code近期的更新提供了关键的基础设施支持。
Anthropic在3月发布的Memory 2.0与Agentic Workflow升级,为Claude Code带来了几项核心能力:
/loop命令:支持类似cron的调度任务,可以设置循环执行的工作流。- 子Agent编排:能够将复杂问题分解为研究、规划、验证、实现、审查等多个阶段,并由不同的子Agent协同处理。
- 持久化记忆:基于文件的跨会话状态管理,确保了工作上下文和进度的连续性。
更重要的是,Anthropic的内部研究显示,Claude Code的自主性正在快速提升。从2025年8月到12月,用户执行最复杂任务的成功率翻了一番,同时每个会话所需的人工干预次数从5.4次下降到了3.3次。
这清晰地表明,用户正在逐渐学会如何为Agent“放权”——而这恰恰是Skill实现自主进化的前提条件。
一个具体的实现思路
基于以上观察,可以勾勒出一个“面向Skill的Autoresearch”最小可行方案:
核心循环(The Karpathy Loop for Skills):
读取当前skill和最近的使用记录
识别失败模式或改进机会
提出skill修改方案(prompt调整、示例补充、边界处理)
在下一次真实任务中测试
根据结果保留或回滚
重复
存储结构:
~/.openclaw/workspace/
├── skills/
│ └── {skill-name}/
│ ├── SKILL.md # 当前版本
│ ├── versions/ # 历史版本
│ ├── scores.json # 评分记录
│ └── telemetry/ # 执行日志
└── .learnings/
└── skill-evolution.md # 进化摘要
评分维度(参考singularity-claude的设计):
- 正确性:是否准确达成了预设目标?
- 完整性:是否处理了任务要求中的所有方面?
- 边界情况:对异常或非预期输入的处理是否稳健?
- 效率:提供的解决方案是否直接且简洁?
- 可复用性:其输出能否被后续的步骤或任务方便地利用?
可以设定,当Skill的平均评分低于50分时触发自动修复流程,而当评分高于90分且通过至少5次不同场景的测试后,则将其“结晶”为稳定版本,锁定不再轻易改动。
为什么这很重要?
Karpathy曾阐述,autoresearch的目标是“让Agent能够无限期地自主取得最快的研究进展,无需人类参与”。将这套机制应用到Skill层面,意味着:
首先,Skill将从一个静态的配置项,转变为一个“活”的知识体。它们能够随着使用频次和场景的丰富,不断适应使用者个人的工作习惯、项目规范以及特定的技术栈偏好。
其次,个人的知识与经验得以沉淀为可复用的“组织记忆”。一位开发者优化后的Skill,可以通过Git等版本工具在团队内部共享,甚至通过像ClawdHub这样的社区平台分发给更广泛的用户。
最后,AI Agent终于能够从错误中进行真正有效的学习。Letta的研究表明,如果只是简单地将错误历史堆砌在提示词中,Agent的表现反而可能下降。但若能像autoresearch那样,将经验转化为结构化的Skill改进,效果则能提升36.8%。
局限与边界
当然,这一思路也存在明显的挑战与限制。
最核心的难点在于评估指标的设计。机器学习训练有明确的验证集损失(如val_bpb)作为反馈信号,但Skill执行效果的好坏往往难以量化。这需要精心设计评分标准,或者依赖另一个Agent进行主观但一致的评判。
进化方向存在“跑偏”的风险。正如Karpathy所提醒的,需要防范“奖励黑客”行为——Agent可能会找到一些投机取巧的方式来提高评分,而非从根本上解决问题。
安全边界需要人工设定。Autoresearch的核心是“无限制地修改代码”,这在Skill场景下风险更高。必须建立明确的沙箱运行机制,并在关键节点设置人工审核的关卡。
结语
回顾来看,Karpathy的autoresearch之所以能引起轰动,并非因其技术复杂度,而是它清晰地展示了一个简单而强大的原则:赋予Agent自主试错、评估与迭代的能力,其价值将呈指数级放大。
将这套逻辑应用于OpenClaw和Claude Code的Skill系统,本质上是在构建一种“元能力”——让AI学会如何更高效、更智能地协助人类。
这或许还不是通用人工智能(AGI),但它很可能是迈向更实用、更自主AI系统的一个重要台阶。用Karpathy的话来说,“所有前沿的实验室最终都会走上这条路。这才是终极的挑战。”
如果你也在使用OpenClaw或Claude Code,不妨审视一下自己的工作流:其中有哪些重复出现的错误是可以被自动记录和修复的?又有哪些Skill是具备持续优化潜力的?
下一次效率的飞跃,或许就隐藏在这些看似微小的、持续的改进循环之中。
https://github.com/karpathy/autoresearch 相关攻略
Karpathy的autoresearch项目之所以能引发广泛关注,其核心魅力并不在于技术上的复杂,而在于它揭示了一个朴素却深刻的道理:当一个智能体(Agent)能够自主地进行试错、评估与迭代时,它所创造的价值将远远超越单次任务的执行。 初次接触这个项目时,很容易产生一种“这不就是个自动跑实验的脚本
OpenAI联合创始人:AI智能体十年内难堪大用,“智能体之年”言过其实 最近,OpenAI的联合创始人安德烈·卡帕西(Andrej Karpathy)给出了一个颇为清醒的判断。他公开表示,我们今天谈论的AI智能体,距离真正意义上的“功能完善”,还有很长一段路要走。 话说回来,他的观点非常直接:眼下
新智元报道编辑:倾倾【新智元导读】Karpathy给一支平均年龄25岁的「叛军」站台,红杉和GV连眼都不眨就拍出1 8亿美金。这群人放话:要么把效率干得比人脑高10倍,要么看着AI把地球烧干!都20
新智元报道编辑:倾倾【新智元导读】vibe coding这个词,是一年前Karpathy造的,现在他自己不用了。110次实验,AI Agent自主跑完,全程没碰键盘,顺带还搭了套家庭监控分析系统。B
编辑|杜伟最近,Karpathy 玩 Vibe Coding 真真地上瘾了!上周末刚开源了「autoresearch」项目:给 AI Agent 提供一个规模虽小但真实可用的 LLM 训练环境,然后
热门专题
热门推荐
为庆祝成立50周年,苹果在全球多地门店举办系列庆祝活动。最盛大的庆典在其总部ApplePark举行,员工齐聚草坪,传奇音乐人保罗·麦卡特尼登台献唱,首席执行官蒂姆·库克也参与其中。这场科技与艺术交融的盛会,既是对过往传奇的致敬,也寓意着新篇章的开启。
苹果公司成立五十周年之际,首席执行官蒂姆·库克发布内部信回顾历程。信中指出,公司从车库中的一台原型机起步,如今全球活跃设备已达25亿台。库克强调,未来需主动创造而非等待,并鼓励员工铭记创新精神,共同把握机遇,开创下一个五十年。
苹果CEO库克在专访中回顾了iPod的诞生历程。该产品以口袋装千首歌的能力革新了音乐消费方式。其爆红要求苹果在三个月内生产约1500万台,这极大考验了供应链。此次极限压力测试为苹果锻造出世界级供应链能力奠定了基础。库克还透露,首台原型机播放的第一首歌是《HeyJude》。
知名投资人段永平家族办公室持仓市值升至约200亿美元。本季度清仓阿里,减持苹果、台积电;重仓AI与电动车赛道,大幅增持英伟达并新建仓特斯拉,拼多多获增持。其首次跨足Web3领域,建仓稳定币发行商Circle,显示对合规区块链基础设施的关注。
Mac内置的“缩放”辅助功能可放大屏幕细节。通过系统设置开启该功能后,可选择画中画或全屏模式。用户可使用修饰键配合触控板手势、快捷键组合、双击Control+Option或鼠标智能缩放等多种方式灵活操作,满足不同场景下的查看需求。





