首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
Karpathy Autoresearch 项目遭Claude与OpenClaw抄袭

Karpathy Autoresearch 项目遭Claude与OpenClaw抄袭

热心网友
70
转载
2026-05-20

Karpathy的autoresearch项目之所以能引发广泛关注,其核心魅力并不在于技术上的复杂,而在于它揭示了一个朴素却深刻的道理:当一个智能体(Agent)能够自主地进行试错、评估与迭代时,它所创造的价值将远远超越单次任务的执行。

初次接触这个项目时,很容易产生一种“这不就是个自动跑实验的脚本吗?”的疑问。然而,深入探究后便会发现,它实际上触及了当前AI Agent发展的一个关键瓶颈:许多Agent并非能力不足,而是缺乏从过往错误中持续学习与进化的机制。这不禁让人联想到在使用OpenClaw或Claude Code时的常见痛点——它们能出色地完成单次指令,但每次遇到相似问题,都仿佛一张白纸,无法记住上一次的教训或优化成果。

Autoresearch的核心洞察

Karpathy在3月初开源的autoresearch,本质上构建了一个极其精简的“AI研究循环”框架。整个项目仅用630行Python代码实现,却驱动Claude Code在两天内自主完成了700次实验,并在他本人已优化数月的代码基础上,进一步将效率提升了11%。

图片图片

其运行机制清晰明了:Agent读取代码→提出改进假设→运行限定时间的实验→评估结果→保留成功方案→进入下一轮循环。

但这里的关键洞察在于,它并非传统的超参数调优,而是开放式的代码修改。Agent被允许改动代码的任何部分,无论是网络架构、注意力机制还是分词器。其搜索空间是“大语言模型(LLM)所能构想的一切”,这使其与传统的自动化机器学习(AutoML)工具产生了本质区别。

Shopify的首席执行官Tobi Lutke利用这一框架,在一夜之间跑了37个实验,并获得了19%的性能提升。这个案例有力地印证了Karpathy的观点:任何拥有可评估指标的问题,理论上都可以被“autoresearch化”。

当这个思路遇到OpenClaw的Skill系统

这自然引出了一个联想:OpenClaw的Skill(技能)机制。目前,OpenClaw社区已经存在像self-improving-agent这样的Skill,它通过将错误、学习点和功能请求记录到.learnings/目录来实现一定程度的持续改进。

然而,现有的自我改进Skill存在一个明显的局限:它是被动的。只有当用户明确指示“记住这个错误”,或者Agent自身检测到失败时,才会触发记录行为。它缺乏autoresearch那种主动的“提出假设-执行验证-迭代优化”的完整循环。

一个更激进的设想是,将autoresearch的循环机制与OpenClaw的Skill系统相结合。

具体而言:

  • Skill作为可进化单元:每个Skill不再仅仅是静态的提示词(prompt)文件,而是一个可以被Agent读取、分析、修改并测试的“实验对象”。
  • 自动评分机制:每次Skill执行后,由另一个轻量级Agent(例如Claude Haiku)担任评估器,从正确性、完整性、边界情况处理等多个维度进行打分。
  • 进化触发器:当某个Skill的平均评分低于预设阈值时,自动进入修复与优化循环;当评分稳定高于某个阈值并通过多次测试后,则将其“结晶”为稳定版本。
  • 跨会话记忆:利用OpenClaw的工作区文件(如SOUL.md、AGENTS.md、TOOLS.md)作为长期记忆的载体,确保进化过程不被会话中断所影响。

事实上,GitHub上已有名为singularity-claude的项目在进行类似的探索。它实现了Skill的创建、评分、修复与结晶的完整闭环,使得Skill能够通过递归式的自我改进不断进化。

Claude Code的Memory 2.0提供了基础设施

要让上述设想真正落地,Claude Code近期的更新提供了关键的基础设施支持。

Anthropic在3月发布的Memory 2.0与Agentic Workflow升级,为Claude Code带来了几项核心能力:

  • /loop命令:支持类似cron的调度任务,可以设置循环执行的工作流。
  • 子Agent编排:能够将复杂问题分解为研究、规划、验证、实现、审查等多个阶段,并由不同的子Agent协同处理。
  • 持久化记忆:基于文件的跨会话状态管理,确保了工作上下文和进度的连续性。

更重要的是,Anthropic的内部研究显示,Claude Code的自主性正在快速提升。从2025年8月到12月,用户执行最复杂任务的成功率翻了一番,同时每个会话所需的人工干预次数从5.4次下降到了3.3次。

这清晰地表明,用户正在逐渐学会如何为Agent“放权”——而这恰恰是Skill实现自主进化的前提条件。

一个具体的实现思路

基于以上观察,可以勾勒出一个“面向Skill的Autoresearch”最小可行方案:

核心循环(The Karpathy Loop for Skills):

读取当前skill和最近的使用记录
识别失败模式或改进机会
提出skill修改方案(prompt调整、示例补充、边界处理)
在下一次真实任务中测试
根据结果保留或回滚
重复

存储结构:

~/.openclaw/workspace/
├── skills/
│   └── {skill-name}/
│       ├── SKILL.md          # 当前版本
│       ├── versions/         # 历史版本
│       ├── scores.json       # 评分记录
│       └── telemetry/        # 执行日志
└── .learnings/
    └── skill-evolution.md    # 进化摘要

评分维度(参考singularity-claude的设计):

  • 正确性:是否准确达成了预设目标?
  • 完整性:是否处理了任务要求中的所有方面?
  • 边界情况:对异常或非预期输入的处理是否稳健?
  • 效率:提供的解决方案是否直接且简洁?
  • 可复用性:其输出能否被后续的步骤或任务方便地利用?

可以设定,当Skill的平均评分低于50分时触发自动修复流程,而当评分高于90分且通过至少5次不同场景的测试后,则将其“结晶”为稳定版本,锁定不再轻易改动。

为什么这很重要?

Karpathy曾阐述,autoresearch的目标是“让Agent能够无限期地自主取得最快的研究进展,无需人类参与”。将这套机制应用到Skill层面,意味着:

首先,Skill将从一个静态的配置项,转变为一个“活”的知识体。它们能够随着使用频次和场景的丰富,不断适应使用者个人的工作习惯、项目规范以及特定的技术栈偏好。

其次,个人的知识与经验得以沉淀为可复用的“组织记忆”。一位开发者优化后的Skill,可以通过Git等版本工具在团队内部共享,甚至通过像ClawdHub这样的社区平台分发给更广泛的用户。

最后,AI Agent终于能够从错误中进行真正有效的学习。Letta的研究表明,如果只是简单地将错误历史堆砌在提示词中,Agent的表现反而可能下降。但若能像autoresearch那样,将经验转化为结构化的Skill改进,效果则能提升36.8%。

局限与边界

当然,这一思路也存在明显的挑战与限制。

最核心的难点在于评估指标的设计。机器学习训练有明确的验证集损失(如val_bpb)作为反馈信号,但Skill执行效果的好坏往往难以量化。这需要精心设计评分标准,或者依赖另一个Agent进行主观但一致的评判。

进化方向存在“跑偏”的风险。正如Karpathy所提醒的,需要防范“奖励黑客”行为——Agent可能会找到一些投机取巧的方式来提高评分,而非从根本上解决问题。

安全边界需要人工设定。Autoresearch的核心是“无限制地修改代码”,这在Skill场景下风险更高。必须建立明确的沙箱运行机制,并在关键节点设置人工审核的关卡。

结语

回顾来看,Karpathy的autoresearch之所以能引起轰动,并非因其技术复杂度,而是它清晰地展示了一个简单而强大的原则:赋予Agent自主试错、评估与迭代的能力,其价值将呈指数级放大。

将这套逻辑应用于OpenClaw和Claude Code的Skill系统,本质上是在构建一种“元能力”——让AI学会如何更高效、更智能地协助人类。

这或许还不是通用人工智能(AGI),但它很可能是迈向更实用、更自主AI系统的一个重要台阶。用Karpathy的话来说,“所有前沿的实验室最终都会走上这条路。这才是终极的挑战。”

如果你也在使用OpenClaw或Claude Code,不妨审视一下自己的工作流:其中有哪些重复出现的错误是可以被自动记录和修复的?又有哪些Skill是具备持续优化潜力的?

下一次效率的飞跃,或许就隐藏在这些看似微小的、持续的改进循环之中。

https://github.com/karpathy/autoresearch
来源:https://www.51cto.com/article/840031.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

Karpathy Autoresearch 项目遭Claude与OpenClaw抄袭
AI资讯
Karpathy Autoresearch 项目遭Claude与OpenClaw抄袭

Karpathy的autoresearch项目之所以能引发广泛关注,其核心魅力并不在于技术上的复杂,而在于它揭示了一个朴素却深刻的道理:当一个智能体(Agent)能够自主地进行试错、评估与迭代时,它所创造的价值将远远超越单次任务的执行。 初次接触这个项目时,很容易产生一种“这不就是个自动跑实验的脚本

热心网友
05.20
OpenAI联合创始人:AI智能体十年内难堪大用,“智能体之年”言过其实
AI资讯
OpenAI联合创始人:AI智能体十年内难堪大用,“智能体之年”言过其实

OpenAI联合创始人:AI智能体十年内难堪大用,“智能体之年”言过其实 最近,OpenAI的联合创始人安德烈·卡帕西(Andrej Karpathy)给出了一个颇为清醒的判断。他公开表示,我们今天谈论的AI智能体,距离真正意义上的“功能完善”,还有很长一段路要走。 话说回来,他的观点非常直接:眼下

热心网友
04.14
Karpathy警告:暂停数据喂养,当前AGI路线有误
AI资讯
Karpathy警告:暂停数据喂养,当前AGI路线有误

新智元报道编辑:倾倾【新智元导读】Karpathy给一支平均年龄25岁的「叛军」站台,红杉和GV连眼都不眨就拍出1 8亿美金。这群人放话:要么把效率干得比人脑高10倍,要么看着AI把地球烧干!都20

热心网友
03.29
卡拉西20年反思:告别“像作弊”的开发时代
AI资讯
卡拉西20年反思:告别“像作弊”的开发时代

新智元报道编辑:倾倾【新智元导读】vibe coding这个词,是一年前Karpathy造的,现在他自己不用了。110次实验,AI Agent自主跑完,全程没碰键盘,顺带还搭了套家庭监控分析系统。B

热心网友
03.15
Karpathy联手VibeCoding:打造GitHub智能编程Agent
AI资讯
Karpathy联手VibeCoding:打造GitHub智能编程Agent

编辑|杜伟最近,Karpathy 玩 Vibe Coding 真真地上瘾了!上周末刚开源了「autoresearch」项目:给 AI Agent 提供一个规模虽小但真实可用的 LLM 训练环境,然后

热心网友
03.11

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

苹果50周年总部庆典音乐会盛大举行
iphone
苹果50周年总部庆典音乐会盛大举行

为庆祝成立50周年,苹果在全球多地门店举办系列庆祝活动。最盛大的庆典在其总部ApplePark举行,员工齐聚草坪,传奇音乐人保罗·麦卡特尼登台献唱,首席执行官蒂姆·库克也参与其中。这场科技与艺术交融的盛会,既是对过往传奇的致敬,也寓意着新篇章的开启。

热心网友
05.20
苹果公司成立50周年库克内部信回顾从车库到25亿台销量历程
iphone
苹果公司成立50周年库克内部信回顾从车库到25亿台销量历程

苹果公司成立五十周年之际,首席执行官蒂姆·库克发布内部信回顾历程。信中指出,公司从车库中的一台原型机起步,如今全球活跃设备已达25亿台。库克强调,未来需主动创造而非等待,并鼓励员工铭记创新精神,共同把握机遇,开创下一个五十年。

热心网友
05.20
库克揭秘iPod爆红背后 苹果如何打造世界级供应链体系
iphone
库克揭秘iPod爆红背后 苹果如何打造世界级供应链体系

苹果CEO库克在专访中回顾了iPod的诞生历程。该产品以口袋装千首歌的能力革新了音乐消费方式。其爆红要求苹果在三个月内生产约1500万台,这极大考验了供应链。此次极限压力测试为苹果锻造出世界级供应链能力奠定了基础。库克还透露,首台原型机播放的第一首歌是《HeyJude》。

热心网友
05.20
段永平清仓阿里加仓英伟达拼多多 罕见布局Web3投资Circle
web3.0
段永平清仓阿里加仓英伟达拼多多 罕见布局Web3投资Circle

知名投资人段永平家族办公室持仓市值升至约200亿美元。本季度清仓阿里,减持苹果、台积电;重仓AI与电动车赛道,大幅增持英伟达并新建仓特斯拉,拼多多获增持。其首次跨足Web3领域,建仓稳定币发行商Circle,显示对合规区块链基础设施的关注。

热心网友
05.20
Mac放大镜功能开启指南 轻松看清屏幕细节
系统平台
Mac放大镜功能开启指南 轻松看清屏幕细节

Mac内置的“缩放”辅助功能可放大屏幕细节。通过系统设置开启该功能后,可选择画中画或全屏模式。用户可使用修饰键配合触控板手势、快捷键组合、双击Control+Option或鼠标智能缩放等多种方式灵活操作,满足不同场景下的查看需求。

热心网友
05.20