首页 游戏 软件 资讯 排行榜 专题
首页
AI
卡帕西开源Agent自进化框架实测:5分钟一轮,48小时收获9.5k星

卡帕西开源Agent自进化框架实测:5分钟一轮,48小时收获9.5k星

热心网友
49
转载
2026-03-09

闻乐 克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

大神Karpathy又开源了新项目——一个能够自主进化的AI科研循环系统

这个项目名叫autoresearch,主打让智能体完全自主地搞科研,只要在Markdown文档里写好指令,剩下的流程全都由AI自动完成。

而且整个框架十分精简,一共只有630行代码,单个GPU就能跑得动



它每5分钟就会跑一轮测试,并根据验证结果决定是保留还是丢弃改动,就像一个24小时从不休息且能自我进化的虚拟研究员。

Karpathy还希望,未来能让成千上万个智能体在海量分支里异步协作,不再受限于单一的master分支,从而通过群体智慧实现科研效率的爆发。

发布才不到两天,autoresearch斩获的星标数就已经超过了9.5k。



在X上,Karpathy的帖子也有580多万次围观。



Shopify CEO看了Karpathy的项目之后表示膜拜,直言这个项目实在是太疯狂了。



5分钟自动化实验

autoresearch这个项目的思路非常简单,就是把AI训练的循环试错自动化。

AI自己修改代码、跑5分钟的短实验、看效果好不好再决定下一步怎么走。

基于nanoc h a t模型训练核心,定了两条铁律:

一是每次实验的纯训练时间固定为5分钟,避免因为不同改动下的训练时长不同而影响结果;

二是只看val_bpb,这个指标的数值越低,就代表模型效果越好,而且它和模型的大小无关。

这样就把训练逻辑浓缩成了单GPU就能跑的版本,代码也就630行。

一眼看过去,整个代码库就靠三个核心文件——

设置好后全程不用动的prepare.py;需要AI自己改的train.py;只有人类能改的program.md。



prepare.py用于定义训练的固定常量,比如模型基础维度、下载模型训练需要的原始数据、训练适配的分词器等,同时还提供实验过程中需要的工具。



train.py是AI唯一可以编辑、修改的文件,相当于AI的实验笔记本。

这里面装着模型训练的所有核心内容,有完整的GPT架构、训练用的优化器以及整个训练循环逻辑。

AI能在这个文件里改的内容包括模型的层数、训练的批次大小、学习率、权重衰减等等。

所有和训练相关的调整,都集中在这个文件里,既然AI的修改范围可控,也方便人类后续回看到底改了哪里。



program.md是一个纯文本文件,由人类编写修改,里面是给AI的基线指令,比如研究方向、实验规则、参考依据等。

AI启动实验之前,会先读取这个文件的指令,再开始修改train.py跑实验。

如果想换研究方向,也不用去碰复杂的训练代码,只需要更新这个文件里的指令就行。



搞懂了核心原理和3个文件,就很容易理解autoresearch的工作流程了。

整个过程就是AI按照人类的指令,在5分钟实验规则下,反复完成修改、训练、评估、决策。

人类在program.md里写好实验指令,然后启动框架,AI会首先读取这些指令,在train.py里做针对性的修改,通常每次只改1到2个地方。

修改完成后,AI会自动启动训练程序,严格遵守框架设定的规则,纯训练时间固定为5分钟,时间一到,训练结束,框架会自动用val_bpb指标给这次的模型打分。

根据打分结果作出决策,如果这次的val_bpb分数更低,说明模型进步了,AI就会保留这次对train.py的修改,把这个版本作为下一次实验的基础;

如果数值变高了,说明这次的修改是无效的,甚至起了反作用,AI就会果断放弃这次的改动,回到上一个表现最好的版本,重新思考改动方向。

完成这一轮判断后,它会立刻开始下一次实验。

按照5分钟一次计算,AI一小时能完成10来组实验,这个效率是人类手搓达不到的。



上图展示了一次近250轮的自主探索,AI最终筛选并保留了29次有效的优化改进。

图中灰色点代表被AI判定为无效而舍弃的实验结果,虽然没有带来提升,但也提供了避坑经验。

下一步:模拟整个博士社群

把autoresearch公开出来之后,卡帕西还在X上畅享了下一步的发展方向。

他借用UC伯克利在1999年发起的SETI@home项目表示,autoresearch未来的目标不仅是模拟一个博士生的科研过程,还要模拟整个博士生研究社群

SETI@home全称为“Search for Extraterrestrial Intelligence at Home”,核心目标是通过分析射电望远镜收集到的海量无线电信号,寻找可能存在的地外文明迹象。

由于分析这些数据需要极其庞大的计算量,远超当时科研机构所能负担的计算机成本,项目组由此开创了分布式计算的新模式。

在这个模式下,全球各地的志愿者只需在自己的电脑上安装一个特定的屏保程序,系统就会在计算机闲置时利用其剩余的CPU算力来处理从阿雷西博天文台传回的数据片段。



Karpathy之所以拿它作比喻,正是看中了这种“大规模、分布式、异步”的特质,这种去中心化的智慧集成正是未来AI社区的雏形。

他认为,现在的研究Agent依然局限在单一的、同步发展的线性思路之中,但这种模式极大限制了AI的潜力。

在他的理想当中,autoresearch的发展路径应该是让原始代码仓库像种子一样,向各个不同的研究方向和计算平台伸展出无数分支,形成像SETI@home一样的分布式、群体式的探索态势。

Karpathy进一步指出,这种局限性在很大程度上源于我们对Git和GitHub的使用惯性。

具体而言,现有的版本管理系统几乎都建立在一个默认假设之上,即必须存在一个绝对权威的master分支,而所有的branch和PR都只是暂时的偏离,最终其宿命都是要merge回主干。

这种设计逻辑在管理软件代码时固然高效,但在面对需要海量、非线性探索的自动化研究时,却成了一种制度性的束缚。

因为它强行要求所有多样化的研究路径最终必须归于一个唯一的标准答案。



为了验证打破这种僵局的可能路径,Karpathy进行了一些实验性的探索。

他尝试让智能体在完成通宵运行后,将研究总结发布在GitHub的Discussion板块,或者通过PR提交精确的commits变动。

他在实验中意识到,这些PR可能永远不需要被正式merge,但它们作为独立的研究分支有效地积累了下来。

在这一流程中,智能体还会利用GitHubCLI读取已有的讨论和记录来获取灵感,再将新的发现反馈回社区。

总之,比起强行维护一个完美的master分支,让智能体在无数个branch中自由探索、互相启发并沉淀结果,可能才是更符合AI特性的科研姿态。

这本质上是在探索一种更适合AI高频产出的协作方式,让科研过程从传统的“写软件”逻辑,转向更灵活的“攒经验”逻辑。

— 完 —

来源:https://www.163.com/dy/article/KNJD1R0I0511DSSR.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

智能科学家:解读瞭望科技趋势,赋能未来发展
科技数码
智能科学家:解读瞭望科技趋势,赋能未来发展

  面对火星制氧催化剂研发中高达376万种的潜在配方组合,以人工方式一一试验2000年也难以穷尽筛选。“小来”通过自主阅读分析5万篇论文,融合实验与理论计算数据,用6周便找到了最优解  应通过政策引

热心网友
03.30
读懂算做闭环+AI赋能科研模式革新3大趋势
科技数码
读懂算做闭环+AI赋能科研模式革新3大趋势

人民网北京3月30日电 (记者赵竹青)当高端科学仪器被AI赋能,会发生什么?3月27日,2026中关村论坛年会AI for Science(人工智能赋能科学研究)青年论坛上发布的我国首套智能双束电镜

热心网友
03.30
胡事民院士:AI4S如何革新传统模型研发路径
科技数码
胡事民院士:AI4S如何革新传统模型研发路径

人工智能擅长处理高维度、多尺度数据,能够挖掘参数之间的关系,揭示传统方法难以发现的规律。在AI for Science(简称为AI4S)中,这一过程离不开算力、数据与模型的深度融合。但当前AI4S仍

热心网友
03.30
科研基本单元变革:白春礼院士谈人机系统新趋势
科技数码
科研基本单元变革:白春礼院士谈人机系统新趋势

“AI for Science(简称为AI4S)的竞争本质上是认知体系的竞争”,3月29日,中国科学院院士白春礼在第二届浦江AI学术年会开幕式上表示,不同科研体系如何理解科学,是以模型为核心,通过高

热心网友
03.30
MicroCoder突破大模型训练瓶颈:用算法数据框架提升经验
AI
MicroCoder突破大模型训练瓶颈:用算法数据框架提升经验

MicroCoder团队 投稿量子位 | 公众号 QbitAI新一代代码模型的训练动态已与旧模型截然不同,主流强化学习方法和数据集在其上几乎“失效”。微软亚洲研究院与剑桥大学、普林斯顿联合推出Mic

热心网友
03.30

最新APP

你说我猜
你说我猜
休闲益智 03-31
史莱姆农场
史莱姆农场
休闲益智 03-31
凡人传说
凡人传说
角色扮演 03-30
恶魔秘境
恶魔秘境
角色扮演 03-29
猫和老鼠华为
猫和老鼠华为
休闲益智 03-29

热门推荐

14岁小S女儿反驳读书无用论:别把嫁豪门当退路
娱乐
14岁小S女儿反驳读书无用论:别把嫁豪门当退路

小S的三个女儿受人关注,一家人的一举一动都能引起大家的讨论与吐槽。尤其是她的三个漂亮女儿,大女儿许曦文20岁,在南加州读大学。二女儿许韶恩18岁,开始在贵圈发展,许老三许曦恩14岁,也开始频繁露面。

热心网友
03.31
华硕27吋QHD 180Hz IPS显示器PG27QFT2C/QFT1B选购指南
礼仪与书信
华硕27吋QHD 180Hz IPS显示器PG27QFT2C/QFT1B选购指南

IT之家 3 月 31 日消息,华擎 ASRock 现已推出两款幻影电竞系列显示器 PG27QFT2C 和 PG27QFT1B。两款型号拥有一致的核心规格,均采用 27 英寸 QHD (2560×1

热心网友
03.31
iPhone 20预测:1.1毫米极窄边框与四曲屏将成最大亮点
网络安全
iPhone 20预测:1.1毫米极窄边框与四曲屏将成最大亮点

3月31日消息,据报道,苹果20周年纪念版iPhone 20将采用1 1毫米极窄屏幕边框,搭配极致圆润的边缘处理与四曲面瀑布屏设计,整机视觉效果接近无缝玻璃面板。此次曝光的设计核心为真全面屏形态,为

热心网友
03.31
QQ邮箱官方登录入口与网页版最新地址
电脑教程
QQ邮箱官方登录入口与网页版最新地址

QQ邮箱网页版最新最新地址是https: mail qq com,支持多方式快捷验证、跨终端实时同步、大文件智能传输、智能地址分类管理及多重安全防护。QQ邮箱登录入口正式 QQ邮

热心网友
03.31
vivo X300系列正式发布:售价4999元起,专业影像旗舰
科技数码
vivo X300系列正式发布:售价4999元起,专业影像旗舰

2026年3月30日,vivo于云南丽江正式发布vivo X300系列全新旗舰手机——vivo X300 Ultra、vivo X300s,重塑移动影像新高度。打破拍照与摄像的设备鸿沟,带来手机中的

热心网友
03.31