3步优化小龙虾,无GPU与数据集驱动学习
这份来自凹非寺的见闻
量子位 | 公众号 QbitAI
让OpenClaw打打杂还远远不够,如今,开发者们正盘算着如何让这些数字助手自我进化。
注意!这可不是针对某个任务的简单优化,而是一套覆盖整个智能体的在线强化学习系统——MetaClaw。
无需自行维护昂贵的GPU集群、无需标注数据集也不必进行繁琐的人工微调,你只需与AI自然对话,它便能在这个过程中悄悄变聪明。

这种新模式巧妙地将你和AI的日常交谈直接转化为训练数据,整个学习循环在后台静默完成,完全不会打扰正常使用。
你和AI该怎么聊还怎么聊,MetaClaw会默默记录交互过程,为每一轮对话打分,并在线微调优化AI的决策策略。
更厉害的是,它能吃一堑长一智。一旦AI哪句话“翻车”了,MetaClaw会自动梳理完整的交互脉络,定位问题所在,然后生成一项新技能存入技能库。
下次再碰到类似的“坑”,相关技能会被精准搜索并注入系统提示,让同一个错误直接成为历史。

技能注入+技能进化
其模型底座基于Kimi-2.5构建,同时也准备了Qwen3-4B这个轻量级的替代方案,对低配设备也很友好。
核心机制是自研的SkillRL技能增强强化学习框架,说白了就是“技能注入”和“技能进化”的组合拳。
技能注入:在每轮对话中精准匹配相关技能指令,无需等待完整训练周期,AI当场就能优化表现;技能进化:让AI从被动接收指令变成主动生成技能,技能库越用越丰富,能力自然水涨船高。

最吸引人的一点,是它无需依赖本地GPU集群,省去了自己维护的麻烦。
MetaClaw把所有训练任务都交给Tinker云平台,训练和部署彻底分离。
只要你的设备能上网,就能跑通整个系统,既不用操心算力,也无需专门的工程团队时刻维护。
这一波直接把AI持续学习的门槛拉到了地板级,普通人也能轻松“养成”会进化的智能体了。
除此之外,MetaClaw的细节设计也很懂开发者的痛点。
异步架构+双学习模式,将服务、奖励建模和训练彻底解耦。AI一边给用户实时回应,后台一边进行打分和优化,“工作学习”两不耽误。
学习模式也给足了选择,想轻量化就用强化学习,从用户隐式反馈里优化;想深度提升就采用在线策略蒸馏,结合高质量文本反馈进行进阶。
主打一个你想怎么训就怎么训。
三步上手
用起来也相当简单,只需三步。
第一步先安装依赖,前面是常规服务和模型相关库,跑API、发请求、接大模型都用得上。
后面的tinker和tinker-cookbook是关键,这是云端LoRA训练的SDK。
- pip install fastapi uvicorn httpx openai transformers
- pip install tinker tinker-cookbook
第二步运行配置脚本将OpenClaw网关指向MetaClaw的代理,比较推荐的是Kimi2.5。
- bash openclaw_model_kimi.sh
第三步是设置Tinker API密钥,直接运行训练脚本。
- export TINKER_API_KEY=”xxx”
- cd /path/to/metaclaw
- python examples/run_conversation_rl.py
搞定。之后你只需要像平时一样和Agent聊天,MetaClaw会自动收集对话轮次、评分、训练模型。
攒够一批样本就热替换一次权重,全程无需人工干预。
如果想启用技能注入,只需在配置中设置:
- config = MetaClawConfig(use_skills=True)
想开始技能进化,可以设置(以GPT5.2为例):
- config = MetaClawConfig(
use_skills=True,
enable_skill_evolution=True,
azure_openai_deployment=”gpt-5.2”,
然后配好密钥:
- export AZURE_OPENAI_API_KEY=”xxx”
- export AZURE_OPENAI_ENDPOINT=”https://your-endpoint.openai.azure.com/“
所有配置项都集中在MetaClawConfig中,包括模型选择、LoRA参数、批次大小、训练步数、损失函数类型等,一目了然。

好好好,这下变成真·“养成系”了。
MetaClaw这项工作由姚莫诩领导,他是电子科技大学校友,现任UNC计算机科学系的助理教授,曾在Stanford AI Lab从事博士后研究,专注于智能体和具身AI。
项目地址已公布。
[2]
— 完 —
相关攻略
《惊蛰无声》密钥再度延期:春节档“长跑冠军”的票房耐力赛 4月2日,电影市场传来一个颇有意思的消息:春节档影片《惊蛰无声》官方宣布,其发行密钥将进行第二次延期,影片的公映期将直接延长至2026年5月18日。要知道,这距离它上一次宣布延期至2026年4月18日,仅仅过去了不到一个月。根据猫眼专业版的最
EFS加密技术:原理、探索与一点实用思考 说到Windows系统的文件加密,EFS(Encrypting File System,加密文件系统)是个绕不开的话题。它内置于系统中,操作看似简单,但其背后的机制却相当精妙。今天,我们就来深入聊聊这项技术,并探讨一个在特定边界下的访问情景。 EFS的工作原
Cookie确实在WEB应用方面为访问者和编程者都提供了方便,然而从安全方面考虑是有问题的 首先,Cookie数据会随着HTTP请求和响应的包头进行明文传输,这意味着在传输过程中,这些数据可能被第三方截获和查看。其次,Cookie通常以文本文件的形式存储在用户的浏览器缓存目录中,其中可能包含用户的会
4月2日,春节档电影《惊蛰无声》官宣密钥二次延期,将延长上映至2026年5月18日。3月10日,该片官宣密钥延期至2026年4月18日。据猫眼专业版数据,截至当前,《惊蛰无声》累计票房已超13 46
鹭羽 发自 凹非寺量子位 | 公众号 QbitAIGitHub狂揽5w星、以安全著称的Ghost CMS,刚刚跌下了神坛。只因Anthropic的研究员给Claude下达了一个指令——找出系统漏洞。
热门专题
热门推荐
《极限竞速:地平线6》于5月19日发布,全面支持DLSS4 5超分辨率与多帧生成技术,显著提升画面与流畅度。同期,《月之深渊》确认集成DLSS超分辨率,《红色沙漠》则升级支持专为RTX50系列优化的DLSS4 5动态多帧生成6倍模式。这些技术为玩家带来了更极致的视觉体验与性能提升。
《地牢猎手6》将于6月17日全平台公测,作为系列正统续作,以4K画质和动态光影重现暗黑风格。游戏提供四大职业,技能自由搭配,支持单人探索与多人联机。预约达20万可解锁全服奖励,含SSR坐骑、英雄等资源,iOS、安卓及PC模拟器数据互通且永久保留。
网格交易中,止损是风险管理的关键环节。有效的止损参考应结合市场波动率、网格层级与资金占比、技术支撑阻力位以及交易策略的宏观周期。通过量化指标与动态调整,可以在捕捉市场波动的同时,将潜在亏损控制在可接受范围内,实现策略的长期稳健运行。
下载《猜拳大师》安卓版主要有两种可靠途径。一是通过游戏门户或专区搜索游戏,在详情页选择高速或普通下载。二是前往手机官方应用商店直接搜索并下载,安全便捷。两种方法均能获取正版安装包,助你快速体验游戏。
止损是交易中控制风险的关键操作。在币安App中设置止损时,需重点关注触发价格、订单类型与市价滑点的关系,以及仓位大小与止损比例的匹配。理解这些核心要素,并结合市场波动性进行动态调整,才能构建有效的风险管理策略,避免情绪化决策带来的损失。





