OpenClaw想用好免费云模型,光靠一个API可不太够。我们可以说,掌握下面这几个组合策略,基本就能应对绝大多数限流场景了。比如配置双模型自动fallback、用GitHub令牌解决安装配额卡点、参数调优配合流式响应,再加一个Scrapling做本地预处理,这一套下来,才算真把应对方案走通了。

调用免费云模型时,像硅基流动、七牛云、NVIDIA API这类服务,一到高峰期——比方说每天上午10点到12点,晚上7点到9点——经常甩出429 Too Many Requests或者1305 该模型当前访问量过大的错误提示。这个场面一出现,Agent任务当场卡住,甚至返回空结果。这还真不是配置的问题,而是平台级别的流量管控在起作用。应对办法,只能是组合打法。
启用双模型自动切换架构
说白了,把全部希望都押在一个免费API上,本身就是失败的根源。OpenClaw原生就支持主备模型自动降级,不需要额外改代码,配置一下就能生效。
方法一:JSON多实例fallback(推荐用于生产环境)
具体来看:编辑~/.openclaw/openclaw.json,找到model_providers字段。接着为每个服务商建一个独立入口——比如同时配上硅基流动Pro版和七牛云Qwen3.5:
"siliconflow_qwen35": { "base_url": "https://api.siliconflow.cn/v1", "api_key": "sf_xxx", "timeout": 90 }
"qiniu_qwen35": { "base_url": "https://api.qnaigc.com/v1", "api_key": "qn_yyy", "timeout": 120 }
然后在agents.list里,为关键Agent指定fallback链:
"fallbacks": ["qiniu_qwen35", "siliconflow_qwen35"]
这里有个细节要留意:fallback顺序决定了优先级。建议把响应延迟最低的服务放首位,比如七牛云实测P95延迟只有2.3秒,自然应该优先试用。
方法二:YAML全局fallback(适合快速验证)
操作起来也很直接:打开~/.openclaw/config.yaml,在agents.defaults.model下设置primary: "siliconflow_qwen35",然后添加一个fallbacks列表,至少包含两个不同服务商的模型。另外,务必确认agents.defaults.models白名单里已经声明了所有备用模型名,否则切换逻辑会被直接跳过,等于白配。
配置GitHub个人访问令牌,提升ClawHub技能安装配额
ClawHub在安装技能包的时候,频繁报出Rate Limit Exceeded。根本原因在于,未认证的GitHub API每小时只能请求60次,而一个中型技能集下载往往需要调用200次以上的接口。差距一目了然。
解决方案其实很简单:
第一步,访问https://github.com/settings/tokens → 点击“Generate new token” → 选择fine-grained tokens类型。
第二步,设置Token名称(例如取名openclaw-clawhub),然后勾选repo和read:packages权限。
第三步,复制生成的token字符串。
第四步,按系统类型设置环境变量:Linux/macOS执行echo 'export GITHUB_TOKEN="ghp_..."' >> ~/.bashrc && source ~/.bashrc;Windows用户则需要在系统环境变量里新增GITHUB_TOKEN变量,直接把值填进去。
令牌一配,安装配额问题基本就解了。
调整超时参数与启用流式响应
高峰期模型响应自然会变慢。OpenClaw默认的60秒超时,在这种场景下往往直接中断长任务——但实际情况是,模型后台还在继续生成内容。结果任务以失败收场,白白浪费了算力。
这个问题有一个不错的破解思路——调整超时参数,同时打开流式响应。
第一步,修改openclaw.json中对应模型的timeout值,从60提升到180。
第二步,在model_providers该模型的配置内部,添加"stream": true字段。
第三步,确认Agent配置中的enable_streaming设为true。
第四步,重启网关:systemctl restart openclaw-gateway。
这一套下来,原本因超时中断的3000字文档生成任务,就能稳稳输出了。即使首字节延迟达到8秒,后续内容也会持续流入,任务不会再中途断掉。
部署Scrapling隐身抓取器,替代高频API调用
如果遇到某类任务——比如批量网页摘要或者实时新闻聚合——频繁触发高频限流,而且通过模型切换也没法缓解,那就得考虑剥离AI调用环节,用本地工具做预处理。
具体方法是使用Scrapling:
先安装:pip install scrapling。
然后写个简单的Python脚本,专门提取目标网页的正文、标题、发布时间等结构化字段。
最后把提取结果作为精简上下文输入OpenClaw,而不是直接丢一个原始长网页给它。
这一步的效果很直接:单次AI请求的token消耗能降低60%以上,核心数据该有的信息一点不丢,而平台对“大文本输入”的速率压制,自然也就绕过去了。
