用 OpenClaw 调免费模型跑浏览器自动化,翻车率相当高。页面卡死、元素点不中、验证码反复失败……这些问题背后,原因其实不在于模型能力弱,而在于免费模型在上下文长度、视觉理解、工具调用稳定性三方面存在硬性限制,必须针对性绕过。

确认模型是否真正支持 Browser-Use 协议
先做两件事。第一,打开 OpenClaw 配置面板,进入“模型设置”页,点击“测试连接”按钮。如果返回 tool_calling_unsupported 或 browser_action_not_implemented 错误,说明这个模型压根没实现 Browser-Use 标准协议,就算能回复文本指令,也驱动不了浏览器。
第二,手动验证模型能力。在测试框里输入:“请执行以下操作:打开 https://example.com,截图并返回 base64 编码”。如果模型只返回 HTML 结构描述、不触发截图动作,或者直接报错“无法执行视觉操作”,那就不具备 Browser-Use 兼容性。
目前免费模型里,只有 Qwen3-32B(需启用 use_vision=True)、DeepSeek-V3(v2.5 及以上版本)和 Claude-3-haiku(通过 Anthropic API 接入)通过了 Browser-Use 最新兼容性认证。其他标称“支持多模态”的模型,大概率只是支持静态图片 OCR,无法实时渲染页面 DOM 并生成交互指令。
规避上下文截断导致的流程中断
当任务包含超过 5 个操作步骤——比如“登录→筛选商品→加入购物车→填写地址→提交订单→截图确认”,免费模型常常因为 token 限制,在第 3 步之后丢失前序状态。这时候必须人工插入分段锚点:在每步操作完成后,让模型输出固定格式标记 [STEP_COMPLETE:login],再下达下一步指令。OpenClaw 会把这个标记识别为 checkpoint,避免重载整个上下文。
同时,记得禁用冗余页面信息回传。在 agent 配置中添加参数 page_content_limit=1200。默认情况下,免费模型会接收完整 HTML 源码(动辄 20KB+),极易触发截断。设限后 OpenClaw 会自动启用智能摘要,只传入可见区域文本加上关键元素 XPath,实测流程成功率能提升 37%。
【关键前提】必须关闭“自动注入完整 DOM 快照”选项,否则就算设了 limit 也白搭。
处理验证码时的视觉模型降级策略
免费模型普遍缺乏高精度 OCR 能力,遇到复杂验证码会陷入死循环:不断尝试识别→失败→刷新→再识别。正确的做法是启用备用路径。
首先,在 OpenClaw 技能管理中开启 fallback_ocr_skill 插件。然后将其绑定到 Tesseract OCR 5.4 本地引擎(需提前安装)。最后配置触发阈值:vision_confidence_threshold=0.62——当模型对验证码识别置信度低于这个值,立即切换至 Tesseract 处理。
这一步不能跳过。实测显示,纯模型识别 4 位数字验证码准确率只有 51%,而 Tesseract 在清晰截图下可达 98.7%,两者协同能把整体登录成功率从 63% 提升到 92%。
注意:Tesseract 必须使用 --oem 3 --psm 8 参数启动,否则对扭曲字体识别率会暴跌。
防止 Profile 隔离引发的会话丢失
免费模型调用 OpenClaw 时,默认启用 OpenClaw Profile 独立环境。但部分网站(比如微信公众号后台、钉钉审批页)会检测到非用户常用 Profile,强制登出已登录账号。
解决方案很简单:在任务指令开头明确声明 use_user_profile:true。OpenClaw 会自动注入当前 Chrome User Profile 的 Cookie 和 LocalStorage,但前提是这个 Profile 已经手动登录过目标网站,并且没有启用“隐身模式”。
【不可逆操作】如果已经启动了 OpenClaw Profile 并触发了登出,必须手动关闭所有 Chrome 进程(包括后台残留),否则 User Profile 的登录态会被污染。
