最近读到一篇很有意思的文章,讲的是如何把 OpenClaw(一个 AI Agent 框架)接到本地模型上跑,从而彻底摆脱 Anthropic API 的费用和速率限制。核心思路很吸引人:一台配备 32GB 内存的 Mac Mini 就能跑 Qwen 3.5,作者声称其效果堪比六个月前的 Claude Sonnet 水平,而且完全免费。
当然,得客观地说,作者对 Qwen 3.5 的赞美多少带了点营销色彩,"等同于 Sonnet 4.5"这个说法经不起严格推敲。但文章里提到的"用前沿模型做规划 + 本地模型做执行"这个混合架构,确实很有参考价值。毕竟执行阶段占据了大约 90% 的 token 消耗,把这部分本地化,省钱的效益是实实在在的。操作步骤也给得很清楚,跟着做就能跑起来。
如何将 OpenClaw 接入本地模型?
作者桌上摆了三台 Mac Studio,全都在跑着 Qwen 3.5——一个他声称智能程度接近 Sonnet 4.5 的本地模型。无限 token,没有速率限制,成本只剩下电费。而且数据 100% 私密,不上传任何云端,断网了也能正常干活。
关键来了:不需要价值一万美元的 Mac Studio,Mac Mini 就足够了。
Qwen 3.5 刚发布没几天,直接能塞进 32GB 内存里跑。这意味着比基础款高一档的 Mac Mini 就能胜任,并且性能据说直逼 Sonnet 4.5,可以 24/7 驱动你的 OpenClaw Agent,没有任何 API 费用,数据也不出本地。
目前 OpenClaw 用户最大的痛点就是限制和价格——接 Anthropic API 的话,每月可能烧掉几千美元,还频繁撞上速率限制。本地模型恰好解决了这个难题。
省钱之外,它还解锁了以前不太敢想的使用方式。没有限制之后,Agent 可以全年无休地持续运行。这彻底改变了你和 AI 的关系——从一问一答的对话,变成了被动的、常驻的协作:Agent 持续产出价值,自我改进,主动寻找新任务。
作者目前跑着一个"SaaS 工厂"的示例:
- 4 个 OpenClaw Agent 同步协作开发同一个产品,各自领任务,完成后自动寻找下一个,必要时自行创建新任务
- 另一个 Agent(叫 Ralph)专门负责 QA,审查所有任务,发现问题后直接修改对应 Agent 的记忆并改进它
这是一个完整的闭环自我改进系统。如果用 API 来跑,每月账单轻松破千;用本地模型(Qwen 和 MiniMax)则完全免费,只有电费——而 Mac 电脑的能耗效率本身就不错。
如何部署本地模型
要跑 Qwen 3.5,至少需要一台 32GB 内存的 Mac Mini。模型本身占 20GB,还得留点余量给其他任务。
如果手里只有基础款 16GB Mac Mini,也别灰心。虽然跑不了这个大家伙,但可以跑一些更小的模型,处理些简单任务也够用。
在 32GB 及以上的电脑上部署 Qwen3.5-35B-A3B 的步骤,非常直接:
- 下载 LM Studio — 去 lmstudio.ai 免费下载,拖进 Applications 目录即可
- 搜索 Qwen3.5-35B-A3B-4bit — 在 Discover 标签页搜索 "Qwen3.5-35B-A3B",选择 4-bit MLX 版本
- 下载 — 约 20GB,网速好的话几分钟搞定
- 加载模型 — 在侧边栏点击它,点 Load,完成。本地 AI 现在已经在跑了
- 接入 OpenClaw — 告诉你的 OpenClaw 你下载好了,让它把这个模型作为工具来使用
如果内存不足 32GB,可以直接问你的 OpenClaw:"我的硬件能跑的最好的本地模型是什么?能帮我分担一些任务或改善记忆系统?"
什么时候用本地模型
需要正视的是,本地模型的智能水平大约相当于六到十二个月前的前沿水准,并非当下最强。所以建议这样搭配:用 Anthropic 或 ChatGPT 作为 OpenClaw 的"大脑"负责规划和决策,用本地模型作为"肌肉"负责具体执行。
执行阶段占了大约 90% 的 token 消耗,把这部分本地化,省钱效果立竿见影。同时也能让你更深入地了解本地 AI 的运作,并在需要时确保数据隐私。
作者的判断是,到今年年底之前,我们应该能看到能在单台 Mac Studio 或 Mac Mini 上运行的、水平接近 Opus 4.6 的模型。到那时,局面将完全不同。
深度思考
"大脑+肌肉"的混合架构,确实是这篇文章里最有价值的洞察。规划用前沿 API、执行用本地模型,这个分工完全符合实际成本结构——执行占 90% 的消耗,本地化收益最高;而规划对质量最敏感,最不该将就。
闭环自我改进系统的门槛,比我们想象的要低。QA Agent 修改其他 Agent 记忆这个设计,意味着系统中的错误可以被自动收敛。这类架构以往只在大公司的工程团队里出现,现在一个人就能在自己的桌面上跑起来。
本地模型浪潮的真正驱动力,其实不只是省钱,更是隐私。数据不出设备、断网可用,这对法律、医疗、企业内部数据等场景来说,意义远超节省 API 费用。作者对此只是轻描淡写,但它可能才是最大的需求来源。
最后,对 Qwen 3.5 的性能描述还是要打折来看。"等同于 Sonnet 4.5"更多是营销语言,实际表现取决于具体任务类型,代码和推理类任务的差距通常比基准测试体现的更大。跟着教程配置好,自己跑一测才算数。
