开源Turix：微信等任意App都可作为Agent技能使用

时间：2026-05-31 14:28

在AI Agent的演进中，一个关键判断逐渐成为行业共识：真正顶级的技能，恰恰是那些被用户日常使用的各类APP。这些APP是被无数产品经理和开发者反复打磨、精心封装的终极技能包。它们功能强大、运行稳定，而且极度封闭。尤其是在国内环境中，大部分APP并不那么开放——它们需要身份验证、内置各种加密机制

在AI Agent的演进中，一个关键判断逐渐成为行业共识：真正顶级的技能，恰恰是那些被用户日常使用的各类APP。

这些APP是被无数产品经理和开发者反复打磨、精心封装的终极技能包。它们功能强大、运行稳定，而且极度封闭。尤其是在国内环境中，大部分APP并不那么开放——它们需要身份验证、内置各种加密机制，还有数不清的反爬虫措施。想让AI去自动化操作这些APP，难度相当高。

当然，少数APP提供了CLI（命令行界面）供外部调用，这从理论上讲是最适合Agent操作的方式。但问题在于，CLI需要各家APP厂商主动开发适配，推进速度极其缓慢。目前了解到提供CLI的只有飞书、钉钉等，整个生态的推进进度很慢。要丝滑打通所有APP，恐怕遥遥无期。

不过，最近发现了一个宝藏开源项目，能够解决这个问题。它叫Turix CUA，开源不久，在GitHub上已经获得2.3K Star。

先解释一下什么是CUA。CUA全称是Computer Use Agent，也就是计算机操作智能体。如果说大模型是AI的大脑，那CUA就是AI的手和眼——它通过视觉识别屏幕上的内容，模拟人类的鼠标点击和键盘输入去操作电脑。

Turix提供了开箱即用的桌面版。更关键的是，你可以把它作为一个Skill，直接接入到龙虾（OpenClaw）、爱马仕（Hermes Agent）、Claude Code、Codex等各种Agent中，让它们实现真正的APP自由。

比如，用它来控制微信，全自动通过积累的好友验证请求；甚至让它扮演角色，在微信里自动跟人聊天。而且操作速度相当快——大概比正常人熟练操作慢一半，但在目前的CUA领域，这已经算是非常迅速了。

一、安装使用

给Agent安装并不难。可以直接把Turix的GitHub链接丢给Codex，下达指令，Codex很快就能把环境拉下来并配置好。

这玩意儿安装好之后相当于在主Agent之下挂载了一个专门负责动手的小跟班——一个CUA子智能体。你需要给这个子智能体单独配置一个带有强大视觉识别能力的模型API，这块也可以直接大白话丢给本地Agent搞定。

Turix支持自定义配置模型。你可以配置自己常用的API中转站，只需提供API Key、模型名称和Base URL（API地址），让本地Agent帮你写进配置文件即可。

另外，Turix官方也自研了专门针对GUI（图形用户界面）操作微调或训练过的模型，分为turix-brain和turix-actor，官方推荐组合效果最佳。只需要去Turix的官网API平台获取一个api key，新建一个API Key，然后把这个Key提供给本地Agent，让它帮你配置即可（不用再配模型名称和Base URL，因为默认自带了官方模型的指向）。配置好之后，就能把那些以前没法在浏览器和纯API层面完成的脏活累活全部交给这个智能体了。

值得一提的是，注册之后账户余额里会自动获得100万Tokens，可以先白嫖一波免费的。

如果觉得用命令行操纵Agent安装有门槛，或者想单纯体验电脑被自动操控的快感，也可以选择一键安装的Turix桌面版。桌面版的优点是安装即用、有优化的图形界面，Work（办公）模式和Chat（聊天）模式相结合。而且桌面版在安全权限上做得更好——在涉及文件删除、发送邮件等关键步骤时都会弹窗询问用户请求，不会一股脑乱动你的电脑。

实际测试发现，相比于把Turix作为skill接入到其他Agent中，直接使用Turix桌面版的执行速度更快。所以下面录屏的任务都是使用Turix桌面版完成的。

当AI操纵你的电脑

先让它找首歌听听

先尝试一个相对简单的娱乐任务：打开QQ音乐，找到QQ音乐热歌榜，播放周杰伦的歌。它完成得极其轻松——直接拉起QQ音乐，点击排行，找到热歌榜，然后点击了第一首歌的MV播放按钮。

微信全自动通过好友请求

平时微信加人不少，逐条定时同意、手动一个一个去确认比较费时间，这次决定用Turix试试。用CUA操作微信最大的好处是没有封号风险——它本质上就是在模拟正常人的鼠标点击和滑动，根本不涉及底层协议破解或API劫持。

打开电脑微信，打开微信侧边的通讯录，展开新的朋友，找到所有等待验证的朋友请求，挨个点击确定、通过，再一个一个执行，直到全部通过为止。看着鼠标自动在屏幕上有条不紊地点击、验证通过、返回、再点击下一个，那种把重复劳动甩给AI的爽感确实不错。

微信指数查询自动化

平时写文章经常需要查各种热词的微信指数，这也是枯燥的重复劳动。让它帮忙查一下OpenClaw最近的热度情况。它极其精准地找到了微信指数，打开了微信指数小程序，最终查询到OpenClaw的微信指数。整个流程一气呵成。有了这个基础，完全可以每天定时让它跑很多个关键词的指数，监控热点。

赛博男友在线代聊

能不能让它直接帮忙回消息？直接让它扮演角色去聊天，打字发送的过程极其丝滑。角色扮演也相当入戏，开口就是：“宝贝，在干嘛呢？想你啦~”还会根据对方发来的表情包做出恰当的文字回应。整个对话进行了多轮，甜蜜程度爆表。

但这也暴露了Turix目前的一个问题：它容易聊嗨了，对规定数字限制不敏感。两"人"你一言我一语，对话轮数远超预期，最后还是强行干预才停下来。官方在这方面还有优化空间。

发现了问题怎么办？让它自己给自己提Bug

直接套娃——让Turix自己去提Issue（问题报告）。它丝滑地打开正在使用的浏览器，因为已经登录了GitHub账号，不用重新登录。最终不是只填原话，而是根据自己的理解和Issue的格式，填写了一条标准的信息并顺利提交了。

顺带发现，Turix在操作浏览器时的丝滑程度，简直就像大学生做小学题一样，比操作APP更丝滑。

对比与思考

前两天Codex桌面版也更新了，同样支持操纵本地APP的功能。体验了一下Codex的CUA能力，坦白说，在基础的点击准确率上两者效果差不多。Codex的操作有时候也会显得迷惑，比如让它去QQ音乐里播放周杰伦新专辑，它死活敲不出汉字，在那拼拼音瞎搜。

相比之下，Turix的架构明显更加灵活。因为完全开源，它可以被当成一个底层能力模块，接入到任何喜欢的Agent框架里当Skill用。也可以随意更换更强大的视觉大模型底座，上限很高。在CUA执行速度上，Codex桌面版比Turix桌面版稍慢一些。不过Codex好的一点是点击时不会抢鼠标，会生成一个新的鼠标来点击；而Turix会抢鼠标，官方这块也有优化空间。

最后

从技术角度讲，让Agent操纵各种APP，最稳定、最高效的终极方案绝对是底层API调用或CLI命令行。但必须面对现实——CLI这项技术虽然古老且成熟，但在国内这种处处建护城河的互联网大环境下，愿意主动开放系统底层接口的官方APP屈指可数。

可以确定的是，在未来一段时间内，CUA（计算机视觉操作）仍然是最普适的APP自动化方案。特别是当CUA再进化一段时间，操作速度和准确度更上一层楼之后，CUA的工作模式绝对会碘伏传统RPA行业。因为使用RPA，需要程序员去写复杂的抓取脚本，网页一旦改版脚本就得重写，上手门槛也高。而CUA用大白话下达一次指令，如果能准确熟练地成功执行一次，就能立刻把这套操作流程沉淀成一个经验Skill。下次再让它干同样的活，直接调用这个Skill，就能更快、更稳地完成任务——相当于花十分钟教了一个聪明的徒弟，以后这活儿就是他的了。

来源：https://juejin.cn/post/7632593634925084681

skill