在AI Agent的演进中,一个关键判断逐渐成为行业共识:真正顶级的技能,恰恰是那些被用户日常使用的各类APP。
这些APP是被无数产品经理和开发者反复打磨、精心封装的终极技能包。它们功能强大、运行稳定,而且极度封闭。尤其是在国内环境中,大部分APP并不那么开放——它们需要身份验证、内置各种加密机制,还有数不清的反爬虫措施。想让AI去自动化操作这些APP,难度相当高。
当然,少数APP提供了CLI(命令行界面)供外部调用,这从理论上讲是最适合Agent操作的方式。但问题在于,CLI需要各家APP厂商主动开发适配,推进速度极其缓慢。目前了解到提供CLI的只有飞书、钉钉等,整个生态的推进进度很慢。要丝滑打通所有APP,恐怕遥遥无期。
不过,最近发现了一个宝藏开源项目,能够解决这个问题。它叫Turix CUA,开源不久,在GitHub上已经获得2.3K Star。
先解释一下什么是CUA。CUA全称是Computer Use Agent,也就是计算机操作智能体。如果说大模型是AI的大脑,那CUA就是AI的手和眼——它通过视觉识别屏幕上的内容,模拟人类的鼠标点击和键盘输入去操作电脑。
Turix提供了开箱即用的桌面版。更关键的是,你可以把它作为一个Skill,直接接入到龙虾(OpenClaw)、爱马仕(Hermes Agent)、Claude Code、Codex等各种Agent中,让它们实现真正的APP自由。
比如,用它来控制微信,全自动通过积累的好友验证请求;甚至让它扮演角色,在微信里自动跟人聊天。而且操作速度相当快——大概比正常人熟练操作慢一半,但在目前的CUA领域,这已经算是非常迅速了。
一、安装使用
给Agent安装并不难。可以直接把Turix的GitHub链接丢给Codex,下达指令,Codex很快就能把环境拉下来并配置好。
这玩意儿安装好之后相当于在主Agent之下挂载了一个专门负责动手的小跟班——一个CUA子智能体。你需要给这个子智能体单独配置一个带有强大视觉识别能力的模型API,这块也可以直接大白话丢给本地Agent搞定。
Turix支持自定义配置模型。你可以配置自己常用的API中转站,只需提供API Key、模型名称和Base URL(API地址),让本地Agent帮你写进配置文件即可。
另外,Turix官方也自研了专门针对GUI(图形用户界面)操作微调或训练过的模型,分为turix-brain和turix-actor,官方推荐组合效果最佳。只需要去Turix的官网API平台获取一个api key,新建一个API Key,然后把这个Key提供给本地Agent,让它帮你配置即可(不用再配模型名称和Base URL,因为默认自带了官方模型的指向)。配置好之后,就能把那些以前没法在浏览器和纯API层面完成的脏活累活全部交给这个智能体了。
值得一提的是,注册之后账户余额里会自动获得100万Tokens,可以先白嫖一波免费的。
如果觉得用命令行操纵Agent安装有门槛,或者想单纯体验电脑被自动操控的快感,也可以选择一键安装的Turix桌面版。桌面版的优点是安装即用、有优化的图形界面,Work(办公)模式和Chat(聊天)模式相结合。而且桌面版在安全权限上做得更好——在涉及文件删除、发送邮件等关键步骤时都会弹窗询问用户请求,不会一股脑乱动你的电脑。
实际测试发现,相比于把Turix作为skill接入到其他Agent中,直接使用Turix桌面版的执行速度更快。所以下面录屏的任务都是使用Turix桌面版完成的。
当AI操纵你的电脑
先让它找首歌听听
先尝试一个相对简单的娱乐任务:打开QQ音乐,找到QQ音乐热歌榜,播放周杰伦的歌。它完成得极其轻松——直接拉起QQ音乐,点击排行,找到热歌榜,然后点击了第一首歌的MV播放按钮。
微信全自动通过好友请求
平时微信加人不少,逐条定时同意、手动一个一个去确认比较费时间,这次决定用Turix试试。用CUA操作微信最大的好处是没有封号风险——它本质上就是在模拟正常人的鼠标点击和滑动,根本不涉及底层协议破解或API劫持。
打开电脑微信,打开微信侧边的通讯录,展开新的朋友,找到所有等待验证的朋友请求,挨个点击确定、通过,再一个一个执行,直到全部通过为止。看着鼠标自动在屏幕上有条不紊地点击、验证通过、返回、再点击下一个,那种把重复劳动甩给AI的爽感确实不错。
微信指数查询自动化
平时写文章经常需要查各种热词的微信指数,这也是枯燥的重复劳动。让它帮忙查一下OpenClaw最近的热度情况。它极其精准地找到了微信指数,打开了微信指数小程序,最终查询到OpenClaw的微信指数。整个流程一气呵成。有了这个基础,完全可以每天定时让它跑很多个关键词的指数,监控热点。
赛博男友在线代聊
能不能让它直接帮忙回消息?直接让它扮演角色去聊天,打字发送的过程极其丝滑。角色扮演也相当入戏,开口就是:“宝贝,在干嘛呢?想你啦~”还会根据对方发来的表情包做出恰当的文字回应。整个对话进行了多轮,甜蜜程度爆表。
但这也暴露了Turix目前的一个问题:它容易聊嗨了,对规定数字限制不敏感。两"人"你一言我一语,对话轮数远超预期,最后还是强行干预才停下来。官方在这方面还有优化空间。
发现了问题怎么办?让它自己给自己提Bug
直接套娃——让Turix自己去提Issue(问题报告)。它丝滑地打开正在使用的浏览器,因为已经登录了GitHub账号,不用重新登录。最终不是只填原话,而是根据自己的理解和Issue的格式,填写了一条标准的信息并顺利提交了。
顺带发现,Turix在操作浏览器时的丝滑程度,简直就像大学生做小学题一样,比操作APP更丝滑。
对比与思考
前两天Codex桌面版也更新了,同样支持操纵本地APP的功能。体验了一下Codex的CUA能力,坦白说,在基础的点击准确率上两者效果差不多。Codex的操作有时候也会显得迷惑,比如让它去QQ音乐里播放周杰伦新专辑,它死活敲不出汉字,在那拼拼音瞎搜。
相比之下,Turix的架构明显更加灵活。因为完全开源,它可以被当成一个底层能力模块,接入到任何喜欢的Agent框架里当Skill用。也可以随意更换更强大的视觉大模型底座,上限很高。在CUA执行速度上,Codex桌面版比Turix桌面版稍慢一些。不过Codex好的一点是点击时不会抢鼠标,会生成一个新的鼠标来点击;而Turix会抢鼠标,官方这块也有优化空间。
最后
从技术角度讲,让Agent操纵各种APP,最稳定、最高效的终极方案绝对是底层API调用或CLI命令行。但必须面对现实——CLI这项技术虽然古老且成熟,但在国内这种处处建护城河的互联网大环境下,愿意主动开放系统底层接口的官方APP屈指可数。
可以确定的是,在未来一段时间内,CUA(计算机视觉操作)仍然是最普适的APP自动化方案。特别是当CUA再进化一段时间,操作速度和准确度更上一层楼之后,CUA的工作模式绝对会碘伏传统RPA行业。因为使用RPA,需要程序员去写复杂的抓取脚本,网页一旦改版脚本就得重写,上手门槛也高。而CUA用大白话下达一次指令,如果能准确熟练地成功执行一次,就能立刻把这套操作流程沉淀成一个经验Skill。下次再让它干同样的活,直接调用这个Skill,就能更快、更稳地完成任务——相当于花十分钟教了一个聪明的徒弟,以后这活儿就是他的了。
