OpenClaw 爆火之后,GitHub 上悄然掀起了一股新浪潮:Computer-use-Agent(CUA)。简单来说,就是让 AI 能够像人类一样,直接上手操作浏览器和各种应用程序——不再只是“读读文本”,而是真正执行任务。
目前市面上虽然有一些让人眼前一亮的尝试,但对大多数开发者和企业来说,实际落地时常常卡在两个方向:要么核心技术是闭源的,无法深度定制;要么开源项目仍停留在“跑通一次 Demo”的实验阶段。
今天要介绍的 TuriX,恰好踩中了这个节点。它让大模型可以像人一样,看着屏幕、动手操作。你只需用自然语言说一句话,它就能自动操作浏览器和各种桌面应用。
一、TuriX 介绍
TuriX 本质上是一个 AI 驱动的数字助手,能够自动化处理 Windows、Linux 和 macOS 上的各类任务。它与传统的 RPA 或基于 API 的自动化有所不同——只要人能点到的界面,TuriX 也能点,真正实现了跨应用的自动化操作。
你只需要用自然语言描述任务,TuriX 就会让 AI 自动规划并执行。即便目标应用不提供 API,也没有问题。
它还提供开箱即用的桌面应用,同时附带专门的 skill 技能包,能够很方便地集成到 OpenClaw 或 Claude Code 中。
在 Mac 上,TuriX 能操作浏览器、文档、邮件、聊天应用,甚至系统设置。在 Windows 上,它支持 GUI 自动化和浏览器操作,比如自动搜索 YouTube 视频并点赞。
二、快速上手
2.1 桌面应用
目前 TuriX 提供了 macOS 和 Windows 桌面客户端,直接从官网(turix.ai)下载即可。
2.2 接入 OpenClaw
TuriX 官网提供了 skill 安装包,下载解压后可以看到完整的 skill 文件结构:
turix-cua/
├── SKILL.md
├── agents/
├── assets/
├── references/
└── scripts/
└── bin/
├── turix-cua-darwin-arm64
└── turix-cua-windows-amd64.exe
接下来,把解压后的 turix-cua 放到 OpenClaw 的 skills 目录下即可:
# macOS / Linux
mkdir -p ~/.openclaw/workspace/skills
cp -R turix-cua ~/.openclaw/workspace/skills/
# Windows PowerShell
mkdir "$HOME\.openclaw\workspace\skills"
Copy-Item -Path ".\turix-cua" -Destination "$env:USERPROFILE\.openclaw\workspace\skills" -Recurse -Force
本质上就是让 skill 文件出现在 ~/.openclaw/workspace/skills/turix-cua/SKILL.md 这个位置。
安装好之后,OpenClaw 通常不会立刻加载这个技能。你需要去 Web 页面点一下“New session”,新建一个对话窗口,这样才能完成加载。如果还没反应,可以执行 openclaw gateway restart 重启一下。
想确认是否安装成功?直接问 OpenClaw:“我当前有哪些技能”。如果回复里包含 turix-cua,那就是安装成功了。
有一点需要注意:turix-cua skill 不是纯前端插件,它依赖本地已经安装好的 TuriX 客户端环境。使用前要确保以下两点:
- 本机已安装并登录 TuriX 客户端
- 客户端处于运行状态
2.3 Python 脚本使用方式
除了开箱即用的桌面应用和 skill 集成,TuriX 也为开发者准备了 Python 调用方式:
conda create -n turix_env python=3.12
conda activate turix_env
pip install -r requirements.txt
用这种方式,你不仅可以自定义 LLM API,还能按需开发更适合自己的自动化工具:
if provider == "name_you_want":
return ChatOpenAI(model="gpt-4.1-mini", api_key=api_key, temperature=0.3)
三、技术解读
TuriX 本质上是一个基于 VLM 的 Agent 框架,通过模拟人类的 GUI 交互来执行桌面操作。为了应对大模型上下文限制等问题,它采用了 TuriX Parallelum 的四角色协同架构:
- 规划者:将用户指令拆解为可循序渐进执行的计划,帮助执行者更好地理解意图。
- 执行者:理解步骤,基于当前屏幕截图等信息,执行精确的桌面操作。
- 评估者:通过对比操作前后的截图,判断操作是否成功。如果失败,指挥执行者重试。
- 监督者:当评估者检测到多次失败时,监督者会分析所有截图、状态和历史,重新规划任务,避免陷入死循环。
除了角色分工,TuriX 还引入了并行执行流水线:执行者在假设前一步成功的前提下执行第 n 步操作的同时,评估者同步对第 n-1 步进行评估。这样既保证了执行成功率,又不会拉低效率。
在提升执行准确率方面,TuriX 基于 macOS 的 AXUIElement 框架,将屏幕上的组件、边框位置等信息转化为结构化文本数据,与截图一起输入给大模型,从而输出更准确的节点索引。
在持续打磨执行成功率的过程中,TuriX 团队发现现有的多数 VLM 模型在像素级 GUI 操作上还不够精准。于是他们选择基于 Qwen2.5-VL-72B 模型进行微调,微调后的模型在桌面自动化任务测试中表现更加出色。
四、最后
除了易用性、准确率以及对 OpenClaw 体验的提升,TuriX 作为一个开源项目,它“听劝”的态度也让人印象深刻。在 Issues 和社交媒体上逛一圈就会发现,每一条 Issue 都会得到认真对待和及时回复。
有人在 Issue 里问:“TuriX 是否支持 Linux?如果支持,怎么安装?”没过多久,Linux 版本就正式上线了——不是画饼,是真的能跑。在 Facebook 上,有用户分享了一段视频:他用 TuriX 自动化处理了 30 份发片并导出报表,全程没有人工干预。配文只有一句话:“喝个咖啡的时间。”还有交流群里,有人问如何接入本地模型,官方技术人员也耐心指导。
这种“听劝”是一种以开放和服务用户的姿态去迭代。每一个 Star、Issue、PR 都会让 TuriX 变得更好,最终和开源社区一起打造出一个真正能干活、能让人早点下班的“AI 助手”。
一个愿意倾听用户声音、持续快速迭代的开源项目,也许用不了太久,TuriX 的悄然崛起,就会变成一件大家喜闻乐见的事。
```