浙江大学发布ClawGUI工具链让AI机器人学会操作手机

首页

热心网友

转载

2026-05-15

手机屏幕，早已成为现代生活的核心界面。从点开微信到刷短视频，从订外卖到设闹钟，这些操作对我们而言是肌肉记忆，但对人工智能来说，却是一座需要翻越的技术高山。这不同于让AI生成文本或回答问题，操控手机要求AI必须真正“看懂”屏幕上的像素，并模拟人类手指去点击、滑动、输入——这类能像人一样操作图形界面的AI，被研究者称为“GUI智能体”。

过去几年，相关研究如雨后春笋，但一个根本性难题始终悬而未决：整个领域缺乏一套统一的工具链。各家团队自建训练环境、自定义评测标准、各自报告数据，导致模型之间难以公平比较，研究成果更难以转化为普通用户可用的产品。这好比一群厨师各自研发菜谱，但灶具、量具乃至装盘方式都各不相同，最终既无法评判高下，也无法让食客尝到成品。

正是为了破解这一困局，浙江大学的研究团队推出了ClawGUI。这套完整工具链的名字暗含“爪子”之意，寓意AI能像爪子一样精准抓取和操控屏幕。它将GUI智能体的训练、评测与真实部署三大环节整合进一个统一的工具箱，旨在为研究者和应用开发者铺平道路。

浙江大学出手，打造AI手机助手全套工具链——ClawGUI让机器人真正学会

一、教会AI“用手机”，难在何处？

在深入了解ClawGUI之前，不妨先思考一个问题：训练一个能操作手机界面的AI，为何比想象中困难得多？

沿用厨房的比喻，训练一个合格的“厨师”需要三个条件同时满足：一个能稳定练习的真实厨房（训练环境）、一套公平的评分标准（评测体系），以及一条毕业后能真正上岗的路径（部署方案）。而现有的GUI智能体研究，在这三方面都面临着挑战。

训练环境不稳定。 虽有团队采用强化学习训练GUI智能体并取得成效，但这些训练系统大多未公开，且完全依赖于虚拟手机模拟器。模拟器本身极其脆弱，训练过程动辄崩溃，更无人尝试在真实的物理手机上进行训练。

评测标准不统一。 不同论文采用的提问方式、图像分辨率、坐标计算规则各异，导致报告的性能指标缺乏可比性。一个模型声称在某基准上提升2%，这究竟是实质进步，还是评测“技巧”带来的水分？很难判断。

部署落地是短板。 实验室里训练出的模型，极少能真正送到用户手中。代码往往只是开源在GitHub上，对系统兼容性、个性化支持、跨平台使用等实际问题考虑不足。

ClawGUI的诞生，正是为了系统性解决这三个层面的问题。

二、训练场：为AI搭建稳定的“练习室”

ClawGUI的第一个核心模块是ClawGUI-RL，专注于训练环节。其核心是一个高效的“环境管理器”，可以同时调度数十个虚拟手机实例并行训练。当某个实例崩溃时，系统能自动将其替换，确保了训练流程的连续性，从根本上解决了模拟器不稳定的老大难问题。

更具突破性的是，ClawGUI-RL首次支持在真实物理手机上训练。这与模拟器训练有本质区别：模拟器可直接读取系统底层数据（如数据库）来判定任务成败，而真实手机无此权限。团队的解决方案是引入一个强大的多模态AI作为“裁判”，通过观察任务完成后的最终屏幕截图来打分，无需窥探过程。

在奖励机制设计上，ClawGUI-RL采用了双层策略。基础层是简单的二元奖励（成功得1分，失败得0分）。但对于需要多步操作的任务，仅靠最终奖励，AI无法知晓哪一步出错。为此，团队引入了“过程奖励模型”（PRM），在AI每执行一步操作后，立即评估该步骤是否朝着目标前进。这就好比教练在运动员训练的每个分解动作后都给予即时反馈，而非只在最终计时。

在算法层面，系统同时支持GRPO和GiGPO两种方法。GRPO对整条操作轨迹进行整体评分，适合短任务；而GiGPO则更为精细，它将不同尝试中到达相同中间状态的操作步骤分组比较，实现更细粒度的信用分配，这对于需要数十步的复杂任务至关重要。

三、考场：让AI成绩真正可比较、可复现

训练完成后，如何客观评估AI的能力？ClawGUI-Eval模块应运而生，它是一套标准化的评测流水线。

其核心理念是将评测流程拆解为三个严格独立的阶段：推理、评判和计算指标。这如同一条生产线，各环节职责清晰，出了问题可单独修复，无需推倒重来。

“推理”阶段负责让模型根据题目生成预测结果，支持本地GPU运行或API远程调用，并具备断点续跑能力。“评判”阶段则将模型输出与标准答案对比，针对不同题型（如单点定位、多步操作）采用专用评判器。“计算指标”阶段则汇总结果，生成按平台、元素类型、任务类别等多维度细分的成绩报告。

该模块覆盖了ScreenSpot-Pro、UI-Vision、MMBench-GUI等6个主流评测基准，并支持Qwen3-VL、Gemini、UI-TARS等超过11个主流AI模型。为了验证其可靠性，团队用该流水线复现了各模型的官方成绩，在48组可对比数据中，46组的误差控制在2%以内或优于原成绩，复现率高达95.8%。

值得注意的是，仅有的两组复现失败，恰恰发生在那些未公开评测配置细节的模型上。这有力地说明，GUI评测的可复现性问题，根源在于细节不透明，而非评测本身不可标准化。

对于无法直接调用的闭源商业模型，团队设计了“缩放范式”的两阶段处理方法：先将高分辨率大图切割成多个瓦片分别送入模型识别，再整合结果还原坐标。这种方法无需接触模型内部，便成功复现了Gemini等模型的官方成绩。

四、出门上岗：将AI装进真实手机

前两个模块解决了“练”和“考”的问题，ClawGUI-Agent则致力于解决“用”的问题——让AI在真实手机上为用户服务。

它支持安卓、鸿蒙、iOS三大系统，并接入飞书、钉钉、微信、Telegram等超过12个主流聊天平台。用户只需在聊天软件中向AI发送指令，AI即可操控手机完成任务并反馈结果，体验如同拥有一个全天候的虚拟助理。

它提供两种控制模式：“远程控制模式”允许用户通过另一台设备间接控制目标手机；“本地控制模式”则直接在手机本地的聊天软件中运行，无需额外硬件。

在操控策略上，它采用“CLI+GUI混合控制”。CLI（命令行界面）通过程序接口直接下达系统指令，效率极高；GUI则模拟人类视觉交互，覆盖范围无死角。系统会优先尝试CLI方式，若应用未提供接口则自动切换至GUI控制，兼顾了效率与通用性。

尤为贴心的是其个性化记忆系统。AI能从与用户的互动中自动提取结构化信息（如常用应用、联系人关系、使用偏好），并以向量形式存储。当用户再次发出指令时，系统会检索相关记忆并注入上下文，让AI能理解“给我妈发消息”中的“我妈”具体指谁，或者记得用户偏好使用某个外卖平台。重复记忆会被自动合并，确保知识库精简有效。

更有趣的是，ClawGUI-Agent将评测模块也封装成了一个可调用的“技能”。研究者只需在聊天窗口中说“帮我评测Qwen3-VL在ScreenSpot-Pro上的表现”，系统便会自动完成环境检查、并行推理、评判、生成报告的全流程，并将结构化结果连同与官方数据的对比一并返回。

五、训练成果：小体量，大能量

基于这套框架，团队端到端训练出了ClawGUI-2B模型。该模型以MAI-UI-2B为基础，采用GiGPO算法，在64个并行虚拟手机环境中强化学习训练了3轮。其中，为每一步操作打分的“裁判”工作由Qwen3.5-72B大模型承担。

在MobileWorld基准的“GUI-Only”测试集（共117个真实手机任务，要求纯视觉操控）上，ClawGUI-2B取得了17.1%的成功率。这个数字需要放在语境中理解：

同参数规模的MAI-UI-2B成功率仅为11.1%。这意味着，相同的起点模型，经过ClawGUI-RL训练后，性能提升了6个百分点。

与参数量大得多的模型相比：Qwen3-VL-32B（参数量是其16倍）成绩为11.9%；UI-Venus-72B（参数量是其36倍）成绩为16.4%，仍略低于ClawGUI-2B。这表明，在GUI操控任务上，训练方法的质量可能比模型的原始规模更为关键。

当然，目前顶级的方案（如结合闭源商业大模型与专用定位模型的框架）成功率可达55.6%，但这属于另一条技术路径。

此外，对比实验清晰显示了细粒度奖励的价值：在相同设置下，使用GRPO（整体轨迹奖励）的模型成功率为14.5%，而使用GiGPO（步骤级奖励）后，成功率提升至17.1%，相对提升达17.9%。这证实了在复杂多步任务中，对每一步操作进行精细的信用分配至关重要。

结语

ClawGUI所做的工作，看似是在打磨基础设施而非创造碘伏性算法，但这恰恰是推动一个领域从实验室走向成熟应用的关键。GUI智能体领域不乏巧思与强大的模型，缺的正是这样一个能够统一训练、公平评测、并实现便捷部署的公共平台。

对于普通用户而言，这意味着什么？近年来，AI助手在对话上的能力令人惊叹，但“能聊天”与“能替你操作手机”之间仍有巨大鸿沟。ClawGUI的价值在于，它系统性地填平了这条道路上最棘手的几个工程坑，为后续研究者提供了坚实的基石。沿着这个方向，一个真正能理解你、记住你习惯、并跨应用替你处理日常琐事的AI助手，正变得愈发可期。

这项由浙江大学多个团队联合开展的研究，以预印本形式发布于2026年4月，论文编号为arXiv:2604.11784。所有代码已在GitHub开源。