首页 游戏 软件 资讯 排行榜 专题
首页
AI
浙江大学发布ClawGUI工具链让AI机器人学会操作手机

浙江大学发布ClawGUI工具链让AI机器人学会操作手机

热心网友
89
转载
2026-05-15

手机屏幕,早已成为现代生活的核心界面。从点开微信到刷短视频,从订外卖到设闹钟,这些操作对我们而言是肌肉记忆,但对人工智能来说,却是一座需要翻越的技术高山。这不同于让AI生成文本或回答问题,操控手机要求AI必须真正“看懂”屏幕上的像素,并模拟人类手指去点击、滑动、输入——这类能像人一样操作图形界面的AI,被研究者称为“GUI智能体”。

过去几年,相关研究如雨后春笋,但一个根本性难题始终悬而未决:整个领域缺乏一套统一的工具链。各家团队自建训练环境、自定义评测标准、各自报告数据,导致模型之间难以公平比较,研究成果更难以转化为普通用户可用的产品。这好比一群厨师各自研发菜谱,但灶具、量具乃至装盘方式都各不相同,最终既无法评判高下,也无法让食客尝到成品。

正是为了破解这一困局,浙江大学的研究团队推出了ClawGUI。这套完整工具链的名字暗含“爪子”之意,寓意AI能像爪子一样精准抓取和操控屏幕。它将GUI智能体的训练、评测与真实部署三大环节整合进一个统一的工具箱,旨在为研究者和应用开发者铺平道路。

浙江大学出手,打造AI手机助手全套工具链——ClawGUI让机器人真正学会

一、教会AI“用手机”,难在何处?

在深入了解ClawGUI之前,不妨先思考一个问题:训练一个能操作手机界面的AI,为何比想象中困难得多?

沿用厨房的比喻,训练一个合格的“厨师”需要三个条件同时满足:一个能稳定练习的真实厨房(训练环境)、一套公平的评分标准(评测体系),以及一条毕业后能真正上岗的路径(部署方案)。而现有的GUI智能体研究,在这三方面都面临着挑战。

训练环境不稳定。 虽有团队采用强化学习训练GUI智能体并取得成效,但这些训练系统大多未公开,且完全依赖于虚拟手机模拟器。模拟器本身极其脆弱,训练过程动辄崩溃,更无人尝试在真实的物理手机上进行训练。

评测标准不统一。 不同论文采用的提问方式、图像分辨率、坐标计算规则各异,导致报告的性能指标缺乏可比性。一个模型声称在某基准上提升2%,这究竟是实质进步,还是评测“技巧”带来的水分?很难判断。

部署落地是短板。 实验室里训练出的模型,极少能真正送到用户手中。代码往往只是开源在GitHub上,对系统兼容性、个性化支持、跨平台使用等实际问题考虑不足。

ClawGUI的诞生,正是为了系统性解决这三个层面的问题。

二、训练场:为AI搭建稳定的“练习室”

ClawGUI的第一个核心模块是ClawGUI-RL,专注于训练环节。其核心是一个高效的“环境管理器”,可以同时调度数十个虚拟手机实例并行训练。当某个实例崩溃时,系统能自动将其替换,确保了训练流程的连续性,从根本上解决了模拟器不稳定的老大难问题。

更具突破性的是,ClawGUI-RL首次支持在真实物理手机上训练。这与模拟器训练有本质区别:模拟器可直接读取系统底层数据(如数据库)来判定任务成败,而真实手机无此权限。团队的解决方案是引入一个强大的多模态AI作为“裁判”,通过观察任务完成后的最终屏幕截图来打分,无需窥探过程。

在奖励机制设计上,ClawGUI-RL采用了双层策略。基础层是简单的二元奖励(成功得1分,失败得0分)。但对于需要多步操作的任务,仅靠最终奖励,AI无法知晓哪一步出错。为此,团队引入了“过程奖励模型”(PRM),在AI每执行一步操作后,立即评估该步骤是否朝着目标前进。这就好比教练在运动员训练的每个分解动作后都给予即时反馈,而非只在最终计时。

在算法层面,系统同时支持GRPO和GiGPO两种方法。GRPO对整条操作轨迹进行整体评分,适合短任务;而GiGPO则更为精细,它将不同尝试中到达相同中间状态的操作步骤分组比较,实现更细粒度的信用分配,这对于需要数十步的复杂任务至关重要。

三、考场:让AI成绩真正可比较、可复现

训练完成后,如何客观评估AI的能力?ClawGUI-Eval模块应运而生,它是一套标准化的评测流水线。

其核心理念是将评测流程拆解为三个严格独立的阶段:推理评判计算指标。这如同一条生产线,各环节职责清晰,出了问题可单独修复,无需推倒重来。

“推理”阶段负责让模型根据题目生成预测结果,支持本地GPU运行或API远程调用,并具备断点续跑能力。“评判”阶段则将模型输出与标准答案对比,针对不同题型(如单点定位、多步操作)采用专用评判器。“计算指标”阶段则汇总结果,生成按平台、元素类型、任务类别等多维度细分的成绩报告。

该模块覆盖了ScreenSpot-Pro、UI-Vision、MMBench-GUI等6个主流评测基准,并支持Qwen3-VL、Gemini、UI-TARS等超过11个主流AI模型。为了验证其可靠性,团队用该流水线复现了各模型的官方成绩,在48组可对比数据中,46组的误差控制在2%以内或优于原成绩,复现率高达95.8%。

值得注意的是,仅有的两组复现失败,恰恰发生在那些未公开评测配置细节的模型上。这有力地说明,GUI评测的可复现性问题,根源在于细节不透明,而非评测本身不可标准化。

对于无法直接调用的闭源商业模型,团队设计了“缩放范式”的两阶段处理方法:先将高分辨率大图切割成多个瓦片分别送入模型识别,再整合结果还原坐标。这种方法无需接触模型内部,便成功复现了Gemini等模型的官方成绩。

四、出门上岗:将AI装进真实手机

前两个模块解决了“练”和“考”的问题,ClawGUI-Agent则致力于解决“用”的问题——让AI在真实手机上为用户服务。

它支持安卓、鸿蒙、iOS三大系统,并接入飞书、钉钉、微信、Telegram等超过12个主流聊天平台。用户只需在聊天软件中向AI发送指令,AI即可操控手机完成任务并反馈结果,体验如同拥有一个全天候的虚拟助理。

它提供两种控制模式:“远程控制模式”允许用户通过另一台设备间接控制目标手机;“本地控制模式”则直接在手机本地的聊天软件中运行,无需额外硬件。

在操控策略上,它采用“CLI+GUI混合控制”。CLI(命令行界面)通过程序接口直接下达系统指令,效率极高;GUI则模拟人类视觉交互,覆盖范围无死角。系统会优先尝试CLI方式,若应用未提供接口则自动切换至GUI控制,兼顾了效率与通用性。

尤为贴心的是其个性化记忆系统。AI能从与用户的互动中自动提取结构化信息(如常用应用、联系人关系、使用偏好),并以向量形式存储。当用户再次发出指令时,系统会检索相关记忆并注入上下文,让AI能理解“给我妈发消息”中的“我妈”具体指谁,或者记得用户偏好使用某个外卖平台。重复记忆会被自动合并,确保知识库精简有效。

更有趣的是,ClawGUI-Agent将评测模块也封装成了一个可调用的“技能”。研究者只需在聊天窗口中说“帮我评测Qwen3-VL在ScreenSpot-Pro上的表现”,系统便会自动完成环境检查、并行推理、评判、生成报告的全流程,并将结构化结果连同与官方数据的对比一并返回。

五、训练成果:小体量,大能量

基于这套框架,团队端到端训练出了ClawGUI-2B模型。该模型以MAI-UI-2B为基础,采用GiGPO算法,在64个并行虚拟手机环境中强化学习训练了3轮。其中,为每一步操作打分的“裁判”工作由Qwen3.5-72B大模型承担。

在MobileWorld基准的“GUI-Only”测试集(共117个真实手机任务,要求纯视觉操控)上,ClawGUI-2B取得了17.1%的成功率。这个数字需要放在语境中理解:

同参数规模的MAI-UI-2B成功率仅为11.1%。这意味着,相同的起点模型,经过ClawGUI-RL训练后,性能提升了6个百分点。

与参数量大得多的模型相比:Qwen3-VL-32B(参数量是其16倍)成绩为11.9%;UI-Venus-72B(参数量是其36倍)成绩为16.4%,仍略低于ClawGUI-2B。这表明,在GUI操控任务上,训练方法的质量可能比模型的原始规模更为关键。

当然,目前顶级的方案(如结合闭源商业大模型与专用定位模型的框架)成功率可达55.6%,但这属于另一条技术路径。

此外,对比实验清晰显示了细粒度奖励的价值:在相同设置下,使用GRPO(整体轨迹奖励)的模型成功率为14.5%,而使用GiGPO(步骤级奖励)后,成功率提升至17.1%,相对提升达17.9%。这证实了在复杂多步任务中,对每一步操作进行精细的信用分配至关重要。

结语

ClawGUI所做的工作,看似是在打磨基础设施而非创造碘伏性算法,但这恰恰是推动一个领域从实验室走向成熟应用的关键。GUI智能体领域不乏巧思与强大的模型,缺的正是这样一个能够统一训练、公平评测、并实现便捷部署的公共平台。

对于普通用户而言,这意味着什么?近年来,AI助手在对话上的能力令人惊叹,但“能聊天”与“能替你操作手机”之间仍有巨大鸿沟。ClawGUI的价值在于,它系统性地填平了这条道路上最棘手的几个工程坑,为后续研究者提供了坚实的基石。沿着这个方向,一个真正能理解你、记住你习惯、并跨应用替你处理日常琐事的AI助手,正变得愈发可期。

这项由浙江大学多个团队联合开展的研究,以预印本形式发布于2026年4月,论文编号为arXiv:2604.11784。所有代码已在GitHub开源。

Q&A

Q1:ClawGUI和普通的AI手机助手(如Siri)有什么区别?

普通AI助手主要依靠调用系统或应用预先提供的API来完成任务,覆盖范围受限于接口开放程度。ClawGUI训练的GUI智能体则模拟人类“看屏操作”的方式,理论上可操控任何应用界面,无需应用专门配合。此外,ClawGUI是一套完整的研究与开发工具链,涵盖了从训练、评测到部署的全流程。

Q2:ClawGUI-2B在测试中只有17%的成功率,是否意味着表现不佳?

需要结合测试难度来看。MobileWorld的GUI-Only测试集包含117个需纯视觉完成的真实手机任务,挑战性很高。17.1%的成功率在同等规模的开源端到端模型中已处于领先地位,甚至超过了参数量大得多的某些模型。目前最高的成绩依赖于闭源商业大模型,不属于同一可比类别。

Q3:GiGPO与GRPO的区别对普通用户有实际影响吗?

直接影响在于AI完成任务的能力。GiGPO通过为每一步操作提供反馈,让AI学习得更精准,从而在相同条件下获得更高的任务成功率(相对提升约17.9%)。对用户而言,这意味着AI助手在执行任务时更少“卡壳”或“迷路”,完成任务的效率和可靠性更高。

来源:https://www.techwalker.com/2026/0421/3184675.shtml
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

浙江大学发布ClawGUI工具链让AI机器人学会操作手机
AI
浙江大学发布ClawGUI工具链让AI机器人学会操作手机

手机屏幕,早已成为现代生活的核心界面。从点开微信到刷短视频,从订外卖到设闹钟,这些操作对我们而言是肌肉记忆,但对人工智能来说,却是一座需要翻越的技术高山。这不同于让AI生成文本或回答问题,操控手机要求AI必须真正“看懂”屏幕上的像素,并模拟人类手指去点击、滑动、输入——这类能像人一样操作图形界面的A

热心网友
05.15
香港科技大学AI助手突破记忆瓶颈实现类人记忆功能
AI
香港科技大学AI助手突破记忆瓶颈实现类人记忆功能

当你让手机AI助手处理一个稍复杂的任务,比如“先在淘宝和京东比比AirPods Pro 2的价格,把便宜的那款加购物车,再把链接分享给微信好友”,结果常常令人沮丧。助手可能在第一步查价时表现尚可,但几步之后,它似乎就“忘了”之前看到的信息——明明刚对比过两个平台的价格,转眼就不知道哪个更便宜了。 这

热心网友
05.14
百度AI手机如何识别证件信息 详细操作步骤与工具介绍
AI
百度AI手机如何识别证件信息 详细操作步骤与工具介绍

利用OCR技术可在手机上快速识别身份证、驾驶证等证件信息。主要方法包括:集成百度智能云OCR移动端SDK至自有应用,支持离线高速识别;使用百度APP内置拍照识图功能,便捷获取并复制关键信息;调用百度AI开放平台HTTPAPI,实现多终端统一云端处理;或通过百度“一念智能创作平台”可视化界面,轻松上传识别并。

热心网友
05.13
百度AI手机识别乐谱功能使用教程与操作指南
AI
百度AI手机识别乐谱功能使用教程与操作指南

手机AI识别乐谱本质是视觉翻译,效果不佳常因图像质量或操作流程问题。需确保光线均匀、垂直拍摄乐谱并完整取景。通过百度App“AI扫一扫”的文档识别模式触发解析,或使用文心一言V3 5图像功能补充细节。若遇复杂乐谱,可借助第三方专业工具交叉验证以确保准确性。

热心网友
05.13
百度AI手机扫条码识别商品教程与购物使用指南
AI
百度AI手机扫条码识别商品教程与购物使用指南

遇到百度AI手机识别商品条码失败的情况,先别急着下结论。这通常不是功能本身的问题,而可能是图像质量、调用方式或环境因素导致的。条码识别看似简单,实则对图像清晰度、光照和角度都有一定要求。不过别担心,条码识别不成功,我们至少有五种可靠的替代或解决方案,总有一种能帮你拿到想要的商品信息。 一、通过百度A

热心网友
05.13

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

领克GT概念跑车北京车展首发 百公里加速仅2秒
科技数码
领克GT概念跑车北京车展首发 百公里加速仅2秒

领克首款GT概念跑车亮相北京车展,由中欧团队联合打造。新车采用经典GT比例与低趴宽体设计,配备液态金属蓝涂装与2+2座舱,设有高性能模式按键可激活空气动力学套件。车辆采用后驱布局与AI智能运动控制系统,百公里加速约2秒,设计融合瑞典极简美学并参考全球用户反馈。

热心网友
05.14
英伟达RTX 5070移动版GPU发布 12GB显存性能大幅提升
科技数码
英伟达RTX 5070移动版GPU发布 12GB显存性能大幅提升

英伟达推出12GB显存版RTX5070移动GPU,与8GB版同步上市。两者均基于Blackwell架构,核心规格相同,仅显存容量不同。此举旨在缓解GDDR7芯片供应压力,为OEM提供灵活配置,加速笔记本产品布局,更大显存可更好满足游戏与AI应用需求。

热心网友
05.14
微星新款雾面WOLED显示器MAG 276QRY28与276QRDY54正式发售
科技数码
微星新款雾面WOLED显示器MAG 276QRY28与276QRDY54正式发售

微星将于5月15日推出两款26 5英寸雾面WOLED显示器MAG276QRY28和276QRDY54,售价分别为2499元和6299元。均采用第四代WOLED面板,具备QHD分辨率、VESADisplayHDRTrueBlack500认证、1500尼特峰值亮度及99 5%DCI-P3色域覆盖。276QRY28刷新率为280Hz,高阶款276QRDY54支持4

热心网友
05.14
中芯国际一季度净利润13.61亿元 同比增长0.4%
科技数码
中芯国际一季度净利润13.61亿元 同比增长0.4%

中芯国际2026年第一季度营收176 17亿元,同比增长8 1%;净利润13 61亿元,同比增长0 4%。公司预计第二季度收入环比增长14%至16%,毛利率指引上调至20%至22%。这反映出公司在行业复苏中展现出财务韧性,并通过运营优化增强了短期增长势头。

热心网友
05.14
AI图像处理训练数据存在色差问题 16种算法经小改动全面提升
AI
AI图像处理训练数据存在色差问题 16种算法经小改动全面提升

手机修图、相机降噪、视频去雾……这些我们日常使用的图像处理功能,其背后都离不开人工智能(AI)技术的驱动。通常,AI模型的训练逻辑是:向模型展示大量“低质图像”与“优质图像”的配对数据,让它学习如何将前者转化为后者。然而,天津大学计算机视觉团队近期发表的一项研究(arXiv:2604 08172)揭

热心网友
05.14