游乐游手机版
首页/科技数码/文章详情

香港理工大学等机构联合开发GUI定位新方法

时间:2026-06-23 15:07
针对AI在复杂屏幕中精准定位按钮的难题,香港理工大学等机构提出“质量感知自蒸馏”方法。该方法通过软正确性感知门控与教师概率缩放两个机制,让AI批判性地接受教师指导。在六个基准测试上,平均准确率达73 58%,全面超越此前方案,显著提升了高分辨率、小目标密集场景下的GUI定位性能。

近日,由香港理工大学、佐治亚大学与腾讯AI Lab等机构联合开展的一项研究,为“让AI替你操作界面”这一场景提供了全新方向。该研究已公开发布(论文编号arXiv:2606.18101v2),核心议题聚焦于一项日常却极具挑战的任务:如何使AI在复杂计算机或移动设备屏幕上,像人类一样精准定位并点击目标按钮——这一过程在业界被称为GUI定位。

试想一下,如果你告诉助手“帮我点击‘保存’按钮”,它需要理解指令,在满屏图标、文字与按钮中快速锁定那个仅指甲盖大小的目标,最后将鼠标精确移到对应位置。目前,让AI掌握这一技能难度极高,尤其是在高分辨率、元素密集的现代软件界面中,AI常常出现“视觉混淆”。

该研究提出的“质量感知自蒸馏”方法,本质上是教会AI如何甄别性地“听课”——当教师的指导本身可能存有偏差时,学生不应全盘照收,而需学会选择性、有折扣地吸纳。测试结果显示,这一方法在六个主流评测基准上全面超越此前方案,成绩相当亮眼。

一、为什么AI精准定位按钮如此困难

不妨放大任务难度:在一张布满杂物的办公桌照片中,找出一枚红色回形针。你需要扫视全局、识别物体,最终精确指出其像素级位置。AI执行GUI定位的挑战与此类似甚至更复杂,因为屏幕截图分辨率动辄数千像素,而目标按钮可能只占其中几十个像素。

目前,训练AI完成这类任务的主流方法主要有三种。

第一种是“监督微调”。这类似于传统题海战术:为AI提供大量已标注“题目”(屏幕截图)与“标准答案”(正确坐标),供其反复训练。该方法稳定,但缺陷明显:答案仅为一个冷冰冰的坐标数字(如“452, 318”),AI完全未知“为何是这里”,也不清楚“若有偏差,概率几何”。这就好比只告诉学生最终答案是“3”,却不传授任何解题逻辑。

第二种是“强化学习”。以GRPO为代表,让AI自行尝试,操作正确给予奖励,错误则无奖励。此方式成本高昂,需大量试错,且反馈信号“稀疏”且粗粒度——对于需像素级精度的任务,仅获得笼统的“对”或“错”评价,学习效率相当有限。

第三种,也是本研究的起点,称为“在线自蒸馏”。其思路巧妙:与其仅关注最终答案对错,不如在AI生成答案的每一步(如生成坐标的每个数字时),让其接受一位“更强教师”的实时指导。这位教师通常是AI自身增强版本,可能拥有额外线索(如知晓目标按钮大致区域),从而给出更精细指引。

理论上,这种步步为营的密集指导应比仅看结果更有效。但研究团队发现,直接将此方法套用在GUI定位上效果不佳。问题,正出现在一个极为微妙的环节。

二、教师指导何时会演变为误导

要理解这一陷阱,需先了解AI如何“生成”坐标。AI并非瞬间吐出“(452, 318)”这串数字,而是像打字一样逐个字符生成:先输出“4”,再输出“5”、“2”,依此类推。

在此过程中,教师的职责是:根据AI已生成的部分(称为“前缀”),建议“下一个字符应该是什么”。

关键问题随之而来。假设AI生成x坐标时,第一步就出错,写成了“7”(正确应为“4”)。那么后续所有生成都必须基于“7...”这一错误前缀继续。此时,教师被迫基于此错误前缀给出建议,其最优选择也只是告知AI“在以7开头的坐标中,下一个数字可能是什么”。

这导致了严重后果:教师的指导,实际上是在帮助AI将一条错误路径走得更顺畅,而非将其拉回正轨。就像导航软件——若司机已驶入错误岔路,软件基于当前位置提供的“下一步”指引,只会让司机在错误方向上越走越远。

研究团队将这一现象总结为:当学生生成的前缀已偏离正确坐标时,教师基于该前缀给出的建议,便成为一种“不可靠信号”。盲目遵循这些信号,只会使AI在错误道路上固化学习。

三、明智对待教师建议:两种互补机制

正是为破解上述困局,研究团队设计了两套相辅相成的核心机制,共同构成“质量感知自蒸馏”方法。

第一种机制,称为“软正确性感知门控”。 其作用直观:在AI生成坐标的每一步,系统会对教师当前最推荐的数字进行一次“逻辑检验”。检验的核心问题是:若学生采纳教师此建议,后续是否还有可能通过补充剩余数字,组合出一个最终落在正确目标区域内的坐标?

若有可能,该建议即被判定为“可靠”;若无论如何补全,坐标都注定落在目标区域之外,则该建议被判定为“不可靠”。

处理方式颇具巧思:对于“不可靠”建议,团队并未选择彻底丢弃,而是采取“打折”策略——将其对训练的影响权重降至原来的一半。这一考量十分实际:即便建议整体方向有误,它仍可能捕捉到某些有价值的局部视觉特征。全盘否定过于武断,全盘接受又会引入歧途。打折,则是一种保留潜在价值、同时抑制负面影响的智慧折中。

第二种机制,称为“教师概率缩放”。 它解决的是另一问题:即便教师建议通过了空间逻辑检验(属于“可靠”),其自身质量仍有高低之分。例如,教师以90%置信度推荐数字“5”,与以55%置信度推荐数字“5”,两者的“把握程度”差异悬殊。

团队直觉是:教师越有把握的建议,学生越应认真学习;教师自身犹豫不决的建议,学生参考即可,不必过度重视。因此,他们直接用教师对其推荐数字的置信度(概率值)作为动态权重,乘以训练信号。如此一来,训练过程更具弹性。

此外,为确保那些真正可靠的坐标建议信号足够强烈,不被其他学习内容淹没,团队还引入了一个固定“放大系数”。最终,这套组合机制让AI的训练过程既有原则(可靠才重点学习),又有分寸(把握大就多学),避免了非黑即白的粗暴处理。

四、教师的特殊待遇:让教师获取更多信息

除上述核心机制外,该方法还沿用了一项在GUI定位领域已被验证有效的设计:在训练时为“教师”提供额外“辅助”信息,但绝不向学生透露。

具体而言,训练阶段教师看到的屏幕截图经过特殊处理——目标按钮所在区域被一个绿色框高亮标出,屏幕其他部分则被高斯模糊逐渐压暗。同时,教师输入指令中还附带一句明确提示:“答案就在绿色方框内”。

这样一来,教师几乎不可能在空间指向上犯大错,其给出的指导信号质量自然更高。而作为学生的AI,在训练和最终实战时,看到的始终是最原始、没有任何提示的截图。这一设计逻辑清晰:教师的特权是为了产出高质量指导信号;学生的“一无所知”则是为了迫使其练就真正的独立作战能力。这种信息不对称设计,恰恰体现了“质量感知”的精髓:教师应在最优条件下提供建议,学生则需具备判断力,从中汲取真正有用的养分。

五、实验结果:数据说话

研究团队在六个公认的GUI定位基准上进行了全面测试,覆盖了桌面软件、网页及移动应用等多种复杂场景。

作为基线的Qwen3.5-9B模型,在六个测试上的平均准确率为65.19%。采用强化学习方法训练后,准确率微升至65.86%。采用传统监督微调后,提升至68.09%。而初始版本的在线自蒸馏方法,将成绩提升到了68.91%。此前最强的竞争方法,平均准确率为70.07%。

最终,采用“质量感知自蒸馏”方法训练的模型,将平均准确率提升至73.58%,在所有测试集上均取得显著领先。 特别是在高分辨率、小目标密集的ScreenSpot-Pro和UI-Vision测试上,新方法的优势更为突出。一系列消融实验也证实,其提出的两个核心机制——“软门控”与“概率缩放”——对性能提升均不可或缺。

这些数据清晰表明,通过让AI学会批判性接受指导而非盲从,确实能显著提升其在复杂环境中的精确操作能力。这项工作不仅为GUI定位问题提供了更优解决方案,其“质量感知”的核心思想,或许也能为其他需要序列生成与精确定位的AI任务带来新的启发。

来源:https://www.163.com/dy/article/L02DRLK40511DTVV.html
上一篇哈利法大学实现5G语义理解 为6G智能管理奠基突破 下一篇铂爵旅拍再成老赖,被执行2.19亿元门店关停退款难
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
年国家能源局充换电服务业用电量增速48.8%
科技数码 · 2026-06-29

年国家能源局充换电服务业用电量增速48.8%

2025年全社会用电量达103682亿千瓦时,同比增长5 0%。充换电服务业用电增速高达48 8%,信息传输与软件服务业增速17 0%。第三产业和居民用电对增长贡献率合计占一半。中国成为全球首个年度用电量超10 4万亿千瓦时的国家。

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元
科技数码 · 2026-06-29

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元

追风者冰川360S25液冷散热器售价429元,三联一体风扇便捷安装,冷头小体积纯铜底座噪音18dB,风扇转速300-2000RPM、风量75CFM、静压2 96mmAq,五年质保漏液包赔。

三星Galaxy Watch8用户反馈谷歌后台组件异常
科技数码 · 2026-06-29

三星Galaxy Watch8用户反馈谷歌后台组件异常

三星GalaxyWatch8、Watch5Pro、Watch6及Watch7用户反映,GooglePlayServices后台耗电异常,电量占比最高达99 97%,远超正常水平,严重影响续航。目前故障原因不明,谷歌尚未发布官方声明。

罗永浩批苹果iOS 27创新不足 盼新CEO改进
科技数码 · 2026-06-29

罗永浩批苹果iOS 27创新不足 盼新CEO改进

罗永浩批评苹果iOS27创新不足,称仅有双iPhone同号、音量分离等数十项细节改进,认为库克时代缺乏突破性创新,股市虽好但消费者只能被迫接受挤牙膏式升级。

年国产车出口710万辆,两家车企销量破百万
科技数码 · 2026-06-29

年国产车出口710万辆,两家车企销量破百万

2025年国产汽车出口总量达710万辆,同比增长21%。奇瑞以134万辆居首,比亚迪105万辆次之,上汽乘用车出口占比60%最高,长城出口51万辆。吉利、长安等主流品牌同步增长,小鹏、零跑等新兴品牌海外拓展加速。