香港理工大学等机构联合开发GUI定位新方法

时间：2026-06-23 15:07

针对AI在复杂屏幕中精准定位按钮的难题，香港理工大学等机构提出“质量感知自蒸馏”方法。该方法通过软正确性感知门控与教师概率缩放两个机制，让AI批判性地接受教师指导。在六个基准测试上，平均准确率达73 58%，全面超越此前方案，显著提升了高分辨率、小目标密集场景下的GUI定位性能。

近日，由香港理工大学、佐治亚大学与腾讯AI Lab等机构联合开展的一项研究，为“让AI替你操作界面”这一场景提供了全新方向。该研究已公开发布（论文编号arXiv:2606.18101v2），核心议题聚焦于一项日常却极具挑战的任务：如何使AI在复杂计算机或移动设备屏幕上，像人类一样精准定位并点击目标按钮——这一过程在业界被称为GUI定位。

试想一下，如果你告诉助手“帮我点击‘保存’按钮”，它需要理解指令，在满屏图标、文字与按钮中快速锁定那个仅指甲盖大小的目标，最后将鼠标精确移到对应位置。目前，让AI掌握这一技能难度极高，尤其是在高分辨率、元素密集的现代软件界面中，AI常常出现“视觉混淆”。

该研究提出的“质量感知自蒸馏”方法，本质上是教会AI如何甄别性地“听课”——当教师的指导本身可能存有偏差时，学生不应全盘照收，而需学会选择性、有折扣地吸纳。测试结果显示，这一方法在六个主流评测基准上全面超越此前方案，成绩相当亮眼。

一、为什么AI精准定位按钮如此困难

不妨放大任务难度：在一张布满杂物的办公桌照片中，找出一枚红色回形针。你需要扫视全局、识别物体，最终精确指出其像素级位置。AI执行GUI定位的挑战与此类似甚至更复杂，因为屏幕截图分辨率动辄数千像素，而目标按钮可能只占其中几十个像素。

目前，训练AI完成这类任务的主流方法主要有三种。

第一种是“监督微调”。这类似于传统题海战术：为AI提供大量已标注“题目”（屏幕截图）与“标准答案”（正确坐标），供其反复训练。该方法稳定，但缺陷明显：答案仅为一个冷冰冰的坐标数字（如“452, 318”），AI完全未知“为何是这里”，也不清楚“若有偏差，概率几何”。这就好比只告诉学生最终答案是“3”，却不传授任何解题逻辑。

第二种是“强化学习”。以GRPO为代表，让AI自行尝试，操作正确给予奖励，错误则无奖励。此方式成本高昂，需大量试错，且反馈信号“稀疏”且粗粒度——对于需像素级精度的任务，仅获得笼统的“对”或“错”评价，学习效率相当有限。

第三种，也是本研究的起点，称为“在线自蒸馏”。其思路巧妙：与其仅关注最终答案对错，不如在AI生成答案的每一步（如生成坐标的每个数字时），让其接受一位“更强教师”的实时指导。这位教师通常是AI自身增强版本，可能拥有额外线索（如知晓目标按钮大致区域），从而给出更精细指引。

理论上，这种步步为营的密集指导应比仅看结果更有效。但研究团队发现，直接将此方法套用在GUI定位上效果不佳。问题，正出现在一个极为微妙的环节。

二、教师指导何时会演变为误导

要理解这一陷阱，需先了解AI如何“生成”坐标。AI并非瞬间吐出“(452, 318)”这串数字，而是像打字一样逐个字符生成：先输出“4”，再输出“5”、“2”，依此类推。

在此过程中，教师的职责是：根据AI已生成的部分（称为“前缀”），建议“下一个字符应该是什么”。

关键问题随之而来。假设AI生成x坐标时，第一步就出错，写成了“7”（正确应为“4”）。那么后续所有生成都必须基于“7...”这一错误前缀继续。此时，教师被迫基于此错误前缀给出建议，其最优选择也只是告知AI“在以7开头的坐标中，下一个数字可能是什么”。

这导致了严重后果：教师的指导，实际上是在帮助AI将一条错误路径走得更顺畅，而非将其拉回正轨。就像导航软件——若司机已驶入错误岔路，软件基于当前位置提供的“下一步”指引，只会让司机在错误方向上越走越远。

研究团队将这一现象总结为：当学生生成的前缀已偏离正确坐标时，教师基于该前缀给出的建议，便成为一种“不可靠信号”。盲目遵循这些信号，只会使AI在错误道路上固化学习。

三、明智对待教师建议：两种互补机制

正是为破解上述困局，研究团队设计了两套相辅相成的核心机制，共同构成“质量感知自蒸馏”方法。

第一种机制，称为“软正确性感知门控”。 其作用直观：在AI生成坐标的每一步，系统会对教师当前最推荐的数字进行一次“逻辑检验”。检验的核心问题是：若学生采纳教师此建议，后续是否还有可能通过补充剩余数字，组合出一个最终落在正确目标区域内的坐标？

若有可能，该建议即被判定为“可靠”；若无论如何补全，坐标都注定落在目标区域之外，则该建议被判定为“不可靠”。

处理方式颇具巧思：对于“不可靠”建议，团队并未选择彻底丢弃，而是采取“打折”策略——将其对训练的影响权重降至原来的一半。这一考量十分实际：即便建议整体方向有误，它仍可能捕捉到某些有价值的局部视觉特征。全盘否定过于武断，全盘接受又会引入歧途。打折，则是一种保留潜在价值、同时抑制负面影响的智慧折中。

第二种机制，称为“教师概率缩放”。 它解决的是另一问题：即便教师建议通过了空间逻辑检验（属于“可靠”），其自身质量仍有高低之分。例如，教师以90%置信度推荐数字“5”，与以55%置信度推荐数字“5”，两者的“把握程度”差异悬殊。

团队直觉是：教师越有把握的建议，学生越应认真学习；教师自身犹豫不决的建议，学生参考即可，不必过度重视。因此，他们直接用教师对其推荐数字的置信度（概率值）作为动态权重，乘以训练信号。如此一来，训练过程更具弹性。

此外，为确保那些真正可靠的坐标建议信号足够强烈，不被其他学习内容淹没，团队还引入了一个固定“放大系数”。最终，这套组合机制让AI的训练过程既有原则（可靠才重点学习），又有分寸（把握大就多学），避免了非黑即白的粗暴处理。

四、教师的特殊待遇：让教师获取更多信息

除上述核心机制外，该方法还沿用了一项在GUI定位领域已被验证有效的设计：在训练时为“教师”提供额外“辅助”信息，但绝不向学生透露。

具体而言，训练阶段教师看到的屏幕截图经过特殊处理——目标按钮所在区域被一个绿色框高亮标出，屏幕其他部分则被高斯模糊逐渐压暗。同时，教师输入指令中还附带一句明确提示：“答案就在绿色方框内”。

这样一来，教师几乎不可能在空间指向上犯大错，其给出的指导信号质量自然更高。而作为学生的AI，在训练和最终实战时，看到的始终是最原始、没有任何提示的截图。这一设计逻辑清晰：教师的特权是为了产出高质量指导信号；学生的“一无所知”则是为了迫使其练就真正的独立作战能力。这种信息不对称设计，恰恰体现了“质量感知”的精髓：教师应在最优条件下提供建议，学生则需具备判断力，从中汲取真正有用的养分。

五、实验结果：数据说话

研究团队在六个公认的GUI定位基准上进行了全面测试，覆盖了桌面软件、网页及移动应用等多种复杂场景。

作为基线的Qwen3.5-9B模型，在六个测试上的平均准确率为65.19%。采用强化学习方法训练后，准确率微升至65.86%。采用传统监督微调后，提升至68.09%。而初始版本的在线自蒸馏方法，将成绩提升到了68.91%。此前最强的竞争方法，平均准确率为70.07%。

最终，采用“质量感知自蒸馏”方法训练的模型，将平均准确率提升至73.58%，在所有测试集上均取得显著领先。 特别是在高分辨率、小目标密集的ScreenSpot-Pro和UI-Vision测试上，新方法的优势更为突出。一系列消融实验也证实，其提出的两个核心机制——“软门控”与“概率缩放”——对性能提升均不可或缺。

这些数据清晰表明，通过让AI学会批判性接受指导而非盲从，确实能显著提升其在复杂环境中的精确操作能力。这项工作不仅为GUI定位问题提供了更优解决方案，其“质量感知”的核心思想，或许也能为其他需要序列生成与精确定位的AI任务带来新的启发。

来源：https://www.163.com/dy/article/L02DRLK40511DTVV.html

信号

上一篇哈利法大学实现5G语义理解为6G智能管理奠基突破 下一篇铂爵旅拍再成老赖，被执行2.19亿元门店关停退款难

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。