港大发布纯视觉AI助手无需代码即可让电脑看懂屏幕操作

首页

热心网友

转载

2026-05-14

香港大学与Salesforce研究院联合研发的AGUVIS系统，在2025年第42届机器学习国际会议（ICML）上正式亮相。这项突破性研究（论文编号PMLR 267）提出了一种全新的“纯视觉”AI助手，它能够像人类一样直接观察并操作屏幕，彻底改变了传统自动化依赖代码解析的范式。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

港大团队推出

我们操作电脑或手机时，看到按钮就点击，遇到输入框就打字，整个过程直观而流畅。然而，让AI助手实现同样的操作，长期以来却是一个技术难题。传统方案需要将网页或应用的底层代码“翻译”成机器指令，过程繁琐且缺乏通用性。如今，AGUVIS系统的出现带来了根本性变革，它实现了真正的“纯视觉界面理解”，仅通过分析屏幕图像就能执行任务，无需任何代码适配。

一、告别“翻译员”：为什么纯视觉操作如此重要

以往，让AI操作图形界面（GUI）就像让一个只懂外语的游客依赖翻译。AI必须解析HTML、可访问性树等底层代码，才能理解界面元素。这种方法不仅效率低、易出错，而且每面对一个新的应用或网站，都需要重新开发适配逻辑，维护成本极高。

AGUVIS的革命性在于，它完全摒弃了这套中间“翻译”层。它直接“观看”屏幕像素，像人一样通过视觉特征来识别按钮、输入框、菜单等元素。无论是网页、手机App还是桌面软件，AGUVIS都能通过统一的视觉感知进行操作。这种方法带来了三大核心优势：极强的通用性，在一个平台学到的技能可迁移到其他平台；更高的执行效率，视觉处理比解析复杂代码更快；更低的部署门槛，无需为每个新环境编写特定的集成代码。

二、会“思考”的AI：内在思维让操作更智能

AGUVIS一个关键创新是引入了“内在思维”机制。面对复杂任务时，它不会立即行动，而是先进行内部推理和规划。例如，在“预订机票”任务中，AGUVIS会先思考：“当前页面是搜索页面，我需要先选择出发城市，然后输入目的地，再选择日期。”完成思考后，再一步步执行点击和输入操作。

这种“先想后做”的机制，使AGUVIS能够胜任需要多步骤规划和动态调整的复杂任务。实验证明，具备内在思维能力的AGUVIS，在完成购物、信息查询等多步流程任务时，成功率显著高于直接操作的模型。同时，这种可解释的推理过程也让AI的决策逻辑更加透明。

三、统一的“万能钥匙”：跨平台操作的技术突破

数字世界平台繁多，网页、iOS、Android、Windows各有不同。传统方法需要为每个平台开发专用方案。AGUVIS通过设计一套统一的“行动空间”解决了这一问题，将所有操作抽象为有限的几种基础动作，如点击、输入文本、按键、滚动等。

这就像为AI建立了一套跨平台的“通用语言”。无论操作对象是网页上的下拉菜单还是手机上的滑动列表，AGUVIS都使用同一套指令集。配合智能插件系统，它能根据当前环境自动加载合适的工具。这种设计带来了强大的跨平台迁移学习能力——在网页上学到的点击技能，可以直接用于操作桌面软件，无需重新训练。

四、海量数据的智慧结晶：训练数据的创新构建

要训练AI“看懂”界面，需要海量高质量的“屏幕-操作”数据。研究团队创新地采用了两阶段数据构建策略：

1. 基础操作数据：包含超过100万个单步操作示例，覆盖点击、输入等所有基础动作，训练AI的“肌肉记忆”。
2. 复杂推理数据：利用大语言模型（如GPT-4o）模拟人类专家，在面对屏幕截图和任务时，生成前瞻性的思维链（例如：“要完成订酒店，我需要先按价格排序，再查看评分”）。这种方法生成了高质量的规划数据。经人工评估，超过86%的生成数据准确且一致，为模型学会了“如何思考”提供了养料。

五、分阶段精进：从基础技能到高级推理的训练策略

AGUVIS的训练遵循了从“基础”到“高级”的科学路径：

第一阶段：基础操作训练。专注于让模型精准识别界面元素并执行原子操作，打好基本功。采用“操作打包”技术，将同一屏幕下的多个相关操作一起训练，帮助模型理解界面元素间的关联。
第二阶段：规划推理训练。在此阶段引入包含完整思维链的复杂任务数据，重点培养模型的战略规划、任务分解和情境适应能力。这种分阶段策略确保了模型基础扎实，能稳健地处理复杂任务。

六、架构选择的智慧：为什么选择Qwen2-VL

AGUVIS选择Qwen2-VL作为其视觉理解的核心，主要基于两大优势：
1. 高分辨率图像处理能力：其采用的NaViT风格编码器能动态处理不同分辨率的屏幕截图，保留按钮文字、图标细节等关键信息，避免因压缩图像导致的细节丢失。
2. 强大的空间感知能力：通过2D-RoPE位置编码，模型能精确理解屏幕上各个元素的相对位置，这对于实现精准点击至关重要。

团队将输入图像分辨率设置为1280×720，在模型性能和计算开销之间取得了最佳平衡。对比实验表明，AGUVIS框架虽兼容其他视觉模型，但Qwen2-VL在精度和效率上综合表现更优。

七、全面评估：在各种挑战中证明实力

研究团队通过多维度基准测试验证了AGUVIS的强大性能：

- ScreenSpot基准：在移动端、桌面端和网页端的元素定位任务中，AGUVIS均取得领先成绩。
- Multimodal-Mind2Web基准：在仅凭网页截图进行多步导航的离线评估中，AGUVIS的任务成功率比传统方法提升超过50%。
- AndroidControl基准：在手机操作任务中，无论是高层规划还是底层执行，AGUVIS都表现出色。
- 在线实时评估：在Mind2Web-Live、AndroidWorld等动态真实环境中，AGUVIS达到了业界顶尖水平，且是首个完全基于开源技术达成此性能的系统。

效率方面，AGUVIS的视觉方案相比传统HTML解析方法，处理成本降低93%，输入效率提升70%。

八、深度解析：训练策略的精妙设计

通过详尽的消融实验，团队验证了多个关键设计决策：

- 训练顺序：“先基础后高级”的分阶段训练，在复杂任务上显著优于“基础与高级联合训练”，证明了循序渐进的重要性。
- 内在思维的价值：引入思维链不仅提升了复杂任务成功率，甚至增强了基础操作的准确性，说明“三思而后行”减少了鲁莽错误。
- 跨平台增益：使用网页和手机混合数据训练的模型，在纯网页任务上的表现优于仅用网页数据训练的模型，证实了技能的可迁移性。
- 错误分析：当前系统的主要错误来源于指令歧义（40%）和操作定位失误（60%）。研究还发现，强制模型进行明确推理可以解决20%的定位错误。

九、超越实验室：真实世界的适应能力

AGUVIS的实用性体现在其对未见过场景的泛化能力上：

- 面对训练数据中未出现的网站Cookie弹窗，AGUVIS能正确识别其为干扰项，并执行关闭操作，然后继续主任务。
- 在涉及操作系统级任务的OSWorld基准测试中，尽管仅在网页和手机数据上训练，AGUVIS在桌面GUI任务上仍取得了可观的成绩，展现了其基于视觉原理进行泛化的潜力。

这意味着AGUVIS学习的是“如何与图形界面交互”的通用原理，而非机械记忆特定界面，因此对界面布局的微小变化具有更强的鲁棒性。

十、技术创新的深远影响

AGUVIS的突破不仅是性能的提升，更代表了GUI自动化领域的范式转变：

1. 技术范式转换：证明了“纯视觉”路径的可行性与优越性，为构建通用AI助手提供了新方向。
2. 推动开源生态：其模型、代码和数据完全开源，极大降低了研究门槛，将加速全球在该领域的技术创新。
3. 实用价值巨大：为开发真正“一次训练，多处适用”的通用数字助手铺平了道路，并在无障碍辅助、软件自动化测试、RPA（机器人流程自动化）等领域有广阔应用前景。
4. 经济性优势：高达93%的成本降低，使其具备大规模商业部署的可行性。

当然，技术的普及也需同步构建安全与伦理框架，确保AI助手的行为安全可控。总体而言，AGUVIS让我们向“AI像人一样自如操作电脑”的未来迈出了坚实的一步，其开源开放更将推动这一未来加速到来。

Q&A

Q1：AGUVIS相比传统AI助手有什么核心优势？

A：AGUVIS的核心优势是“纯视觉操作”。它无需解析应用底层代码或依赖任何特殊接口，仅通过“看”屏幕就能理解和操作，就像人类一样。这带来了极高的通用性、更快的适应速度和更低的部署成本。实测显示，其处理效率比传统代码解析方法提升70%，综合成本降低93%。

Q2：AGUVIS的“内在思维”具体如何提升性能？

A：“内在思维”指AI在执行前先进行内部推理和规划。例如，面对“查询波士顿到北站的航班”任务，它会先规划步骤：“1. 点击出发地输入框，输入‘波士顿’；2. 点击目的地输入框，输入‘北站’。”这种机制使其能有效分解复杂任务，根据页面反馈动态调整策略，从而在处理多步骤、需推理的任务时，成功率得到显著提升。

Q3：这项技术何时能应用到普通产品中？

A：AGUVIS的研究成果（包括模型、数据集、训练代码）已全部开源，全球开发者和企业均可立即基于此进行二次开发和产品集成。虽然从实验室研究到成熟产品仍需工程化打磨，但其开源特性将极大加速这一进程。预计在未来一两年内，我们将能看到基于此类技术的更智能的自动化助手、无障碍工具和企业级RPA解决方案问世。

来源:https://www.techwalker.com/2026/0311/3180774.shtml

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：中国人民大学AI团队革新多模态推理模型实现主动信息获取下一篇：上海AI实验室发布新成果：AI仅凭示例图即可举一反三学习新任务