首页 游戏 软件 资讯 排行榜 专题
首页
AI
港大发布纯视觉AI助手无需代码即可让电脑看懂屏幕操作

港大发布纯视觉AI助手无需代码即可让电脑看懂屏幕操作

热心网友
54
转载
2026-05-14

香港大学与Salesforce研究院联合研发的AGUVIS系统,在2025年第42届机器学习国际会议(ICML)上正式亮相。这项突破性研究(论文编号PMLR 267)提出了一种全新的“纯视觉”AI助手,它能够像人类一样直接观察并操作屏幕,彻底改变了传统自动化依赖代码解析的范式。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

港大团队推出

我们操作电脑或手机时,看到按钮就点击,遇到输入框就打字,整个过程直观而流畅。然而,让AI助手实现同样的操作,长期以来却是一个技术难题。传统方案需要将网页或应用的底层代码“翻译”成机器指令,过程繁琐且缺乏通用性。如今,AGUVIS系统的出现带来了根本性变革,它实现了真正的“纯视觉界面理解”,仅通过分析屏幕图像就能执行任务,无需任何代码适配。

一、告别“翻译员”:为什么纯视觉操作如此重要

以往,让AI操作图形界面(GUI)就像让一个只懂外语的游客依赖翻译。AI必须解析HTML、可访问性树等底层代码,才能理解界面元素。这种方法不仅效率低、易出错,而且每面对一个新的应用或网站,都需要重新开发适配逻辑,维护成本极高。

AGUVIS的革命性在于,它完全摒弃了这套中间“翻译”层。它直接“观看”屏幕像素,像人一样通过视觉特征来识别按钮、输入框、菜单等元素。无论是网页、手机App还是桌面软件,AGUVIS都能通过统一的视觉感知进行操作。这种方法带来了三大核心优势:极强的通用性,在一个平台学到的技能可迁移到其他平台;更高的执行效率,视觉处理比解析复杂代码更快;更低的部署门槛,无需为每个新环境编写特定的集成代码。

二、会“思考”的AI:内在思维让操作更智能

AGUVIS一个关键创新是引入了“内在思维”机制。面对复杂任务时,它不会立即行动,而是先进行内部推理和规划。例如,在“预订机票”任务中,AGUVIS会先思考:“当前页面是搜索页面,我需要先选择出发城市,然后输入目的地,再选择日期。”完成思考后,再一步步执行点击和输入操作。

这种“先想后做”的机制,使AGUVIS能够胜任需要多步骤规划和动态调整的复杂任务。实验证明,具备内在思维能力的AGUVIS,在完成购物、信息查询等多步流程任务时,成功率显著高于直接操作的模型。同时,这种可解释的推理过程也让AI的决策逻辑更加透明。

三、统一的“万能钥匙”:跨平台操作的技术突破

数字世界平台繁多,网页、iOS、Android、Windows各有不同。传统方法需要为每个平台开发专用方案。AGUVIS通过设计一套统一的“行动空间”解决了这一问题,将所有操作抽象为有限的几种基础动作,如点击、输入文本、按键、滚动等。

这就像为AI建立了一套跨平台的“通用语言”。无论操作对象是网页上的下拉菜单还是手机上的滑动列表,AGUVIS都使用同一套指令集。配合智能插件系统,它能根据当前环境自动加载合适的工具。这种设计带来了强大的跨平台迁移学习能力——在网页上学到的点击技能,可以直接用于操作桌面软件,无需重新训练。

四、海量数据的智慧结晶:训练数据的创新构建

要训练AI“看懂”界面,需要海量高质量的“屏幕-操作”数据。研究团队创新地采用了两阶段数据构建策略:

1. 基础操作数据:包含超过100万个单步操作示例,覆盖点击、输入等所有基础动作,训练AI的“肌肉记忆”。
2. 复杂推理数据:利用大语言模型(如GPT-4o)模拟人类专家,在面对屏幕截图和任务时,生成前瞻性的思维链(例如:“要完成订酒店,我需要先按价格排序,再查看评分”)。这种方法生成了高质量的规划数据。经人工评估,超过86%的生成数据准确且一致,为模型学会了“如何思考”提供了养料。

五、分阶段精进:从基础技能到高级推理的训练策略

AGUVIS的训练遵循了从“基础”到“高级”的科学路径:

第一阶段:基础操作训练。专注于让模型精准识别界面元素并执行原子操作,打好基本功。采用“操作打包”技术,将同一屏幕下的多个相关操作一起训练,帮助模型理解界面元素间的关联。
第二阶段:规划推理训练。在此阶段引入包含完整思维链的复杂任务数据,重点培养模型的战略规划、任务分解和情境适应能力。这种分阶段策略确保了模型基础扎实,能稳健地处理复杂任务。

六、架构选择的智慧:为什么选择Qwen2-VL

AGUVIS选择Qwen2-VL作为其视觉理解的核心,主要基于两大优势:
1. 高分辨率图像处理能力:其采用的NaViT风格编码器能动态处理不同分辨率的屏幕截图,保留按钮文字、图标细节等关键信息,避免因压缩图像导致的细节丢失。
2. 强大的空间感知能力:通过2D-RoPE位置编码,模型能精确理解屏幕上各个元素的相对位置,这对于实现精准点击至关重要。

团队将输入图像分辨率设置为1280×720,在模型性能和计算开销之间取得了最佳平衡。对比实验表明,AGUVIS框架虽兼容其他视觉模型,但Qwen2-VL在精度和效率上综合表现更优。

七、全面评估:在各种挑战中证明实力

研究团队通过多维度基准测试验证了AGUVIS的强大性能:

- ScreenSpot基准:在移动端、桌面端和网页端的元素定位任务中,AGUVIS均取得领先成绩。
- Multimodal-Mind2Web基准:在仅凭网页截图进行多步导航的离线评估中,AGUVIS的任务成功率比传统方法提升超过50%。
- AndroidControl基准:在手机操作任务中,无论是高层规划还是底层执行,AGUVIS都表现出色。
- 在线实时评估:在Mind2Web-Live、AndroidWorld等动态真实环境中,AGUVIS达到了业界顶尖水平,且是首个完全基于开源技术达成此性能的系统。

效率方面,AGUVIS的视觉方案相比传统HTML解析方法,处理成本降低93%,输入效率提升70%。

八、深度解析:训练策略的精妙设计

通过详尽的消融实验,团队验证了多个关键设计决策:

- 训练顺序:“先基础后高级”的分阶段训练,在复杂任务上显著优于“基础与高级联合训练”,证明了循序渐进的重要性。
- 内在思维的价值:引入思维链不仅提升了复杂任务成功率,甚至增强了基础操作的准确性,说明“三思而后行”减少了鲁莽错误。
- 跨平台增益:使用网页和手机混合数据训练的模型,在纯网页任务上的表现优于仅用网页数据训练的模型,证实了技能的可迁移性。
- 错误分析:当前系统的主要错误来源于指令歧义(40%)和操作定位失误(60%)。研究还发现,强制模型进行明确推理可以解决20%的定位错误。

九、超越实验室:真实世界的适应能力

AGUVIS的实用性体现在其对未见过场景的泛化能力上:

- 面对训练数据中未出现的网站Cookie弹窗,AGUVIS能正确识别其为干扰项,并执行关闭操作,然后继续主任务。
- 在涉及操作系统级任务的OSWorld基准测试中,尽管仅在网页和手机数据上训练,AGUVIS在桌面GUI任务上仍取得了可观的成绩,展现了其基于视觉原理进行泛化的潜力。

这意味着AGUVIS学习的是“如何与图形界面交互”的通用原理,而非机械记忆特定界面,因此对界面布局的微小变化具有更强的鲁棒性。

十、技术创新的深远影响

AGUVIS的突破不仅是性能的提升,更代表了GUI自动化领域的范式转变:

1. 技术范式转换:证明了“纯视觉”路径的可行性与优越性,为构建通用AI助手提供了新方向。
2. 推动开源生态:其模型、代码和数据完全开源,极大降低了研究门槛,将加速全球在该领域的技术创新。
3. 实用价值巨大:为开发真正“一次训练,多处适用”的通用数字助手铺平了道路,并在无障碍辅助、软件自动化测试、RPA(机器人流程自动化)等领域有广阔应用前景。
4. 经济性优势:高达93%的成本降低,使其具备大规模商业部署的可行性。

当然,技术的普及也需同步构建安全与伦理框架,确保AI助手的行为安全可控。总体而言,AGUVIS让我们向“AI像人一样自如操作电脑”的未来迈出了坚实的一步,其开源开放更将推动这一未来加速到来。

Q&A

Q1:AGUVIS相比传统AI助手有什么核心优势?

A:AGUVIS的核心优势是“纯视觉操作”。它无需解析应用底层代码或依赖任何特殊接口,仅通过“看”屏幕就能理解和操作,就像人类一样。这带来了极高的通用性、更快的适应速度和更低的部署成本。实测显示,其处理效率比传统代码解析方法提升70%,综合成本降低93%。

Q2:AGUVIS的“内在思维”具体如何提升性能?

A:“内在思维”指AI在执行前先进行内部推理和规划。例如,面对“查询波士顿到北站的航班”任务,它会先规划步骤:“1. 点击出发地输入框,输入‘波士顿’;2. 点击目的地输入框,输入‘北站’。”这种机制使其能有效分解复杂任务,根据页面反馈动态调整策略,从而在处理多步骤、需推理的任务时,成功率得到显著提升。

Q3:这项技术何时能应用到普通产品中?

A:AGUVIS的研究成果(包括模型、数据集、训练代码)已全部开源,全球开发者和企业均可立即基于此进行二次开发和产品集成。虽然从实验室研究到成熟产品仍需工程化打磨,但其开源特性将极大加速这一进程。预计在未来一两年内,我们将能看到基于此类技术的更智能的自动化助手、无障碍工具和企业级RPA解决方案问世。

来源:https://www.techwalker.com/2026/0311/3180774.shtml
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

DeepinV23系统安装Core教程 AI助手配置指南
AI
DeepinV23系统安装Core教程 AI助手配置指南

首先验证UOSAI的dbus服务和deepin-ai-daemon守护进程运行状态,确保基础服务正常。接着安装Ollama并拉取轻量模型,以启用本地模型服务。然后在UOSAI中绑定本地Ollama模型,将请求引导至本地推理。之后配置基于ChromaDB的本地知识库,导入个人文档实现私有知识问答。最后设置全局热键,实现一键唤醒AI助手。

热心网友
05.13
清华大学发布AI助手评估新标准 测试AI理解与执行指令能力
AI
清华大学发布AI助手评估新标准 测试AI理解与执行指令能力

近日,人工智能领域一项突破性研究引发业界高度关注。清华大学对话式人工智能研究组、智谱AI与电子科技大学联合团队,在arXiv预印本平台发布了题为《IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluatio

热心网友
05.13
阿里巴巴通义千问2.5大模型升级:18万亿字符训练AI助手
AI
阿里巴巴通义千问2.5大模型升级:18万亿字符训练AI助手

如果说人工智能是当今科技发展的明珠,那么大语言模型无疑是这颗明珠上最璀璨的光芒。近期,阿里巴巴集团的研究团队发布了其最新成果——通义千问2 5的技术报告。这项研究不仅仅是一次常规的技术迭代,更像是对AI助手进行了一次从内到外的系统性重塑。 通义千问2 5如同一位经过严苛训练的多语言专家,不仅知识渊博

热心网友
05.13
亚马逊云科技推出桌面AI助手Quick,无缝连接应用与数据
AI
亚马逊云科技推出桌面AI助手Quick,无缝连接应用与数据

亚马逊云科技(AWS)近日正式发布桌面AI助手Amazon Quick,旨在将智能助手能力无缝集成至个人电脑桌面,为用户提供连贯、高效的日常工作AI体验。 核心功能:实时连接、本地感知、持续学习 这款AI助手的设计核心是“始终在线、深度理解”。与传统AI工具不同,Amazon Quick能够实时连接

热心网友
05.13
AI助手忙碌时是否需要告知用户宝马与慕尼黑大学最新研究
AI
AI助手忙碌时是否需要告知用户宝马与慕尼黑大学最新研究

当您在车内对智能助手发出指令:“导航到张经理发来的地址,如果电量低于10%请规划一个快充站”,随后它开始执行任务。此时,您更倾向于它全程静默处理直至给出最终方案,还是希望它能阶段性地汇报进展?这个看似细微的交互选择,实则深刻影响着用户体验、信任构建与认知负担,是一个值得深入探讨的人机交互设计课题。

热心网友
05.12

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

马中新能源论坛探讨产业合作与人才培养新路径
科技数码
马中新能源论坛探讨产业合作与人才培养新路径

5月12日,马来西亚吉隆坡成功举办了一场具有前瞻性的行业盛会——中国-马来西亚电动汽车、电池技术与新能源人才创新发展论坛。来自两国政府部门、领军企业、顶尖高校及国际组织的代表共聚一堂,深入交流了在未来产业协同、清洁能源技术创新及高端人才培养等核心领域的合作路径与机遇。 马来西亚第一副总理兼乡村及区域

热心网友
05.14
智元APC香港观察:具身智能如何成为先进生产力单元
科技数码
智元APC香港观察:具身智能如何成为先进生产力单元

具身智能要迈过的第一道硬门槛,从来都是量产。 过去几年,全球人形机器人行业反复印证了这一点:舞台演示可以很快,工程验证可以很快,视频传播也可以很快。但当一台机器人要从实验室走向产线,再走向客户现场,问题的复杂度会呈指数级上升。 特斯拉的Optimus就是一个典型的参照系。马斯克多次表达过对Optim

热心网友
05.14
AI回答第一个字就暴露真假?识别AI胡说八道的关键信号
科技数码
AI回答第一个字就暴露真假?识别AI胡说八道的关键信号

向朋友问路时,如果对方清楚路线,通常会立刻回答“直走然后左转”。但如果对方并不确定,往往会先停顿一下,犹豫地说“呃……好像是……往那边?”。这个开口前的短暂迟疑,往往比最终给出的答案更能说明问题——对方是否真的知道答案。 近期,美国天普大学计算机与信息科学系的一项研究,正是捕捉到了AI回答问题时类似

热心网友
05.14
浙江大学万能分割学习器技术原理与应用场景详解
科技数码
浙江大学万能分割学习器技术原理与应用场景详解

这项由浙江大学、华南理工大学、南京大学和北京大学联合开展的前沿研究,于2026年4月正式发布,其论文预印本编号为arXiv:2604 24575。 图像分割技术听起来或许有些专业,但它早已深度融入我们的日常生活。无论是智能手机拍摄的背景虚化人像、AI系统在CT影像中精准勾勒病灶轮廓,还是自动驾驶汽车

热心网友
05.14
比亚迪大汉纯电续航1000公里对标56E车型参数曝光
科技数码
比亚迪大汉纯电续航1000公里对标56E车型参数曝光

“大唐”预售热潮尚未平息,“大汉”已蓄势待发,比亚迪王朝系列正以前所未有的攻势,叩响高端市场的大门。 在北京车展引发轰动的比亚迪大唐,预售订单已迅速突破10万台大关,彰显了市场对比亚迪高端产品的强烈期待。而最新信息显示,汉家族即将迎来一位重磅新成员——“大汉”,这款定位D级旗舰的轿车,目标直指20-

热心网友
05.14