首页 游戏 软件 资讯 排行榜 专题
首页
AI
中国科学院与香港理工大学团队让AI看懂电脑屏幕实现智能软件交互

中国科学院与香港理工大学团队让AI看懂电脑屏幕实现智能软件交互

热心网友
44
转载
2026-05-16

这项研究由中国科学院大学、中国科学院自动化研究所新型模式识别实验室、多模态人工智能系统国家重点实验室、香港科创研究院以及香港理工大学联合开展,论文于2026年4月发表,论文编号为arXiv:2604.24441v1。

一、这件事为什么值得普通人关注

你有没有试过把一项繁琐的电脑操作交给AI来完成?比如整理表格、发送邮件,或者在网站上填写表单?如今市面上确实有不少类似的“电脑操作助手”,但它们的“聪明”程度,可能远低于你的想象。

大多数这类助手的工作模式,更像是一个只会盲目跟随导航的司机——只知道“下一个路口左转”,却完全不理解自己身处哪条街道、为什么要在这里转弯。换句话说,它们能执行简单的点击指令,却根本不明白屏幕上那些按钮、菜单、区域究竟承担着什么功能。

这就引出了一个根本性问题:一个不理解屏幕语义的AI,在遇到稍微复杂一点的情况时,很容易彻底“迷路”。比如,同一个图标在不同软件里功能完全不同;或者一个不起眼的灰色小图标,点击后可能触发一连串连锁操作。

上述论文的核心任务,正是要搞清楚当前最先进的视觉语言模型(即既能“看图”又能“读字”的AI)到底有多懂电脑屏幕。为此,研究团队构建了一套名为AutoGUI-v2的测试体系,包含2753道精心设计的题目,专门用来考察AI是否真正理解了界面功能,而不仅仅是认出了按钮的外观。

二、AI看屏幕和人看屏幕有什么本质区别

人类在使用电脑时,积累了大量直觉经验。看到左上角那个软盘图案的图标,你几乎不假思索就知道是“保存”;看到工具栏上一排颜色、形状相似的按钮,你能凭经验猜出它们分别控制着字体的粗细、对齐或行间距。这种理解并非来自单纯的“图像识别”,而是基于你对这些元素在整个软件操作流程中所扮演角色的认知。

反观现有的AI测试,题目大多是这样的:“屏幕上有一个标着‘All’文字的小标签,请找出它在哪里。”或者:“这个按钮叫做‘打开搜索设置下拉菜单’,请点击它。”这类问题本质上考察的是“认字认图”的能力,只要AI能看清屏幕上的文字或图形,通常都能答对。

AutoGUI-v2团队提出的挑战则截然不同。他们的问题是:“如果你想同时搜索多个通讯录,应该用屏幕上的哪个搜索区域?”或者:“点击这个被红框标出的元素,会发生什么?”这类问题不提供任何外观描述线索,迫使AI必须真正理解每个区域在软件流程中的功能定位,才能给出正确答案。

这无疑是一个根本性的跃升——从“认出它长什么样”到“明白它是干什么的”。

三、研究团队是怎么建立这套考卷的

构建这样一套测试题,本身就是一个不小的工程挑战。你需要收集大量真实的电脑界面截图,然后对图中每一个功能区域进行精确标注:说明这块区域是干什么的,边界在哪里,以及与旁边看起来相似的区域在功能上有何区别。如果全靠人工完成,不仅耗时费力,标注质量也很难保持一致。

研究团队采用了一种“AI初稿、人工精修”的流水线工作法。他们先请能力强大的Gemini 2.5 Pro Thinking模型充当“初审员”,让它自动分析截图,将每张屏幕图片切割成若干个有意义的功能区块,就像把一张城市地图划分成不同的行政区。每个区块都会被附上功能描述和边界框坐标。

然而,仅靠AI划定的边界往往不够精确。模型标出的框可能包含了多余空白,或者不小心截掉了按钮的边缘。为了解决这个问题,团队开发了一套专用的网页标注工具。标注员可以在浏览器中打开任意截图,查看AI划定的区域,然后用鼠标拖拽调整边界,精确到每一个像素。工具还内置了辅助功能,比如鼠标按住时会自动“吸附”到附近的边缘线上,极大降低了手工误差。

完成边界修正后,还有最后一步:由于人工调整了区域边界,原先AI生成的功能描述可能已不再匹配新的视觉内容。因此,需要再运行一轮AI,为每个区域重新撰写功能说明,并由人工进行最终审核,确保描述准确、具体,且没有产生“幻觉”错误。

整个流水线处理了来自安卓、Windows、Linux、MacOS、网页等六大平台的截图,最终产出了3710个经过精确标注的功能区域,覆盖了从移动端到专业桌面软件的各种界面类型。

四、题目是怎么设计的,为什么这么难

AutoGUI-v2的核心设计思路,是让所有题目都无法依靠“认长相”来蒙混过关。为此,研究团队专门寻找那些“看起来极其相似但功能完全不同”的区域或按钮,将它们配对成组,作为题目的迷惑选项。

以区域级题目为例:一张屏幕上可能同时存在好几条深色横条——顶部是操作系统的状态栏,应用内部有菜单栏、工具栏、底部状态栏。它们的外观可能非常相似,都是深底色配浅色文字或图标的横向长条。但点击系统状态栏会弹出系统设置,点击菜单栏会展开文件/编辑等菜单,点击底部状态栏则可能显示文档字数或光标位置。如果只凭外观,这几条横条几乎一模一样;只有真正理解了每条横条在软件结构中的功能角色,才能正确区分。

题目主要分为两大类型。第一类是“功能定向定位”:给AI一个任务描述,例如“如果想在多个通讯录里同时搜索联系人,应该用哪个搜索区域?”,让AI找出正确区域的位置(用坐标表示)。第二类是“功能预测描述”:给AI圈出一个特定区域,询问点击或操作该区域后会发生什么,并提供几个选项,其中迷惑选项往往来自外观相似的其他区域的功能描述。

元素级题目同理,但考察对象是更细粒度的单个按钮或图标。有些题目还会加入具体的交互方式,如“双击”、“长按”、“右键点击”、“悬停”,因为同一个元素在不同交互方式下可能触发完全不同的结果。

此外,数据集中截图的分辨率相当高,最高达到3840×2160,这对AI构成了额外挑战——它需要在高清大图中定位可能只有几十个像素宽的目标区域。

五、考核结果:两类AI在两类题上交出了相反的成绩单

当研究团队将这2753道题分别交给十几款当前最先进的AI模型作答时,一个耐人寻味的现象出现了。

先说“找到在哪里”这类定位题。经过专门界面操作任务训练的开源模型表现得出人意料地好。例如Qwen3-VL-32B和GLM-4.5V,在区域定位任务上的准确率分别达到了84.4%和84.6%,显著领先于商业闭源模型。而被公认为顶级商业模型的Gemini 2.5 Pro Thinking,区域定位准确率为77.6%,GPT-5更是只有31.4%。这个落差表明,大量的界面操作数据微调,对于“找位置”这种需要精准坐标输出的任务至关重要。

然而,到了“说出功能是什么”这类描述题,局面完全颠倒。Gemini 2.5 Pro Thinking以86.2%的准确率在区域功能描述任务中名列前茅,GPT-5以88.1%略胜一筹,OpenAI的O3和Claude Sonnet 4.5也都在84%左右。而开源的Qwen3-VL-32B则只有80.1%,GLM-4.5V维持在86.8%尚可一战,但其余开源模型普遍不及商业模型。

研究团队将这种“此消彼长”的现象称为“定位-理解分裂”。直白地说就是:专门训练界面操作的开源模型学会了精准地“指哪打哪”,但对功能语义的抽象理解能力相对有限;而商业大模型凭借海量的世界知识和语言理解能力,能更准确地描述一个界面元素“是干什么的”,却在精准坐标输出上不如专项模型灵活。

在元素级别的考核中,这一分裂同样清晰。Qwen3-VL-32B以71.1%的功能定位准确率排名第一,Gemini 2.5 Pro Thinking为67.7%;而在功能描述题上,Gemini 2.5 Pro Thinking以70.3%领先,Qwen3-VL-32B只有61.3%。

六、哪类界面元素最难考,哪类最简单

研究团队不仅看了总分,还对不同类型的界面区域分别统计了准确率,得到了一些有趣的发现。

对于标准化程度高的区域,比如“主容器”(软件主窗口)、“交互控件”(搜索框、筛选器、分页器),几乎所有模型的表现都相对较好。这并不难理解,因为这些元素在无数软件中反复出现,格式高度统一,AI见过太多例子,自然容易识别。

而标注为“其他类型”(Others)的区域则是整体失分最惨的类别,这类区域包括颜色选择器、品牌Logo、手机主屏幕的特殊布局等非常规界面元素。几乎所有模型在这类区域上的准确率都比表现最好的类别低5%以上,说明模型对于这些不常见的界面组件缺乏足够的认知基础。

在不同交互方式上,难度差异更加戏剧化。“长按”和“输入文字”这两类交互,因为视觉反馈通常很明显(长按常弹出菜单,输入文字会直接改变内容),模型的准确率较高。而“右键点击”几乎让所有商业模型集体折戟——O3、GPT-5、Claude Sonnet 4.5在右键点击相关题目上的准确率几乎为零。“悬停”(鼠标放在元素上但不点击)也是普遍的弱点,因为悬停触发的往往是一个短暂出现的提示气泡,这种细微的交互结果让模型很难预判。

七、“迷惑选项”揭示的深层问题

研究团队在题目设计上做了一个精心的区分:每道功能描述题不仅设有迷惑选项,还对迷惑选项的“迷惑程度”进行了分级。“困难”迷惑选项来自外观相似的邻近功能区域,与正确答案只有一步之遥;“简单”迷惑选项则是随机抽取的、毫无关联的功能描述,与正确答案几乎没有混淆的可能。

如果模型真正理解了功能,那么它在面对困难迷惑选项时的错误率,应该与面对简单迷惑选项时相差不大。但实际数据表明,几乎所有模型在困难迷惑选项上的错误率都显著高于简单迷惑选项。例如,GPT-5在区域功能描述题上,简单选项错误率只有2.8%,困难选项错误率则上升到9.1%;Claude Sonnet 4.5的简单错误率为5.4%,困难错误率为10.6%。

这个规律清楚地说明,模型并非在随机犯错,而是确确实实地被“长得像但功能不同”的选项迷惑了。它们的判断在很大程度上依赖于表面的视觉特征匹配,而非对功能语义的深层理解——这也正是研究团队最想暴露出来的核心缺陷。

八、Gemini是怎么失手的,案例分析

研究团队对Gemini 2.5 Pro Thinking的答错案例进行了详细分析,发现了两种清晰的失败模式。

在定位类题目上,Gemini通常能在推理过程中正确识别出目标元素是哪个,但最终输出的坐标框往往不够精准——要么框得太松,包含了大量无关区域;要么框的位置整体偏移,框住了错误的角落。这反映出商业模型虽有语义理解能力,但在精确坐标回归这个纯数值计算任务上存在明显短板。

在功能描述类题目上,Gemini的失误集中在两类场景。第一类是“系统层次混淆”:屏幕上同时存在操作系统级别的顶部状态栏和软件应用自身的标题栏时,Gemini容易将两者搞混。例如,在一道题中,一个LibreOffice Writer窗口的标题栏被红框标出,Gemini推断那是软件的“主工具栏”而非“窗口标题栏”。它在推理时更多关注了视觉上占据屏幕显眼位置的特征,而没有准确判断该区域在窗口管理层级中的实际角色。第二类是“状态推断失败”:比如面对一个可折叠的文件夹图标,Gemini无法准确预判点击后哪个具体的子目录会展开或收起,因为这需要结合当前界面的状态信息来判断,不能仅靠静态图像推断。

此外,在元素定位题目中,Gemini的推理文本往往会进行冗长的坐标计算,试图用语言推算出“工具栏大概从哪个像素开始、第几个图标大概在什么位置”,但这种基于估算的坐标推导往往错误百出。

九、周围越热闹,反而越容易找对——密度效应的意外发现

研究团队还引入了一个新颖的评估维度,叫做“归一化干扰密度”(NID),用来衡量目标元素周围有多少其他元素“挤”在附近。根据密度高低,所有题目被分为稀疏、中等、密集三组。

直觉上可能会认为,周围元素越密集,越容易混淆,答题也越难。但实际数据呈现的规律恰恰相反——对于大多数模型来说,密集环境下的定位准确率反而更高。

研究团队给出的解释是:当一个元素周围有很多其他元素时,它处于一个丰富的上下文环境中。这些“邻居”本身提供了大量线索,帮助AI判断“这一块区域是什么功能区”。相反,一个孤零零出现在屏幕边角、周围空无一物的孤立元素,反而让AI无法借助上下文来推断其功能定位,只能依靠孤立的视觉外观来猜测,出错的概率反而更高。

当然,不同类型的模型在这方面的偏好并不完全一致。商业大模型(如O3、GPT-5)和专门的界面定位模型(如OS-Atlas)普遍在密集环境下表现更好;而一些通用型开源模型(如Step-3、GLM-4.5V)则反过来,在稀疏环境下表现更佳,这可能是因为它们更依赖对单一视觉特征的直接匹配,密集环境反而形成了干扰。

十、这项研究对未来意味着什么

说到底,AutoGUI-v2揭示的并不只是一组数字得分,而是当前AI界面理解能力的一张清晰的“X光片”。

这张“X光片”显示:AI在识别屏幕元素方面已经取得了相当不错的成绩,但对于界面功能的深层理解——尤其是不常见的控件、复杂的交互方式、需要结合上下文状态才能判断结果的操作——依然是巨大的短板。这意味着,如果你今天把一项复杂的软件操作任务交给AI,遇到非标准界面或者需要右键菜单、悬停提示之类的精细操作时,它大概率还是会出错。

从更长远的角度看,这项研究提出了一个重要问题:要让AI真正成为可靠的“数字操作员”,仅仅依靠大量的操作数据训练是远远不够的。模型需要建立起对界面结构的层次化理解,知道哪些元素属于操作系统层、哪些属于应用层、哪些是当前对话框的临时状态,并且能够预判交互会如何改变软件的状态——就像一个有经验的用户那样,在瞥见界面的第一眼,就能凭直觉推断出大部分控件的功能和后果。

这项研究发布了完整的测试数据集和代码,为后续研究者提供了一个标准化的评测平台。任何新的AI界面理解模型都可以拿来测试,看看自己的“屏幕理解力”达到了什么水平。

归根结底,这项研究阐明了一件听起来简单但意义深远的事:让AI“看懂”屏幕,和让AI真正“理解”屏幕,是截然不同的两件事。前者我们已经做得不错,而后者,我们才刚刚开始。

Q&A

Q1:AutoGUI-v2测试的是什么能力,与普通的AI视觉理解测试有什么不同?

AutoGUI-v2专门测试AI对图形界面功能的理解能力。它不只是让AI找出某个按钮“长什么样子”或“叫什么名字”,而是要求AI回答“这个区域是干什么的”以及“操作它之后会发生什么”。普通的界面理解测试通常只考察能否根据外观描述定位元素,而AutoGUI-v2故意把外观相似但功能不同的元素配成迷惑组,强迫AI必须真正理解功能语义才能答对。这使得AutoGUI-v2比现有测试难度大得多,也更接近AI在实际操作任务中面对的真实挑战。

Q2:为什么开源模型在找位置上比GPT-5等商业模型还厉害?

这是因为Qwen3-VL、GLM-4.5V等开源模型经过了大量专门的图形界面操作数据微调训练,学会了如何精确输出坐标框来定位屏幕上的特定区域。这种专项训练赋予了它们在坐标回归任务上的优势。而GPT-5、Gemini等商业模型的训练更侧重于通用语言理解和知识积累,没有专门针对界面坐标输出做优化,因此在“找到具体位置”这件事上反而不如专项训练的开源模型精准。不过,商业模型在“描述功能是什么”上更胜一筹,两类模型可谓各有所长。

Q3:AutoGUI-v2发现所有AI对哪类界面操作最没把握?

右键点击和悬停(鼠标放上去但不点击)是几乎所有模型的共同弱点。对于右键点击,O3、GPT-5、Claude等主流商业模型的准确率接近于零,因为右键菜单的内容高度依赖上下文,难以从静态截图推断。悬停触发的通常是短暂出现的提示气泡,视觉信号微弱,模型也难以准确预测。此外,非标准界面元素如颜色选择器、品牌Logo等也是普遍失分点,说明模型对不常见界面组件的认知储备严重不足。

来源:https://www.techwalker.com/2026/0506/3185841.shtml
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

合成生物学新突破:人工细胞实现可控不对称分裂
iphone
合成生物学新突破:人工细胞实现可控不对称分裂

我国科学家在人工细胞研究领域取得重大突破。中国科学院化学研究所乔燕、王树团队联合国际科研力量,首次实现了人工细胞在形态和功能上的不对称分裂,相关成果于5月13日发表于《自然》期刊。这项研究填补了化学、材料与合成生物学交叉领域的技术空白,为未来设计功能化人造细胞系统及生物技术应用提供了全新的思路与模型

热心网友
05.14
俞大鹏院士喜提仰望U8 比亚迪王传福亲自交付
业界动态
俞大鹏院士喜提仰望U8 比亚迪王传福亲自交付

百万级国产豪华汽车市场再迎重磅车主,行业影响力持续攀升。 近日,中国科学院院士、深圳国际量子研究院院长俞大鹏正式成为比亚迪旗下高端品牌仰望U8的车主。在隆重的交付仪式上,比亚迪集团总裁王传福亲自将车钥匙递交到俞院士手中,彰显了品牌对顶尖科技人才的崇高礼遇。仰望汽车总经理胡晓庆现场表示,诚挚感谢俞院士

热心网友
05.13
中国科学院与腾讯微信合作解决AI排队等待问题
科技数码
中国科学院与腾讯微信合作解决AI排队等待问题

如果你曾让AI助手处理过一份几万字的合同,或者要求它读完一份百页报告后回答问题,那你一定经历过那种等待——在AI吐出第一个字之前,那段似乎格外漫长的沉默。这种等待,在技术术语里被称为“首字延迟”(Time-To-First-Token, TTFT),它直接取决于AI需要消化多少输入内容。输入越长,等

热心网友
05.13
中国科学院揭示特大地磁暴形成原因与机制
科技数码
中国科学院揭示特大地磁暴形成原因与机制

中国科学院研究团队利用“夸父一号”卫星观测数据,首次揭示2024年10月特大地磁暴由暗条与活动区日冕物质抛射共同驱动。研究通过直接成像证实了双CME结构,并发现其相互作用导致磁场压缩与复杂变化,这为理解极端空间天气和提升预报精度提供了关键依据。

热心网友
05.12
国产风冷电堆技术突破 氢能无人机续航能力倍增达国际领先
iphone
国产风冷电堆技术突破 氢能无人机续航能力倍增达国际领先

中国科学院大连化学物理研究所成功研发“高比功率阴极闭合式风冷电堆”技术,为工业无人机打造了轻量化、高功率的“氢能心脏”,使其续航能力提升2倍以上。该技术通过催化层多尺度调控、非对称水分传输和微通道强化传热三大创新,解决了风冷燃料电池的行业难题,电堆比功率达1970瓦 千克。目前技术已通过鉴定,达到国

热心网友
05.10

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

松应科技发布ORCA Lab 1.0 国产物理AI操作系统替代方案
AI
松应科技发布ORCA Lab 1.0 国产物理AI操作系统替代方案

英伟达Omniverse定位为物理AI操作系统。松应科技推出ORCALab1 0,旨在构建基于国产GPU的物理AI训练体系。针对机器人行业数据成本高、仿真迁移难的问题,平台提出“1:8:1黄金数据合成策略”,并通过高精度仿真提升数据可用性。平台将仿真与训练集成于个人设备,降低开发门槛,核心战略是在英伟达生态垄断下推动国产替。

热心网友
05.16
Concordium CCD币全面解析:发行机制、应用场景与投资前景
web3.0
Concordium CCD币全面解析:发行机制、应用场景与投资前景

Concordium是一个注重合规与隐私的区块链平台,其原生代币为CCD。该平台通过内置身份验证机制平衡隐私与监管要求,旨在服务企业级应用。CCD用于支付交易手续费、网络治理及生态内服务结算。其经济模型包含释放与销毁机制,以维持代币价值稳定。项目在合规金融、供应链、数字身份等领域有应用潜力。

热心网友
05.16
上海人工智能实验室联合商汤共建AI全链路验证平台与生态社区
AI
上海人工智能实验室联合商汤共建AI全链路验证平台与生态社区

上海人工智能实验室联合多家机构发起国产软硬件适配验证计划,致力于打造覆盖AI全流程的验证平台与自主生态社区。该平台旨在解决国产算力与应用协同难题,构建从芯片到应用的全链路验证体系,支持多种软硬件适配,推动国产AI技术向“好用、易用”发展。商汤科技依托AI大装置深度参与,已。

热心网友
05.16
达闼科技陨落一周年回顾具身智能独角兽兴衰启示录
AI
达闼科技陨落一周年回顾具身智能独角兽兴衰启示录

具身智能行业资本火热,但曾估值超200亿元的达闼科技迅速崩塌。其失败主因在于创始人黄晓庆以通信行业思维经营机器人业务,过度依赖政商关系与资本运作,技术产品突破有限;同时股权结构复杂分散,倚重政府基金,最终因融资断档与商业化不足导致团队离散。这折射出第一代创业者跨。

热心网友
05.16
大厂学术霸权引争议 TurboQuant事件暴露学界困境如何破局
AI
大厂学术霸权引争议 TurboQuant事件暴露学界困境如何破局

TurboQuant论文被质疑弱化与RaBitQ的关联,并存在理论比较与实验公平性问题。谷歌借助平台影响力将其定义为突破性成果,凸显了大厂在学术生态中的结构性优势。类似争议在伦理AI、芯片等领域亦有体现,反映了产业界将利益嵌入研究流程的机制。当前AI研究日益由大厂主导,其通过资本、渠道与话语权塑造。

热心网友
05.16