首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
微软东南大学合作开发AI拖拽绘图新功能

微软东南大学合作开发AI拖拽绘图新功能

热心网友
20
转载
2026-05-20


近期,一项由东南大学、微软研究院、武汉大学、中山大学及阿布扎比穆罕默德·本·扎耶德人工智能大学联合发布的研究成果,揭示了当前AI在操控电脑屏幕任务中的一个关键瓶颈。这篇预印本论文(arXiv:2605.12501v1)的核心观点指出,现有的“计算机使用智能体”在处理复杂交互操作时存在显著短板。

超越简单点击:AI助手的“操作盲区”与长尾挑战

回顾日常电脑操作,除了点击,大量任务涉及拖拽、框选、描边等复合动作。例如,在Excel中拖动填充柄、在Word里移动文本段落、在Photoshop中使用套索工具进行抠图——这些对人类用户而言轻而易举的操作,却构成了当前AI助手的实际难题。

尽管如GPT-o3、Claude等模型已能基于屏幕截图执行部分任务,但研究显示,当任务从“点击按钮”升级为“拖拽图形”或“绘制选区”时,即使是最先进的模型,其失误率也会急剧攀升。这暴露了AI在复杂屏幕交互能力上的不足。

研究团队将此现象定义为“长尾问题”:绝大多数失败案例集中于那些出现频率较低但操作复杂度高的任务上。其根源在于训练数据的严重不均衡——点击操作的数据样本丰富,而“在图像编辑软件中精确勾勒物体轮廓”这类精细操作的标注数据却极为稀缺。

性能摸底:GPT-o3在真实工作场景中的表现分析

为量化这一问题,研究团队在微软Azure平台上收集了近200个涵盖办公软件、网页浏览与电子游戏的真实任务,交由GPT-o3执行并深入分析失败原因。

结果颇具启发性。在办公软件场景中,约37%的失败源于“动作定位错误”——AI知道该执行什么操作,却无法准确判断在屏幕的何处执行。这一错误的比例远超“规划错误”。在涉及拖拽等复合动作的任务中,坐标定位的出错率显著高于简单点击。

网页浏览场景规律相似,但情况稍好。游戏场景则不同,策略性的“规划错误”成为主导。这份测试报告清晰地指出了两个核心问题:现有评测体系难以有效衡量复杂操作能力,且相应的训练数据也极度匮乏。

新标尺诞生:CUActSpot评测基准详解

为更精准地评估AI的复杂交互能力,研究团队手工构建了名为CUActSpot的全新评测基准。其核心创新在于突破了传统基准仅测试“点击”的局限。

CUActSpot将评测对象扩展至五类:标准界面元素、文本内容、表格、画布以及自然图像。同时,评测的动作类型也从单一的点击,延伸至需要起点和终点的“拖拽”,以及需要连续坐标序列的“绘制”操作。

该基准包含206个精心设计的样本,覆盖12种高层任务和33种细分任务。每个样本均经过至少四轮人工测试与修正。评分机制也进行了巧妙设计,区分了“有序”与“无序”操作,并设置了“禁止区域”以防止模型通过随机尝试得分。

数据工厂:通过程序化渲染生成海量训练样本

解决了评测问题后,关键在于填补训练数据的空白。团队提出了一套创新的数据合成流水线:与其从海量真实软件截图中费力进行人工坐标标注,不如直接通过代码“渲染”出自带精确坐标信息的合成截图。

这种方法从根本上解决了数据标注的瓶颈。由于截图由程序生成,每个界面元素的坐标信息天然可得。在此基础上,研究团队利用高级AI模型(如OpenAI o3)扮演“任务设计师”,根据坐标信息自动生成复杂的操作指令,甚至能进行空间几何推算,设计出如“将箭头拖拽至指定位置使其指向椭圆顶点”等高阶任务。

针对五类操作对象,其合成方案如下:

  • 界面元素:复用Phi-Ground项目的网页爬取流水线,对Common Crawl网页存档进行清洗与渲染,并利用GPT-4o生成描述标签,最终获得约1050万个高质量样本。
  • 文本数据:采用“拼贴”方案,将维基百科等文本内容,使用超过2500种开源字体渲染到约200种文档背景模板上,并精确记录每个字符的边界框坐标。
  • 表格数据:生成流程尤为精细。首先从开源数据集收集原始表格,利用GPT进行“主题演化”与“结构变换”以增强多样性,再结合上万套随机生成的CSS样式进行渲染,并模拟Excel中常见的空白单元格模式,最终产出视觉风格高度多样的表格截图。
  • 画布数据:通过一个程序化的PowerPoint模拟器生成,包含多种基本形状,并模拟了编辑模式下的控制点、旋转手柄等真实交互细节。
  • 自然图像:直接来源于Meta开源的SAM数据集,随机选取图像区域并由GPT-4o描述,再通过算法将区域轮廓转化为多边形边界曲线,以支持“图像抠图”类任务。

最终,这套高效流水线生成了规模约5000万条的多样化训练样本。

训练与对比:小参数模型的逆袭表现

利用这批海量合成数据,研究团队选择了参数规模约40亿的Phi-3.5-VL作为基础模型进行训练,旨在验证数据质量与多样性的价值,而非单纯依赖模型规模。

训练得到的模型命名为Phi-Ground-Any-4B。在CUActSpot基准测试中,它取得了44.4%的总体得分,超越了所有参数量低于320亿的开源模型。考虑到其仅40亿的参数量,这一成绩尤为亮眼。

然而,在ScreenSpot-Pro和UI-Vision这两个主流基准上,其表现却相对平庸。这一反差引出了一个更深层次的议题。

评测基准的“知识壁垒”:通用能力 vs. 软件记忆

ScreenSpot-Pro和UI-Vision等基准覆盖了大量真实专业软件,其许多任务本身就需要特定的软件知识。例如,“点击Photoshop中的减淡工具图标”——如果模型不认识这个图标,任务就无法完成。

这虽然合理,但此类评测结果难以区分:一个模型得分高,究竟是因为其“通用屏幕定位与理解能力”强,还是仅仅因为它“记忆了”特定软件的界面布局。

为验证这一点,团队将Phi-Ground-Any-4B在包含常见软件截图的数据上进一步微调。结果,其在两个主流基准上的分数大幅提升,但在CUActSpot上的得分却下降了。这表明,针对特定软件数据的训练,提升的更多是“软件界面记忆”,而非“通用定位能力”。

另一项端到端实验更具说服力:让GPT-o3统一担任“任务规划者”,不同模型担任“执行者”,在真实的OSWorld基准上测试。结果发现,一些在ScreenSpot-Pro上得分远高于GPT-o3的模型,在OSWorld上的实际任务完成率并不突出。而Phi-Ground-Any-4B在ScreenSpot-Pro上得分不高,在OSWorld上却表现优异,接近GPT-o3自身执行的水平。这进一步证明,CUActSpot的排名与模型在真实复杂任务中的完成能力相关性更高。

多样性的力量:为何“见多识广”胜于“单一专精”

论文中的另一个关键发现来自对训练数据的消融实验。团队从零开始训练模型,逐步增加不同模态的数据,并观察性能变化。

规律非常清晰:单纯增加某一类数据的规模,其收益会迅速递减;但每次引入一种全新的操作模态(如从仅有点击数据,加入文本选择数据),不仅新模态的任务得分大幅提升,原有模态的任务得分也会随之提高。

研究团队将此现象命名为“多样性缩放”。其内在逻辑在于,要同时掌握点击、拖拽、框选、描边等不同技能,模型需要学习一些底层的、跨任务的通用能力,例如对目标位置、边界和空间关系的理解。这种通用能力,只有在接触足够多样化的任务类型后才能有效形成。过度专注于单一任务类型的数据,反而可能导致模型陷入“模式化”的狭隘专精。

跨任务泛化:组合式学习能力的涌现

另一个有趣的发现是模型展现出的“举一反三”能力。CUActSpot包含33种细分任务,而训练数据仅覆盖了其中20种。然而,Phi-Ground-Any-4B实际上能够成功完成27种任务。

这意味着,有7种它从未在训练中直接见过的任务类型,模型通过组合已学知识,自行摸索出了解决方案。例如,模型分别学会了“操作文字”和“操作图像区域”,当面对“操作图片中的文字”这种新任务时,它能将两种能力融合应对。这种跨任务泛化能力,为未来AI助手灵活应对未知操作场景提供了乐观的想象空间。

研究核心贡献总结

综上所述,这项研究主要完成了三件紧密关联的工作:

  1. 精准定位问题:明确指出当前AI操控能力评测过于偏重“点击”,忽视了拖拽、绘制等实际高频复杂操作,导致研究方向与真实需求存在偏差。
  2. 提供解决方案与工具:推出了CUActSpot评测基准,以更准确地衡量复杂操作能力;同时设计了一套可大规模、低成本生成稀缺复杂操作训练数据的数据合成流水线。
  3. 指明未来方向:通过实验证明,对于电脑操控AI而言,训练数据的“多样性”可能比单纯的“数据量”更为关键。要培养出真正实用的AI助手,应优先拓展其见识的操作类型广度。

当然,研究也存在其局限性。CUActSpot作为一个诊断性基准,样本量有限,未能覆盖需要多步连续操作的复杂工作流。此外,合成数据与真实软件截图之间的分布差异,也是未来需要持续优化的挑战。

然而,能够在40亿参数规模上,仅依靠合成数据就达到如此性能,已经充分验证了这条技术路线的巨大潜力。随着数据生成质量的持续提升与模型架构的不断优化,一个能够真正协助用户拖拽Excel公式、在图像软件中精准抠图的智能助手,或许离现实已不再遥远。

Q&A

Q1:CUActSpot评测基准与ScreenSpot-Pro等主流基准的核心区别是什么?

A:核心区别在于评测重点与设计哲学。ScreenSpot-Pro等主流基准主要测试点击操作,且许多题目依赖于对特定软件界面知识的记忆。CUActSpot则专门设计用于测试拖拽、绘制等复合动作,覆盖文本、表格、画布等多种对象,并有意降低对特定软件专业知识的依赖,从而能更纯粹、更公平地评估模型的通用屏幕定位与交互能力。实验表明,模型在CUActSpot上的表现排名,与其在真实端到端任务中的完成能力具有更高的相关性。

Q2:Phi-Ground-Any-4B的训练数据为何采用代码渲染生成,而不是直接使用真实截图?

A:采用程序化渲染生成数据,核心优势在于效率和精度。在渲染过程中,每个屏幕元素(按钮、文字、图形)的精确坐标信息是天然已知的,完全避免了昂贵、耗时且容易出错的人工标注过程。研究团队为五种不同模态(界面、文本、表格、画布、图像)分别设计了高效的渲染方案,能够以极低的成本生成数千万条带有精确坐标标注的高质量样本,并通过AI自动生成复杂的操作指令,极大地解决了复杂操作训练数据稀缺的瓶颈问题。

Q3:“多样性缩放”这一发现对训练AI执行屏幕任务有何实际指导意义?

A:“多样性缩放”的发现具有重要的实践指导意义。它表明,在训练电脑操控AI时,盲目地堆积同一类操作(例如只点击按钮)的数据,其性能提升会很快遇到瓶颈。相反,系统地引入新的、不同类型的操作(例如新增文本选择、图形拖拽、区域绘制等),不仅能直接提升模型在新任务上的能力,还能通过促进底层通用空间理解能力的形成,反过来增强其在原有任务上的表现。这意味着,构建真正通用、强大的AI助手,应优先追求训练数据在操作类型上的“广度”和“多样性”,而非仅在单一任务上追求数据量的“深度”。

来源:https://www.163.com/dy/article/KTAR2RKN0511DTVV.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

微软东南大学合作研发AI助手实现拖拽绘图超越鼠标点击
AI
微软东南大学合作研发AI助手实现拖拽绘图超越鼠标点击

研究针对AI助手难以执行复杂屏幕操作的问题,构建了CUActSpot评测基准,通过代码渲染自动生成含精确坐标的多样化训练数据,并训练了一个40亿参数模型。实验表明,提升训练数据多样性比单纯扩大数据规模更能有效增强模型通用操作能力,并展现出跨任务泛化潜力。

热心网友
05.19
Trae与团队协作指南多人开发项目中AI助手的高效配合策略
AI
Trae与团队协作指南多人开发项目中AI助手的高效配合策略

团队协作使用AI助手时,需统一配置智能体模板并共享,确保行为一致。通过Git分支绑定AI任务范围,实现环境隔离。利用上下文同步功能,使AI感知团队修改历史。在代码合并时引入语义级冲突扫描,提前发现问题。最后,根据开发阶段为AI分配合适角色与协作模式,使其深度融入流程。

热心网友
05.19
智能纠错新框架如何让AI助手精准改正错误
AI
智能纠错新框架如何让AI助手精准改正错误

这项由亚利桑那州立大学与思科研究院联合开展的研究,于2026年4月以预印本形式发布在arXiv平台,论文编号为arXiv:2604 25135。研究致力于解决一个核心挑战:如何显著提升参数量较小的开源大语言模型在复杂、多轮次、需调用外部工具的对话任务中的可靠性。为此,团队创新性地提出了一套名为FAM

热心网友
05.16
Moorcheh AI记忆助手:让AI真正记住你的简单方法
AI
Moorcheh AI记忆助手:让AI真正记住你的简单方法

这篇研究来自Moorcheh AI与EdgeAI Innovations联合团队,于2026年4月以预印本形式发布在arXiv平台,编号为arXiv:2604 22085v1。 和AI聊得热火朝天,下次打开对话框,它却一脸茫然,仿佛初次见面——这种体验是不是很熟悉?你明明告诉过它你喜欢美式不加糖,项

热心网友
05.16
Figma新版UI3如何通过Actions面板启用Make Designs功能
AI
Figma新版UI3如何通过Actions面板启用Make Designs功能

升级FigmaUI3后,“MakeDesigns”功能已整合至底部“Actions”面板。可通过点击面板“+”图标选择“AIDesign”直接调用,或使用全局快捷键搜索该功能。右键菜单可快速复用最近AI操作。若未显示,需在账户设置中启用Beta权限。全屏模式可能隐藏工具栏,退出即可恢复访问。

热心网友
05.16

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

算力时代电力价值重估 能源如何支撑数字经济
AI
算力时代电力价值重估 能源如何支撑数字经济

近日,国家能源局联合发改委、工信部、国家数据局正式印发《关于促进人工智能与能源双向赋能的行动方案》。这份重磅文件的核心思路非常清晰:一方面,以坚实的能源基础支撑人工智能(AI)的快速发展;另一方面,利用AI技术赋能能源行业转型升级。其核心目标是推动能源、算力、应用场景、数据与算法模型五大关键要素深度

热心网友
05.20
智谱清影与Runway Gen3视频生成模型对比评测
AI
智谱清影与Runway Gen3视频生成模型对比评测

在挑选文生视频工具时,若您正在智谱清影与Runway Gen-3之间权衡,那么了解两者在生成效果上的具体差异,将有助于您做出更明智的选择。本文将从画质清晰度、细节纹理、运动自然度与视频连贯性等核心维度,通过实测对比为您详细解析。 一、画质与分辨率表现 首先对比硬性指标。智谱清影基于CogVideoX

热心网友
05.20
通义万象制作数据可视化科技背景的实用教程
AI
通义万象制作数据可视化科技背景的实用教程

想用通义万相生成一张科技感十足的数据可视化背景,但出来的画面总觉得少了点“内味儿”?数字界面、粒子流、电路纹理这些关键元素一个不见,画面平平无奇?这通常不是工具的问题,而是提示词没有精准锚定科技可视化的核心要素,或者模型参数没调到最佳状态。别急,下面这几种方法,能帮你把想法精准地“翻译”成画面。 一

热心网友
05.20
Vidu视频慢动作与快进效果制作教程
AI
Vidu视频慢动作与快进效果制作教程

想要在Vidu生成的视频中实现流畅的慢动作或快进效果?虽然模型界面没有提供直接调整播放速度的滑块,但通过巧妙的提示词设计、利用内置功能,或结合后期处理工具,你完全可以精准掌控视频的节奏与时间感。本文将为你详细解析四种实用方法,从生成前到生成后,全方位满足你的创作需求。 一、通过精准提示词引导运动节奏

热心网友
05.20
海螺AI学术论文查重降重功能实测与效果分析
AI
海螺AI学术论文查重降重功能实测与效果分析

当您使用海螺AI生成的英文论文在提交查重时遭遇高重复率或AIGC检测异常,请不要急于归咎于工具本身。核心原因在于,尽管AI生成的文本格式标准、语法地道,但其语言模式和常见短语组合,并未针对知网、维普、万方等中文查重数据库的语义比对逻辑进行专门优化。换言之,机器认为流畅自然的表达,在查重系统的算法看来

热心网友
05.20