微软东南大学合作研发AI助手实现拖拽绘图超越鼠标点击

首页

热心网友

转载

2026-05-19

一项由东南大学、微软研究院、武汉大学、中山大学及阿布扎比穆罕默德·本·扎耶德人工智能大学联合开展的研究，于2026年5月在arXiv平台以预印本形式发布（论文编号：arXiv:2605.12501v1）。该研究精准揭示了当前AI智能体在计算机操作中的一个关键短板：它们普遍缺乏执行复杂交互动作的能力，例如拖拽和绘制。

微软与东南大学联手：让AI助手真正学会

不止于点击：AI助手的“操作盲区”与长尾挑战

回顾我们日常的电脑操作：在Excel中拖动填充柄、在Word文档里框选并移动段落、在Photoshop中用钢笔工具精细描边、在PPT中将多个对象对齐排版……这些涉及拖拽、框选、绘制轨迹的复合操作，恰恰是当前自动化AI助手的核心弱点。

尽管GPT-o3、Claude等“计算机使用智能体”已能基于屏幕截图理解状态并执行部分任务，但测试表明，它们在处理拖拽、连续绘制等稍复杂的交互时，失误率远高于简单的点击操作。这好比一个机器人学会了按按钮，却对需要旋转、滑动或连续路径的操作无能为力。

研究团队将这一问题界定为“长尾挑战”——大多数操作失败都集中在那些出现频率较低但交互复杂度高的动作类型上。其根源在于训练数据的严重不平衡：点击操作的数据随处可见，而“在图像编辑软件中精确勾勒物体轮廓”这类操作的标注样本却极度稀缺。

真实场景摸底：GPT-o3在办公、网页与游戏中的表现分析

为了精确诊断问题，研究团队在微软Azure平台上收集了近200个真实任务，涵盖办公软件、网页浏览和电子游戏三大典型场景，让GPT-o3模型执行并深度分析其失败原因。

结果非常清晰。在办公软件场景中，高达37%的失败源于“动作定位错误”——AI知道该做什么动作，却无法在屏幕上精准找到执行位置。这一比例远超“规划错误”，成为首要失败原因。尤其在涉及拖拽等需要起始点和终点坐标的任务中，定位不准的问题比简单点击更为突出。

网页浏览场景情况类似但稍好。游戏场景则更侧重于策略规划错误。这份详尽的测试报告明确指出了两大瓶颈：现有评测体系无法有效评估复杂操作能力，同时训练数据也严重缺乏这类复杂交互的样本。

革新评测标准：CUActSpot基准如何精准衡量复杂操作

既然旧有的评测“尺子”已不适用，研究团队便手工构建了全新的CUActSpot评测基准，专门用于检验AI在复杂交互上的真实能力。

其核心突破在于打破了“只测点击”的局限。传统基准无论难度如何，模式基本是给AI一张截图，让它找出按钮坐标，再判断坐标是否落在目标区域内。这就像只考“选择题”，却从不考“应用题”。

CUActSpot将评测对象扩展至五类：标准UI元素、文本内容、表格、画布以及自然图像。动作类型也从点击延伸至拖拽（需起点和终点）和绘制（需一系列连续坐标点）。整个基准包含206个精心设计的样本，覆盖12种高层任务和33种细分任务。每个样本均经过至少四轮人工测试与校验，确保质量。

评分机制也经过精心设计。对于多坐标点任务，系统区分“有序”与“无序”操作。同时，引入了“禁止区域”概念，防止AI通过全屏随机点击来“蒙答案”。

破解数据难题：用代码“合成”海量带精确坐标的训练数据

有了评测标准，下一步是解决训练数据匮乏的难题。团队创新性地提出了一套数据合成流水线，其核心思路非常巧妙：与其从海量真实软件截图中费力地进行人工坐标标注，不如直接用程序代码“渲染”生成自带精确坐标信息的截图。

这相当于从“逆向工程分析成品”转向“按配方正向生产”。由于截图由代码直接生成，每个界面元素的坐标信息自然被精确记录，完全省去了人工标注的成本。在此基础上，他们利用高级AI模型（如OpenAI o3）扮演“任务设计师”，根据坐标信息自动生成对应的操作指令描述，甚至能进行逻辑推演以创造更复杂的任务。

针对五种操作对象，团队设计了专属的渲染方案：

界面元素：复用Phi-Ground项目的网页爬取与渲染流水线，最终获得约1050万个高质量样本。
文本数据：采用“拼贴”方案，将维基百科等文本内容渲染到多样化背景上，并精确记录每个字符的坐标。
表格数据：通过内容演化、样式多样化、随机单元格遮挡等步骤，生成视觉风格高度逼真且多样的表格截图。
画布数据：使用程序化的PowerPoint模拟器，生成包含随机形状、文本框的编辑界面，高度模拟真实办公软件的外观与交互细节。
自然图像：直接利用Meta开源的SAM图像分割数据集，处理成可用于“智能抠图”类任务的边界曲线数据。

通过这套高效流水线，团队最终生成了规模约5000万条的多样化训练样本。

训练成果对比：小参数模型Phi-Ground-Any-4B的逆袭

利用这些合成数据，研究团队以参数约40亿的视觉语言模型Phi-3.5-VL为基础进行训练。选择相对较小的模型，旨在纯粹测试数据质量与多样性的效果，而非依赖模型参数规模的暴力提升。

训练得到的模型Phi-Ground-Any-4B，在CUActSpot基准上取得了44.4%的总体得分，超越了所有参数量低于320亿的开源模型。相比之下，一些参数量更大的模型得分反而更低。这个成绩对于一个小规模模型而言相当出色。

然而，当转向ScreenSpot-Pro和UI-Vision这两个主流评测基准时，Phi-Ground-Any-4B的表现则显得平平无奇。这种强烈的反差引出了一个更深层次的思考。

评测基准的“知识壁垒”：通用能力 vs. 软件记忆

研究团队在论文中深入探讨了这一反差现象。ScreenSpot-Pro等主流基准覆盖了大量真实专业软件（如Photoshop），其许多任务本身就需要特定的软件知识。例如，“点击Photoshop中的减淡工具图标”——如果AI从未“见过”或“学习过”该软件的界面，它根本无法识别目标。

这种设计有其应用合理性，但它导致评测分数变得混杂：模型得分高，究竟是因为其“通用屏幕定位能力”强，还是仅仅因为它“记住”了特定软件的图标布局？一个专门用某基准相关数据训练的模型，自然能在该基准上获得高分，但这未必代表其处理未知软件或新界面的真实能力。

团队通过实验验证了这一点：将Phi-Ground-Any-4B在包含常见软件截图的数据上进行微调后，其在ScreenSpot-Pro和UI-Vision上的分数大幅提升，但在CUActSpot上的得分却下降了。这说明，针对特定软件知识的训练，确实能提升在依赖该知识的基准上的表现，但可能无助于甚至损害模型的通用定位能力。

进一步的实验增强了说服力：在OSWorld这个端到端真实任务基准上，让GPT-o3统一担任“规划者”，不同模型担任“执行者”。结果发现，某些在ScreenSpot-Pro上得分高出GPT-o3近30个百分点的模型，在OSWorld上的表现并无优势。而Phi-Ground-Any-4B在ScreenSpot-Pro上得分不高，在OSWorld上却能达到接近GPT-o3自执行的水平。这表明，CUActSpot的排名与AI完成真实、未知任务的能力相关性更高。

多样性的力量：为何“见多识广”胜过“单一专精”

论文的另一个关键发现，来自于对训练数据构成的系统性消融实验。

团队从零开始，逐步增加不同模态的训练数据，观察模型表现的变化。实验揭示了一个反直觉的规律：单纯扩大单一模态的数据规模，其收益会迅速递减；但每次引入一种全新模态的数据，不仅该模态对应的测试分数会显著跃升，其他已有模态的分数也会获得连带增长。

例如，引入文本操作数据后，不仅文本选择任务的得分提升，界面元素定位的得分也同步上涨。相比之下，将界面元素数据从200万条单纯增加到500万条带来的提升则有限得多。

研究团队将这种现象命名为“多样性缩放”。其内在逻辑在于，要同时处理好文本选择、表格操作、图形拖拽、图像轮廓描绘等不同任务，模型必须习得一些底层的、跨任务通用的核心能力，例如理解目标的空间位置、边界范围以及合理的操作轨迹规划。这些通用能力，只有在接触足够多样化的任务类型后才能被有效激发和巩固。单纯在单一任务上堆砌海量数据，反而可能导致模型过度适应某种特定模式，削弱其泛化能力。

跨任务泛化能力：从“学会操作”到“举一反三”

除了多样性缩放，研究还观察到了令人惊喜的“举一反三”现象。CUActSpot包含33种细分任务，其训练数据仅覆盖了其中20种，但最终模型却能成功完成27种任务。

这意味着，有7种在训练数据中从未出现过的任务类型，模型通过“组合”和“迁移”已有的知识，自行摸索出了解决方法。例如，模型分别学会了“操作文字”和“操作图像区域”两种能力，当面对“操作图像中的文字”这类融合性新任务时，便能将两者能力融合，实现零样本的泛化执行。

这种跨任务泛化能力极具价值：它预示着，随着训练数据模态和任务类型的持续扩展，AI助手应对前所未见的新操作类型的能力有望同步增强，而不会仅仅局限于训练样本的狭窄范围。

研究总结：指明了什么，提供了什么，结论是什么

总而言之，这项研究完成了三件紧密关联且具有指导意义的工作：

第一，精准指出了行业痛点：现有对AI屏幕操作能力的评测过于偏重“点击”，忽视了拖拽、绘制等真实世界中常见且必要的复杂交互，导致研发方向可能出现偏差。

第二，提供了一套创新工具集：包括能更准确衡量复杂操作能力的CUActSpot诊断性评测基准，以及能低成本、大规模自动生成复杂操作训练数据的数据合成流水线。

第三，给出了一个方向性结论：对于训练通用的计算机操控AI，训练数据的“多样性”可能比单一模态的“数据量”更为关键。要培养出真正实用的AI助手，应优先系统性地扩展其“见识”过的操作类型和交互场景。

当然，研究也存在其局限性。CUActSpot作为一个诊断性基准，样本量有限，未能覆盖长序列的复杂任务链。合成数据与真实软件截图之间仍存在分布差异——从实验结果看，模型仍需在真实数据上微调，才能在那些严重依赖软件专业知识的基准上表现出色。

然而，能在40亿参数的小规模模型上，通过纯合成数据达到如此性能，本身就证明了该技术路线的巨大潜力。随着合成数据质量与多样性的持续提升，一个真正能帮你拖拽Excel公式、在PS中精准抠图、在PPT里灵活排版的AI办公助手，或许正在加速到来。

常见问题解答

Q1：CUActSpot评测基准和ScreenSpot-Pro这类主流评测有什么根本不同？

A：根本区别在于评测焦点与设计哲学。ScreenSpot-Pro等主流基准主要测试点击操作，且大量题目依赖对特定软件（如Photoshop）的界面知识，导致分数混杂了“定位能力”和“软件记忆”。CUActSpot则专门扩展测试拖拽、绘制等复合动作，覆盖文本、表格等五种对象，并有意减少对专业软件知识的依赖，使其评测结果更能纯粹反映模型的通用屏幕定位与交互能力。实验证明，其模型排名与在真实、未知任务上的完成率相关性更高。

Q2：Phi-Ground-Any-4B的训练数据是如何生成的？为什么不用真实截图？

A：采用代码程序化渲染生成截图，核心优势在于效率与精度。在渲染过程中，每个UI元素、文字、图形的坐标信息是天然可得、100%准确的，完全避免了昂贵、低效且容易出错的人工标注。五种模态分别通过网页渲染引擎、字体渲染库、表格生成器、画布模拟器以及利用现有分割数据集来实现。相比从海量真实截图中人工标坐标，这种方法能以极低的成本生成数千万条带精确坐标标注的样本，并能通过AI自动生成复杂的、符合逻辑的操作指令，极大丰富了数据多样性。

Q3：“多样性缩放”这一发现对训练AI智能体有什么实际指导意义？

A：这一发现具有重要的实践指导意义。它表明，对于训练通用的电脑操控AI，盲目堆砌同一类操作（例如只收集点击按钮的数据）的数据，其性能收益会很快达到瓶颈。相反，系统性地规划并引入多种操作类型和数据模态（如文本选择、图形拖拽、表格操作、图像轮廓描绘），不仅能直接提升对应任务的能力，还能通过促进模型学习底层通用技能，间接带动其他任务表现的普遍增长。这意味着，在构建下一代AI助手时，数据策略应优先追求“广度”和“多样性”，而非仅仅追求单一类型的“数据量”。

来源:https://www.techwalker.com/2026/0519/3187531.shtml

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：阿里世界模型Happy Oyster发布：动态三维环境生成技术详解下一篇：DeepMind科学家深度解析人工智能为何无法具备人类意识