微软东南大学合作开发AI拖拽绘图新功能

时间：2026-05-20 07:29

近期，一项由东南大学、微软研究院、武汉大学、中山大学及阿布扎比穆罕默德·本·扎耶德人工智能大学联合发布的研究成果，揭示了当前AI在操控电脑屏幕任务中的一个关键瓶颈。这篇预印本论文（arXiv:2605 12501v1）的核心观点指出，现有的“计算机使用智能体”在处理复杂交互操作时存在显著短板。超越

近期，一项由东南大学、微软研究院、武汉大学、中山大学及阿布扎比穆罕默德·本·扎耶德人工智能大学联合发布的研究成果，揭示了当前AI在操控电脑屏幕任务中的一个关键瓶颈。这篇预印本论文（arXiv:2605.12501v1）的核心观点指出，现有的“计算机使用智能体”在处理复杂交互操作时存在显著短板。

超越简单点击：AI助手的“操作盲区”与长尾挑战

回顾日常电脑操作，除了点击，大量任务涉及拖拽、框选、描边等复合动作。例如，在Excel中拖动填充柄、在Word里移动文本段落、在Photoshop中使用套索工具进行抠图——这些对人类用户而言轻而易举的操作，却构成了当前AI助手的实际难题。

尽管如GPT-o3、Claude等模型已能基于屏幕截图执行部分任务，但研究显示，当任务从“点击按钮”升级为“拖拽图形”或“绘制选区”时，即使是最先进的模型，其失误率也会急剧攀升。这暴露了AI在复杂屏幕交互能力上的不足。

研究团队将此现象定义为“长尾问题”：绝大多数失败案例集中于那些出现频率较低但操作复杂度高的任务上。其根源在于训练数据的严重不均衡——点击操作的数据样本丰富，而“在图像编辑软件中精确勾勒物体轮廓”这类精细操作的标注数据却极为稀缺。

性能摸底：GPT-o3在真实工作场景中的表现分析

为量化这一问题，研究团队在微软Azure平台上收集了近200个涵盖办公软件、网页浏览与电子游戏的真实任务，交由GPT-o3执行并深入分析失败原因。

结果颇具启发性。在办公软件场景中，约37%的失败源于“动作定位错误”——AI知道该执行什么操作，却无法准确判断在屏幕的何处执行。这一错误的比例远超“规划错误”。在涉及拖拽等复合动作的任务中，坐标定位的出错率显著高于简单点击。

网页浏览场景规律相似，但情况稍好。游戏场景则不同，策略性的“规划错误”成为主导。这份测试报告清晰地指出了两个核心问题：现有评测体系难以有效衡量复杂操作能力，且相应的训练数据也极度匮乏。

新标尺诞生：CUActSpot评测基准详解

为更精准地评估AI的复杂交互能力，研究团队手工构建了名为CUActSpot的全新评测基准。其核心创新在于突破了传统基准仅测试“点击”的局限。

CUActSpot将评测对象扩展至五类：标准界面元素、文本内容、表格、画布以及自然图像。同时，评测的动作类型也从单一的点击，延伸至需要起点和终点的“拖拽”，以及需要连续坐标序列的“绘制”操作。

该基准包含206个精心设计的样本，覆盖12种高层任务和33种细分任务。每个样本均经过至少四轮人工测试与修正。评分机制也进行了巧妙设计，区分了“有序”与“无序”操作，并设置了“禁止区域”以防止模型通过随机尝试得分。

数据工厂：通过程序化渲染生成海量训练样本

解决了评测问题后，关键在于填补训练数据的空白。团队提出了一套创新的数据合成流水线：与其从海量真实软件截图中费力进行人工坐标标注，不如直接通过代码“渲染”出自带精确坐标信息的合成截图。

这种方法从根本上解决了数据标注的瓶颈。由于截图由程序生成，每个界面元素的坐标信息天然可得。在此基础上，研究团队利用高级AI模型（如OpenAI o3）扮演“任务设计师”，根据坐标信息自动生成复杂的操作指令，甚至能进行空间几何推算，设计出如“将箭头拖拽至指定位置使其指向椭圆顶点”等高阶任务。

针对五类操作对象，其合成方案如下：

界面元素：复用Phi-Ground项目的网页爬取流水线，对Common Crawl网页存档进行清洗与渲染，并利用GPT-4o生成描述标签，最终获得约1050万个高质量样本。
文本数据：采用“拼贴”方案，将维基百科等文本内容，使用超过2500种开源字体渲染到约200种文档背景模板上，并精确记录每个字符的边界框坐标。
表格数据：生成流程尤为精细。首先从开源数据集收集原始表格，利用GPT进行“主题演化”与“结构变换”以增强多样性，再结合上万套随机生成的CSS样式进行渲染，并模拟Excel中常见的空白单元格模式，最终产出视觉风格高度多样的表格截图。
画布数据：通过一个程序化的PowerPoint模拟器生成，包含多种基本形状，并模拟了编辑模式下的控制点、旋转手柄等真实交互细节。
自然图像：直接来源于Meta开源的SAM数据集，随机选取图像区域并由GPT-4o描述，再通过算法将区域轮廓转化为多边形边界曲线，以支持“图像抠图”类任务。

最终，这套高效流水线生成了规模约5000万条的多样化训练样本。

训练与对比：小参数模型的逆袭表现

利用这批海量合成数据，研究团队选择了参数规模约40亿的Phi-3.5-VL作为基础模型进行训练，旨在验证数据质量与多样性的价值，而非单纯依赖模型规模。

训练得到的模型命名为Phi-Ground-Any-4B。在CUActSpot基准测试中，它取得了44.4%的总体得分，超越了所有参数量低于320亿的开源模型。考虑到其仅40亿的参数量，这一成绩尤为亮眼。

然而，在ScreenSpot-Pro和UI-Vision这两个主流基准上，其表现却相对平庸。这一反差引出了一个更深层次的议题。

评测基准的“知识壁垒”：通用能力 vs. 软件记忆

ScreenSpot-Pro和UI-Vision等基准覆盖了大量真实专业软件，其许多任务本身就需要特定的软件知识。例如，“点击Photoshop中的减淡工具图标”——如果模型不认识这个图标，任务就无法完成。

这虽然合理，但此类评测结果难以区分：一个模型得分高，究竟是因为其“通用屏幕定位与理解能力”强，还是仅仅因为它“记忆了”特定软件的界面布局。

为验证这一点，团队将Phi-Ground-Any-4B在包含常见软件截图的数据上进一步微调。结果，其在两个主流基准上的分数大幅提升，但在CUActSpot上的得分却下降了。这表明，针对特定软件数据的训练，提升的更多是“软件界面记忆”，而非“通用定位能力”。

另一项端到端实验更具说服力：让GPT-o3统一担任“任务规划者”，不同模型担任“执行者”，在真实的OSWorld基准上测试。结果发现，一些在ScreenSpot-Pro上得分远高于GPT-o3的模型，在OSWorld上的实际任务完成率并不突出。而Phi-Ground-Any-4B在ScreenSpot-Pro上得分不高，在OSWorld上却表现优异，接近GPT-o3自身执行的水平。这进一步证明，CUActSpot的排名与模型在真实复杂任务中的完成能力相关性更高。

多样性的力量：为何“见多识广”胜于“单一专精”

论文中的另一个关键发现来自对训练数据的消融实验。团队从零开始训练模型，逐步增加不同模态的数据，并观察性能变化。

规律非常清晰：单纯增加某一类数据的规模，其收益会迅速递减；但每次引入一种全新的操作模态（如从仅有点击数据，加入文本选择数据），不仅新模态的任务得分大幅提升，原有模态的任务得分也会随之提高。

研究团队将此现象命名为“多样性缩放”。其内在逻辑在于，要同时掌握点击、拖拽、框选、描边等不同技能，模型需要学习一些底层的、跨任务的通用能力，例如对目标位置、边界和空间关系的理解。这种通用能力，只有在接触足够多样化的任务类型后才能有效形成。过度专注于单一任务类型的数据，反而可能导致模型陷入“模式化”的狭隘专精。

跨任务泛化：组合式学习能力的涌现

另一个有趣的发现是模型展现出的“举一反三”能力。CUActSpot包含33种细分任务，而训练数据仅覆盖了其中20种。然而，Phi-Ground-Any-4B实际上能够成功完成27种任务。

这意味着，有7种它从未在训练中直接见过的任务类型，模型通过组合已学知识，自行摸索出了解决方案。例如，模型分别学会了“操作文字”和“操作图像区域”，当面对“操作图片中的文字”这种新任务时，它能将两种能力融合应对。这种跨任务泛化能力，为未来AI助手灵活应对未知操作场景提供了乐观的想象空间。

研究核心贡献总结

综上所述，这项研究主要完成了三件紧密关联的工作：

精准定位问题：明确指出当前AI操控能力评测过于偏重“点击”，忽视了拖拽、绘制等实际高频复杂操作，导致研究方向与真实需求存在偏差。
提供解决方案与工具：推出了CUActSpot评测基准，以更准确地衡量复杂操作能力；同时设计了一套可大规模、低成本生成稀缺复杂操作训练数据的数据合成流水线。
指明未来方向：通过实验证明，对于电脑操控AI而言，训练数据的“多样性”可能比单纯的“数据量”更为关键。要培养出真正实用的AI助手，应优先拓展其见识的操作类型广度。

当然，研究也存在其局限性。CUActSpot作为一个诊断性基准，样本量有限，未能覆盖需要多步连续操作的复杂工作流。此外，合成数据与真实软件截图之间的分布差异，也是未来需要持续优化的挑战。

然而，能够在40亿参数规模上，仅依靠合成数据就达到如此性能，已经充分验证了这条技术路线的巨大潜力。随着数据生成质量的持续提升与模型架构的不断优化，一个能够真正协助用户拖拽Excel公式、在图像软件中精准抠图的智能助手，或许离现实已不再遥远。

Q&A

Q1：CUActSpot评测基准与ScreenSpot-Pro等主流基准的核心区别是什么？

A：核心区别在于评测重点与设计哲学。ScreenSpot-Pro等主流基准主要测试点击操作，且许多题目依赖于对特定软件界面知识的记忆。CUActSpot则专门设计用于测试拖拽、绘制等复合动作，覆盖文本、表格、画布等多种对象，并有意降低对特定软件专业知识的依赖，从而能更纯粹、更公平地评估模型的通用屏幕定位与交互能力。实验表明，模型在CUActSpot上的表现排名，与其在真实端到端任务中的完成能力具有更高的相关性。

Q2：Phi-Ground-Any-4B的训练数据为何采用代码渲染生成，而不是直接使用真实截图？

A：采用程序化渲染生成数据，核心优势在于效率和精度。在渲染过程中，每个屏幕元素（按钮、文字、图形）的精确坐标信息是天然已知的，完全避免了昂贵、耗时且容易出错的人工标注过程。研究团队为五种不同模态（界面、文本、表格、画布、图像）分别设计了高效的渲染方案，能够以极低的成本生成数千万条带有精确坐标标注的高质量样本，并通过AI自动生成复杂的操作指令，极大地解决了复杂操作训练数据稀缺的瓶颈问题。

Q3：“多样性缩放”这一发现对训练AI执行屏幕任务有何实际指导意义？

A：“多样性缩放”的发现具有重要的实践指导意义。它表明，在训练电脑操控AI时，盲目地堆积同一类操作（例如只点击按钮）的数据，其性能提升会很快遇到瓶颈。相反，系统地引入新的、不同类型的操作（例如新增文本选择、图形拖拽、区域绘制等），不仅能直接提升模型在新任务上的能力，还能通过促进底层通用空间理解能力的形成，反过来增强其在原有任务上的表现。这意味着，构建真正通用、强大的AI助手，应优先追求训练数据在操作类型上的“广度”和“多样性”，而非仅在单一任务上追求数据量的“深度”。

来源：https://www.163.com/dy/article/KTAR2RKN0511DTVV.html

AI助手

上一篇京东春晓计划再投10亿扶持商家发展 下一篇南加州大学AI推理突破实现举一反三能力提升

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。