上海交大突破AI视觉技术让智能助手实现看图办事

我们每天使用电脑时,一项看似简单的能力至关重要:扫一眼屏幕,就能立刻明白该点击哪里、下一步做什么、以及操作是否成功。这种“所见即所得”的视觉理解能力,对人类而言轻而易举,但对于旨在模仿人类行为的AI助手来说,却是一道难以逾越的鸿沟。
近期,一项由上海交通大学、小红书与东南大学联合开展的研究,为弥合这一差距提供了创新方案。研究团队提出了名为“MMSkills”的全新框架,旨在教会AI如何像人类一样,结合视觉信息来理解和执行复杂任务。这项研究成果已发表在arXiv预印本平台(论文编号:arXiv:2605.13527v2)。
要理解这项研究的价值,需从一个普遍痛点入手。当前,许多AI助手已具备预设的“技能”,可以将其想象为贴在墙上的纯文字菜谱。对于“煮泡面”这类步骤固定的任务,文字菜谱足够。但面对“判断牛排熟度”这种需要观察色泽、油花等视觉线索的复杂任务,仅靠文字描述就力不从心了。AI在操作图形用户界面(GUI)时,正面临后一种困境——它可能“知道”要点击保存,却“认不出”屏幕上哪个是保存按钮,或无法判断弹窗是否加载完毕。
研究团队深刻认识到,对于需要在视觉环境中“看图操作”的AI,一份纯文字说明书是远远不够的。必须为它打造一份“图文并茂的智能操作指南”,不仅要阐明动作步骤,更要明确指出需要关注哪些视觉特征、如何评估任务进度、以及怎样确认操作成功。
一、纯文字指令在视觉任务中的局限
设想一个常见场景:你指示AI在电子表格软件中创建一个图表,要求放置在第二个工作表,并将标题命名为“销售与成本分析”。听起来简单,但传统的AI助手极易在此出错。
如果完全不给指导,AI可能直接在当前打开的第一个工作表上绘制图表——位置完全错误。如果提供一份纯文字步骤说明,如“打开图表向导,选择柱状图……”,AI会机械执行,但仍不清楚自己在哪个工作表操作,结果依然错误。
然而,如果提供的是一份附带截图的操作指南,情况将截然不同。指南中除了步骤,还包含关键节点的屏幕截图,提示AI“看到这个界面时执行此操作”、“操作完成后屏幕应呈现此状态”。AI手持这份指南,对照实时屏幕,就能理解:需要先将图表剪切,切换到第二个工作表粘贴,最后还需检查标题是否正确。任务因此得以顺利完成。
这个例子揭示的核心问题是:如何将这种依赖视觉判断的“隐性经验”,封装成可重复使用、可迁移的“标准化知识包”?
二、多模态技能包的核心构成
研究团队设计的MMSkills多模态技能包,类似于一份精心编排的智能旅行攻略,由几个有机融合的部分构成。
最基础的部分是一段文字描述的操作流程,相当于攻略中的路线说明。它勾勒出技能的骨架,告知AI每个步骤应执行什么操作。
但仅有路线不够,攻略中还需有明确的“路标”。这就是该研究的关键创新之一——“状态卡片”。每张卡片记录了多项关键信息:该技能适用的前提条件、不适用的场景、当前应关注屏幕的哪些视觉特征、如何验证操作已达正确状态,以及可选的参考画面。简言之,状态卡片如同在告诉游客:“当你看到左前方那家悬挂红灯笼的餐馆,说明已抵达老城区入口,此时应右转;但如果看到的是连锁咖啡店,则说明方向有误。”
再往上一层,是关键画面的图像集合。每个重要状态都配有多张不同视角的参考图:全屏画面展示整体环境,局部特写聚焦关键控件,“操作前”与“操作后”的对比图则清晰呈现了变化过程。这好比攻略上不仅有地标全景照,还有细节特写,甚至包含了昼夜景观的对比。
需要强调的是,这些参考图并非让AI照搬坐标点击的模板,而是帮助其识别和定位的视觉线索。AI最终的每一个具体操作决策,仍需基于对真实屏幕的实时分析。
三、从公开操作录像中自动化提炼技能
那么,这些精美的“图文攻略”从何而来?研究团队设计了一套自动化流程,能够从公开的电脑操作录像中“提炼”出技能包。整个过程宛如五道精密工序。
首先是分类整理。系统将海量操作录像按任务相似性进行聚类,就像把食材按菜系分门别类。例如,所有与浏览器相关的操作归为一类,所有与表格软件相关的归为另一类。
其次是规划技能蓝图。在每一类任务中,一个AI“规划师”会浏览这些录像,识别出反复出现的有用动作模式,并初步规划出一份份技能蓝图,界定每个技能的起止边界和完成条件。
接着是合并去重。同一个技能可能在不同录像中以略微不同的形式出现,系统会将这些相似的蓝图合并,同时剔除那些过于宽泛、几乎适用于任何任务的“万金油”技能。
然后是撰写文字稿。系统先不参考任何图片,仅依据文本信息撰写每个技能的描述、操作步骤和状态卡片的初稿。这类似于作者先完成小说大纲,再考虑配图。
最后才是配图与审核。此时,系统才会去查看相关的屏幕截图,精心挑选那些真正具有诊断价值的画面——通常是标志关键状态转变、需要视觉验证的时刻——并将它们匹配到对应的状态卡片旁。配图原则极其克制:只有在文字确实无法说清时才添加图片,绝不为了堆砌而堆砌。
这套流程有一个关键特点:所有用于提炼技能的录像数据,都与后续测试任务完全分离。这确保了技能包并非通过“考前漏题”获得,而是从无关数据中提炼出的、真正具备可迁移性的通用经验。
四、技能调用中的智能“分身”机制
制作出优质的技能包只是第一步,如何让AI在实际工作中高效、准确地运用它们,是另一个挑战。
最直观的做法是将整个技能包直接塞给AI,让它边看边做。但研究发现,这会引发一系列问题。技能包通常包含多张状态卡片和参考截图,全部加载会导致AI的“工作记忆”过载。更麻烦的是,AI很容易被参考截图“带偏”——它会执着于参考图中某个按钮的历史位置,而非关注当前屏幕的实际情况,就像拿着过时的地图开车,对路况变化视而不见。
对此,研究团队想出了一个巧妙的办法,称之为“分支加载”。可以将其理解为AI的智能“分身术”:当主AI在工作中遇到需要参考技能的时刻,它不会亲自去翻阅整本手册,而是召唤一个临时的“分身助手”专门处理此事。
这个分身助手分两步工作。第一步,它先快速扫描当前屏幕和近期操作历史,判断是否需要参考图片,以及具体需要哪几张。如果认为文字说明已足够,就不调取任何图片;若需要看图,则只挑选最相关的几张。第二步,分身将挑选出的参考图与文字状态卡片结合,仔细对照当前屏幕,最终向主AI回传一份精炼的“决策建议”——告知该技能是否适用、下一个子目标是什么、具体行动计划、有哪些潜在陷阱以及完成后如何验证。
主AI收到建议后,将其作为重要参考,但最终的具体操作决策,仍基于眼前真实的屏幕信息做出。这样,AI既享受了技能包提供的智慧指引,又避免了被静态参考资料束缚手脚,实现了动态的视觉对齐。
五、多场景实战检验:从办公到游戏
为了全面检验MMSkills框架的通用性和效果,研究团队选择了四个差异显著的测试场景进行评测。
OSWorld是主战场,包含360个真实的Ubuntu桌面操作任务,覆盖浏览器、办公软件、图像处理等十大类应用。macOSWorld则将战场移至苹果系统,包含143个任务。VAB-Minecraft把测试拉进《我的世界》游戏,让AI完成各种制作任务。Super Mario Bros则更进一步,让AI挑战经典的超级马里奥游戏。
测试结果令人鼓舞。在OSWorld这个最严格的测试平台上,所有被评估的AI模型在引入MMSkills后,表现均有显著提升。表现最强的Gemini 3.1 Pro,任务成功率从44.08%提升至50.11%;Gemini 3 Flash则从36.65%跃升至47.97%。提升最为显著的是阿里通义千问的Qwen3-VL-235B模型,其成功率从21.34%几乎翻倍,达到39.17%。而对于较小的Qwen3-VL-8B-Instruct模型,提升幅度更为惊人——从仅10.78%飙升至25.40%。这个现象很有意思:能力相对较弱的AI,从外部视觉指导中获得的帮助反而更大,恰如新手厨师比经验丰富的大厨更需要详细的图文食谱。
值得注意的是,纯文字版本的技能在某些场景下也有帮助,但效果远不如完整的多模态版本稳定,有时甚至在特定应用上会出现性能倒退。这印证了研究团队的判断:当任务高度依赖视觉状态判断时,仅有文字描述是远远不够的,必须结合视觉证据。
跳出桌面环境,效果同样亮眼。在macOSWorld上,使用MMSkills的Gemini 3 Flash将整体成功率从55.94%提升到65.73%。在《我的世界》游戏中,所有模型的成功率和平均得分均得到提升。在超级马里奥关卡里,AI的总体表现分和获得奖励数也显著上涨。这表明,这套技能框架并非只适用于特定电脑环境,而是能帮助AI在各种需要“视觉推理”和“图形界面操作”的场景中表现得更好。
六、框架组件消融实验:拆解核心价值
为了厘清MMSkills框架中哪些设计真正发挥了关键作用,研究团队进行了一系列消融实验,就像拆开精密仪器观察每个齿轮的功能。
尝试移除技能包中的“状态卡片”,只保留文字流程和图片,结果性能明显下降——状态卡片在判断“此时是否该使用此技能”上扮演着关键角色。接着,尝试保留状态卡片但移除图片,性能同样下滑——图片对于在屏幕上定位关键元素不可或缺。这两项实验共同证明,文字流程、状态卡片和视觉证据三者如同三足鼎立,缺一不可,共同构成了多模态技能的核心。
关于“分支加载”使用方式的实验更有意思。如果将整个技能包直接塞给AI,其性能反而比完全不使用技能还要差——信息过载把AI“撑着了”。即使配备了视图筛选机制但仍直接加载,效果也只是回归基线水平。只有当采用完整的两步分支机制——先筛选、再分析、最后回传建议——才能取得最佳效果。这证明了智能调用机制的重要性。
七、AI行为模式的深度转变
除了成功率的表面数字,研究团队还深入分析了使用MMSkills后AI“行为模式”的转变,发现了一些深刻的变化。
首先是技能调用频率的提升。配备多模态技能后,AI更倾向于主动参考技能。在Qwen3-VL-235B模型上,OSWorld任务中调用技能的比例从37.50%大幅上升至65.28%。这说明多模态技能不仅更好用,AI也更容易识别出“此时适用此技能”的时机,人机交互的主动性增强。
其次是任务完成步骤的减少。文字技能有时反而会让AI多走弯路,而多模态技能在每一个测试场景中都显著缩短了平均操作步数。Qwen3-VL-235B在OSWorld上的平均步数从15.22步降至9.87步,减少了超过三分之一。这意味着AI找到了更高效的解题路径,不再像无头苍蝇般盲目尝试,执行效率大幅提升。
第三个发现关乎视觉证据的选择。分支助手并非加载所有图片,而是表现出明显偏好——在四个测试场景中的三个里,“局部特写”是被选用最多的视图类型。这符合直觉:大多数时候,AI需要的是“那个按钮在哪里”这类局部定位信息,只有在需要理解整体布局或验证全局变化时,才需要全屏或前后对比图。
更深入的行为分析揭示了一些根本性变化。使用MMSkills后,AI执行的低级操作总数明显减少。以Qwen3-VL-235B为例,它原本75.8%的动作都是点击,使用技能后这个比例下降至63.7%,而键盘输入和“完成”动作的比例相应上升。这表明AI从盲目点击的模式,转向了更有条理的输入和更明确的完成判断,行为更具目的性。
重复无效操作也大幅减少。同一个模型,原本21.8%的动作是重复操作,使用MMSkills后这一比例骤降至6.2%。AI不再陷入“反复点击同一位置却毫无进展”的尴尬循环。同时,“完成”动作的使用频率上升,说明AI更清楚地知道任务何时才算真正结束——这得益于状态卡片中提供的明确验证线索。
八、真实任务案例现场解析
研究团队展示了两个具体任务案例,以清晰说明MMSkills的实际工作流程。
第一个案例是在表格软件中创建销售汇总表。任务要求创建一个名为Sheet2的新工作表,并填入月份和总计两列数据。AI首先意识到当前位于Sheet1,需要先创建新工作表,于是召唤分支助手参考“工作表管理”技能。分身助手挑选了几张关于工作表切换的局部特写图,对照当前屏幕后建议主AI:“先创建Sheet2,不要在Sheet1上直接输入数据”。主AI随即创建新工作表并输入表头及月份。当需要填入总计公式时,AI又召唤了第二个技能——“公式与函数”,这次分支助手判断无需参考图片,直接给出了文字指导。最终,AI成功使用SUM公式从Sheet1引用数据,全程仅用8步动作,高效准确。
第二个案例发生在终端命令行中,任务是将30天前的旧文件压缩到一个文件夹,并将新文件移至另一个文件夹。AI最初尝试的find命令在终端输入时出现了语法问题。意识到不对劲后,AI召唤“文件夹管理”技能,分支助手判断终端任务无需看图,直接用文字建议“使用更稳健的命令格式”。AI修正命令后成功完成了文件移动。随后在需要压缩归档时,AI又调用了不同的“归档压缩”技能,最终顺利完成任务并验证了结果。
这两个案例生动展示了MMSkills的智能工作流:AI在不同阶段调用不同的技能,分支助手智能判断是否需要图片证据,最终AI综合所有信息做出决策,实现了动态的、上下文感知的任务执行。
九、与现有方法的对比分析
在AI助手与智能体领域,“技能”的概念并非全新。早期研究主要将技能表达为文字提示或可执行代码,例如让AI学会“打开网页搜索”这类原子操作。后来出现了更精细的方法,有的将技能存储为可调用的API函数,有的构建技能执行图,有的让多个AI智能体协作进化出共享技能库。
与本研究最接近的几项工作各有侧重。Mirage-1引入了层次化的多模态技能用于图形界面控制,XSkill从视觉化操作经验中持续提取技能,CUA-Skill将计算机操作技能表达为带参数的过程和执行图。MMSkills与这些工作的关键区别在于:它围绕“运行时状态卡片”和“多视角视觉证据”来组织技能,并通过“分支加载”机制,将选中的证据与当前屏幕实时对齐后再指导主AI行动。换言之,它不仅关注“动作怎么做”,更强调“什么时候做、看到什么才做、做完怎么验证”,实现了技能与视觉上下文的深度绑定。
十、意义、应用与未来展望
归根结底,这项研究瞄准的是一个非常实际的目标:让AI助手在帮助人们操作电脑、玩游戏或处理各种视觉任务时,变得更加可靠、智能,更少犯那些依赖纯文本指令时常见的“低级错误”。
从日常生活与工作效率层面看,这意味着未来的AI助手或许真能帮你完成那些繁琐且需要“视觉判断”的复杂工作——如整理复杂表格、进行图像编辑、智能安排日程、甚至辅助通关游戏关卡。它们不会因为找不到按钮而反复乱点,不会因识别不出弹窗状态而傻等,也不会在任务做到一半时还不确定是否完成,真正成为得力的数字助手。
对于AI研究者与开发者而言,这项工作提供了一个新视角:AI智能体可重复使用的经验,不应仅仅是文字说明书或代码模板,而应该是与视觉证据紧密绑定的“图文操作指南”。这种思路打破了过往技能体系过度依赖文本的局限,为构建更强大的多模态AI系统指明了方向。
当然,研究团队也坦诚指出了当前方法的局限。这套方法依赖于源数据的覆盖范围——如果某类任务在公开数据中很少出现,提炼出的技能就可能不够完善。技能生成过程和视觉定位也可能出错。分支加载机制虽然提升了准确性,但也增加了一定的推理计算成本。要将此方法推广至更广泛的具身AI或安全敏感场景,还需要更强的验证机制和在线修复能力。
说到底,这项研究揭示了一个朴素却关键的道理:要让AI真正学会“看着办”,仅提供文字说明是远远不够的。就像教孩子做菜,光给菜谱不行,还得让他看着师傅操作、观察锅中食材的颜色变化、知道什么状态才算炒好了。AI的进步,或许就藏在这些看似细微、实则至关重要的“图文配合”与“视觉对齐”之中。MMSkills框架为AI理解并操作图形界面世界,迈出了坚实的一步。
Q&A
Q1:MMSkills和传统的AI技能包有什么区别?
传统AI技能包主要用文字或代码描述操作步骤,好比纯文字菜谱。而MMSkills是图文结合的智能技能包,除了文字流程,还包含核心的“状态卡片”和多视角参考截图。状态卡片明确告诉AI何时该用此技能、何时不适用、以及看到何种画面才算做对。这让AI不仅知道做什么,还知道该看什么、如何判断进度与成功,实现了从“盲操作”到“视觉引导操作”的跨越。
Q2:分支加载机制是怎么工作的?
当AI在执行任务中遇到需要参考技能的情况时,它不会亲自翻阅整本技能手册,而是召唤一个“临时分身”专门处理。这个分身先智能判断是否需要看图、看哪些图,然后将挑选的参考图与当前屏幕进行实时比对,最后向主AI回传一份精炼建议——告知技能是否适用、下一步做什么、需避开哪些陷阱。这样既获得了技能帮助,又避免了被过时或无关的参考图误导,确保了决策基于当前视觉上下文。
Q3:MMSkills实际效果如何?性能提升明显吗?
在OSWorld桌面任务测试中,所有被测试的AI模型表现均有显著提升。例如,Qwen3-VL-235B的成功率从21.34%几乎翻倍至39.17%;较小的Qwen3-VL-8B模型则从10.78%提升至25.40%。在《我的世界》和超级马里奥游戏测试中也有显著提升。AI不仅成功率更高,完成任务所需的步骤也更少,重复无效操作大幅减少,行为模式更加高效和确定。
相关攻略
上海交通大学等机构提出MMSkills框架,使AI助手能结合视觉信息执行任务。该框架整合操作流程、状态卡片与多视角参考图,形成可迁移的多模态技能包,并通过分支加载机制智能调用技能、实时对齐屏幕。实验显示,该方法可显著提升AI在办公、游戏等视觉任务中的成功率和效率,减少无效操作。
在大模型技术浪潮席卷全球的今天,如果您的企业仍将人工智能局限于“智能聊天”或“文案生成”的层面,可能已经错失了技术演进的关键窗口。真正的产业变革拐点已然降临。当领先企业开始部署能够自主决策、协同工作的“数字员工”团队时,许多组织仍在探索AI与核心业务场景深度融合的有效路径。 为此,一场由上海交通大学
近日,上海交通大学国家电投智慧能源创新学院发生的一起学生纠纷,在校园内外引发广泛关注。事件焦点集中在学科竞赛奖金的分配争议上,其中涉及的不诚信行为,使此事超越了普通的学生矛盾范畴。 据了解,涉事学生樊某曾与同学组队参加首届全国“AI+能源”大学生科技创新竞赛,团队表现优异,最终荣获赛事二等奖。按照常
在人工智能领域,大型语言模型的价值日益凸显,其训练过程往往耗费数百万美元与海量计算资源。然而,在多方协作的联邦学习场景中,一个核心安全风险在于:参与训练的合作伙伴可能私自复制并泄露最终模型,造成知识产权与商业利益的重大损失。这如同商业伙伴共同研发核心技术后,有人却暗中复制并出售给竞争对手。 近期,一
4月5日消息,据“上海交通大学”公众号消息,日前,米哈游联合创始人、总裁、董事长、上海交通大学2005级信息工程专业本科、2009级通信与信息系统专业硕士校友刘伟,代表米哈游创始团队蔡浩宇、罗宇皓,
热门专题
热门推荐
《七日世界》新增两种原生变异体。拟态树潜伏于密林,外观与树木无异,会释放星尘辐射引发幻觉,需通过特定交互逻辑定位并摧毁。海兔出没于深海,被惊扰后会咬合注入神经毒素,导致运动方向颠倒,可通过上岸、加热或队友协助解除。两者分别考验环境观察与即时应对能力,提升了探索挑战。
草籽是《禁闭求生2》中的关键资源,可通过多种途径获取。主要分布在开阔草地、低矮灌木丛、建筑残骸周围、农田边缘及潮湿水域附近,仔细搜寻即可发现。也可通过破坏特定植物或完成游戏任务直接获得。多观察环境并尝试不同方法,能有效建立稳定的草籽供应。
在《红色沙漠》中,获取神音残响弓箭需综合探索与互动。玩家需在神秘遗迹中解谜并收集碎片,完成特定支线任务或从隐秘商店购买,同时留意NPC对话以获取线索。结合这些途径耐心尝试,方能获得该武器。
炎鸿铸剑任务需先找到神秘人物炎鸿触发。任务要求玩家探索江湖,收集深藏矿洞的稀有矿石与隐秘山谷的特殊草药,或从高价商人处购得。随后需寻访隐居的铸剑工匠,按其要求全程参与铸剑,精准控制火候与步骤,应对突发状况。最终铸成的宝剑属性强大,是玩家冒险心血的结晶。
为确保安全访问,用户应通过官方渠道获取币安平台最新网址。警惕非官方链接,直接使用官方应用或验证过的入口可有效防范风险。定期关注官方公告是获取准确地址的可靠方式。





