上海交大突破AI视觉技术让智能助手实现看图办事

时间：2026-05-24 16:07

上海交通大学等机构提出MMSkills框架，使AI助手能结合视觉信息执行任务。该框架整合操作流程、状态卡片与多视角参考图，形成可迁移的多模态技能包，并通过分支加载机制智能调用技能、实时对齐屏幕。实验显示，该方法可显著提升AI在办公、游戏等视觉任务中的成功率和效率，减少无效操作。

我们每天使用电脑时，一项看似简单的能力至关重要：扫一眼屏幕，就能立刻明白该点击哪里、下一步做什么、以及操作是否成功。这种“所见即所得”的视觉理解能力，对人类而言轻而易举，但对于旨在模仿人类行为的AI助手来说，却是一道难以逾越的鸿沟。

近期，一项由上海交通大学、小红书与东南大学联合开展的研究，为弥合这一差距提供了创新方案。研究团队提出了名为“MMSkills”的全新框架，旨在教会AI如何像人类一样，结合视觉信息来理解和执行复杂任务。这项研究成果已发表在arXiv预印本平台（论文编号：arXiv:2605.13527v2）。

要理解这项研究的价值，需从一个普遍痛点入手。当前，许多AI助手已具备预设的“技能”，可以将其想象为贴在墙上的纯文字菜谱。对于“煮泡面”这类步骤固定的任务，文字菜谱足够。但面对“判断牛排熟度”这种需要观察色泽、油花等视觉线索的复杂任务，仅靠文字描述就力不从心了。AI在操作图形用户界面（GUI）时，正面临后一种困境——它可能“知道”要点击保存，却“认不出”屏幕上哪个是保存按钮，或无法判断弹窗是否加载完毕。

研究团队深刻认识到，对于需要在视觉环境中“看图操作”的AI，一份纯文字说明书是远远不够的。必须为它打造一份“图文并茂的智能操作指南”，不仅要阐明动作步骤，更要明确指出需要关注哪些视觉特征、如何评估任务进度、以及怎样确认操作成功。

一、纯文字指令在视觉任务中的局限

设想一个常见场景：你指示AI在电子表格软件中创建一个图表，要求放置在第二个工作表，并将标题命名为“销售与成本分析”。听起来简单，但传统的AI助手极易在此出错。

如果完全不给指导，AI可能直接在当前打开的第一个工作表上绘制图表——位置完全错误。如果提供一份纯文字步骤说明，如“打开图表向导，选择柱状图……”，AI会机械执行，但仍不清楚自己在哪个工作表操作，结果依然错误。

然而，如果提供的是一份附带截图的操作指南，情况将截然不同。指南中除了步骤，还包含关键节点的屏幕截图，提示AI“看到这个界面时执行此操作”、“操作完成后屏幕应呈现此状态”。AI手持这份指南，对照实时屏幕，就能理解：需要先将图表剪切，切换到第二个工作表粘贴，最后还需检查标题是否正确。任务因此得以顺利完成。

这个例子揭示的核心问题是：如何将这种依赖视觉判断的“隐性经验”，封装成可重复使用、可迁移的“标准化知识包”？

二、多模态技能包的核心构成

研究团队设计的MMSkills多模态技能包，类似于一份精心编排的智能旅行攻略，由几个有机融合的部分构成。

最基础的部分是一段文字描述的操作流程，相当于攻略中的路线说明。它勾勒出技能的骨架，告知AI每个步骤应执行什么操作。

但仅有路线不够，攻略中还需有明确的“路标”。这就是该研究的关键创新之一——“状态卡片”。每张卡片记录了多项关键信息：该技能适用的前提条件、不适用的场景、当前应关注屏幕的哪些视觉特征、如何验证操作已达正确状态，以及可选的参考画面。简言之，状态卡片如同在告诉游客：“当你看到左前方那家悬挂红灯笼的餐馆，说明已抵达老城区入口，此时应右转；但如果看到的是连锁咖啡店，则说明方向有误。”

再往上一层，是关键画面的图像集合。每个重要状态都配有多张不同视角的参考图：全屏画面展示整体环境，局部特写聚焦关键控件，“操作前”与“操作后”的对比图则清晰呈现了变化过程。这好比攻略上不仅有地标全景照，还有细节特写，甚至包含了昼夜景观的对比。

需要强调的是，这些参考图并非让AI照搬坐标点击的模板，而是帮助其识别和定位的视觉线索。AI最终的每一个具体操作决策，仍需基于对真实屏幕的实时分析。

三、从公开操作录像中自动化提炼技能

那么，这些精美的“图文攻略”从何而来？研究团队设计了一套自动化流程，能够从公开的电脑操作录像中“提炼”出技能包。整个过程宛如五道精密工序。

首先是分类整理。系统将海量操作录像按任务相似性进行聚类，就像把食材按菜系分门别类。例如，所有与浏览器相关的操作归为一类，所有与表格软件相关的归为另一类。

其次是规划技能蓝图。在每一类任务中，一个AI“规划师”会浏览这些录像，识别出反复出现的有用动作模式，并初步规划出一份份技能蓝图，界定每个技能的起止边界和完成条件。

接着是合并去重。同一个技能可能在不同录像中以略微不同的形式出现，系统会将这些相似的蓝图合并，同时剔除那些过于宽泛、几乎适用于任何任务的“万金油”技能。

然后是撰写文字稿。系统先不参考任何图片，仅依据文本信息撰写每个技能的描述、操作步骤和状态卡片的初稿。这类似于作者先完成小说大纲，再考虑配图。

最后才是配图与审核。此时，系统才会去查看相关的屏幕截图，精心挑选那些真正具有诊断价值的画面——通常是标志关键状态转变、需要视觉验证的时刻——并将它们匹配到对应的状态卡片旁。配图原则极其克制：只有在文字确实无法说清时才添加图片，绝不为了堆砌而堆砌。

这套流程有一个关键特点：所有用于提炼技能的录像数据，都与后续测试任务完全分离。这确保了技能包并非通过“考前漏题”获得，而是从无关数据中提炼出的、真正具备可迁移性的通用经验。

四、技能调用中的智能“分身”机制

制作出优质的技能包只是第一步，如何让AI在实际工作中高效、准确地运用它们，是另一个挑战。

最直观的做法是将整个技能包直接塞给AI，让它边看边做。但研究发现，这会引发一系列问题。技能包通常包含多张状态卡片和参考截图，全部加载会导致AI的“工作记忆”过载。更麻烦的是，AI很容易被参考截图“带偏”——它会执着于参考图中某个按钮的历史位置，而非关注当前屏幕的实际情况，就像拿着过时的地图开车，对路况变化视而不见。

对此，研究团队想出了一个巧妙的办法，称之为“分支加载”。可以将其理解为AI的智能“分身术”：当主AI在工作中遇到需要参考技能的时刻，它不会亲自去翻阅整本手册，而是召唤一个临时的“分身助手”专门处理此事。

这个分身助手分两步工作。第一步，它先快速扫描当前屏幕和近期操作历史，判断是否需要参考图片，以及具体需要哪几张。如果认为文字说明已足够，就不调取任何图片；若需要看图，则只挑选最相关的几张。第二步，分身将挑选出的参考图与文字状态卡片结合，仔细对照当前屏幕，最终向主AI回传一份精炼的“决策建议”——告知该技能是否适用、下一个子目标是什么、具体行动计划、有哪些潜在陷阱以及完成后如何验证。

主AI收到建议后，将其作为重要参考，但最终的具体操作决策，仍基于眼前真实的屏幕信息做出。这样，AI既享受了技能包提供的智慧指引，又避免了被静态参考资料束缚手脚，实现了动态的视觉对齐。

五、多场景实战检验：从办公到游戏

为了全面检验MMSkills框架的通用性和效果，研究团队选择了四个差异显著的测试场景进行评测。

OSWorld是主战场，包含360个真实的Ubuntu桌面操作任务，覆盖浏览器、办公软件、图像处理等十大类应用。macOSWorld则将战场移至苹果系统，包含143个任务。VAB-Minecraft把测试拉进《我的世界》游戏，让AI完成各种制作任务。Super Mario Bros则更进一步，让AI挑战经典的超级马里奥游戏。

测试结果令人鼓舞。在OSWorld这个最严格的测试平台上，所有被评估的AI模型在引入MMSkills后，表现均有显著提升。表现最强的Gemini 3.1 Pro，任务成功率从44.08%提升至50.11%；Gemini 3 Flash则从36.65%跃升至47.97%。提升最为显著的是阿里通义千问的Qwen3-VL-235B模型，其成功率从21.34%几乎翻倍，达到39.17%。而对于较小的Qwen3-VL-8B-Instruct模型，提升幅度更为惊人——从仅10.78%飙升至25.40%。这个现象很有意思：能力相对较弱的AI，从外部视觉指导中获得的帮助反而更大，恰如新手厨师比经验丰富的大厨更需要详细的图文食谱。

值得注意的是，纯文字版本的技能在某些场景下也有帮助，但效果远不如完整的多模态版本稳定，有时甚至在特定应用上会出现性能倒退。这印证了研究团队的判断：当任务高度依赖视觉状态判断时，仅有文字描述是远远不够的，必须结合视觉证据。

跳出桌面环境，效果同样亮眼。在macOSWorld上，使用MMSkills的Gemini 3 Flash将整体成功率从55.94%提升到65.73%。在《我的世界》游戏中，所有模型的成功率和平均得分均得到提升。在超级马里奥关卡里，AI的总体表现分和获得奖励数也显著上涨。这表明，这套技能框架并非只适用于特定电脑环境，而是能帮助AI在各种需要“视觉推理”和“图形界面操作”的场景中表现得更好。

六、框架组件消融实验：拆解核心价值

为了厘清MMSkills框架中哪些设计真正发挥了关键作用，研究团队进行了一系列消融实验，就像拆开精密仪器观察每个齿轮的功能。

尝试移除技能包中的“状态卡片”，只保留文字流程和图片，结果性能明显下降——状态卡片在判断“此时是否该使用此技能”上扮演着关键角色。接着，尝试保留状态卡片但移除图片，性能同样下滑——图片对于在屏幕上定位关键元素不可或缺。这两项实验共同证明，文字流程、状态卡片和视觉证据三者如同三足鼎立，缺一不可，共同构成了多模态技能的核心。

关于“分支加载”使用方式的实验更有意思。如果将整个技能包直接塞给AI，其性能反而比完全不使用技能还要差——信息过载把AI“撑着了”。即使配备了视图筛选机制但仍直接加载，效果也只是回归基线水平。只有当采用完整的两步分支机制——先筛选、再分析、最后回传建议——才能取得最佳效果。这证明了智能调用机制的重要性。

七、AI行为模式的深度转变

除了成功率的表面数字，研究团队还深入分析了使用MMSkills后AI“行为模式”的转变，发现了一些深刻的变化。

首先是技能调用频率的提升。配备多模态技能后，AI更倾向于主动参考技能。在Qwen3-VL-235B模型上，OSWorld任务中调用技能的比例从37.50%大幅上升至65.28%。这说明多模态技能不仅更好用，AI也更容易识别出“此时适用此技能”的时机，人机交互的主动性增强。

其次是任务完成步骤的减少。文字技能有时反而会让AI多走弯路，而多模态技能在每一个测试场景中都显著缩短了平均操作步数。Qwen3-VL-235B在OSWorld上的平均步数从15.22步降至9.87步，减少了超过三分之一。这意味着AI找到了更高效的解题路径，不再像无头苍蝇般盲目尝试，执行效率大幅提升。

第三个发现关乎视觉证据的选择。分支助手并非加载所有图片，而是表现出明显偏好——在四个测试场景中的三个里，“局部特写”是被选用最多的视图类型。这符合直觉：大多数时候，AI需要的是“那个按钮在哪里”这类局部定位信息，只有在需要理解整体布局或验证全局变化时，才需要全屏或前后对比图。

更深入的行为分析揭示了一些根本性变化。使用MMSkills后，AI执行的低级操作总数明显减少。以Qwen3-VL-235B为例，它原本75.8%的动作都是点击，使用技能后这个比例下降至63.7%，而键盘输入和“完成”动作的比例相应上升。这表明AI从盲目点击的模式，转向了更有条理的输入和更明确的完成判断，行为更具目的性。

重复无效操作也大幅减少。同一个模型，原本21.8%的动作是重复操作，使用MMSkills后这一比例骤降至6.2%。AI不再陷入“反复点击同一位置却毫无进展”的尴尬循环。同时，“完成”动作的使用频率上升，说明AI更清楚地知道任务何时才算真正结束——这得益于状态卡片中提供的明确验证线索。

八、真实任务案例现场解析

研究团队展示了两个具体任务案例，以清晰说明MMSkills的实际工作流程。

第一个案例是在表格软件中创建销售汇总表。任务要求创建一个名为Sheet2的新工作表，并填入月份和总计两列数据。AI首先意识到当前位于Sheet1，需要先创建新工作表，于是召唤分支助手参考“工作表管理”技能。分身助手挑选了几张关于工作表切换的局部特写图，对照当前屏幕后建议主AI：“先创建Sheet2，不要在Sheet1上直接输入数据”。主AI随即创建新工作表并输入表头及月份。当需要填入总计公式时，AI又召唤了第二个技能——“公式与函数”，这次分支助手判断无需参考图片，直接给出了文字指导。最终，AI成功使用SUM公式从Sheet1引用数据，全程仅用8步动作，高效准确。

第二个案例发生在终端命令行中，任务是将30天前的旧文件压缩到一个文件夹，并将新文件移至另一个文件夹。AI最初尝试的find命令在终端输入时出现了语法问题。意识到不对劲后，AI召唤“文件夹管理”技能，分支助手判断终端任务无需看图，直接用文字建议“使用更稳健的命令格式”。AI修正命令后成功完成了文件移动。随后在需要压缩归档时，AI又调用了不同的“归档压缩”技能，最终顺利完成任务并验证了结果。

这两个案例生动展示了MMSkills的智能工作流：AI在不同阶段调用不同的技能，分支助手智能判断是否需要图片证据，最终AI综合所有信息做出决策，实现了动态的、上下文感知的任务执行。

九、与现有方法的对比分析

在AI助手与智能体领域，“技能”的概念并非全新。早期研究主要将技能表达为文字提示或可执行代码，例如让AI学会“打开网页搜索”这类原子操作。后来出现了更精细的方法，有的将技能存储为可调用的API函数，有的构建技能执行图，有的让多个AI智能体协作进化出共享技能库。

与本研究最接近的几项工作各有侧重。Mirage-1引入了层次化的多模态技能用于图形界面控制，XSkill从视觉化操作经验中持续提取技能，CUA-Skill将计算机操作技能表达为带参数的过程和执行图。MMSkills与这些工作的关键区别在于：它围绕“运行时状态卡片”和“多视角视觉证据”来组织技能，并通过“分支加载”机制，将选中的证据与当前屏幕实时对齐后再指导主AI行动。换言之，它不仅关注“动作怎么做”，更强调“什么时候做、看到什么才做、做完怎么验证”，实现了技能与视觉上下文的深度绑定。

十、意义、应用与未来展望

归根结底，这项研究瞄准的是一个非常实际的目标：让AI助手在帮助人们操作电脑、玩游戏或处理各种视觉任务时，变得更加可靠、智能，更少犯那些依赖纯文本指令时常见的“低级错误”。

从日常生活与工作效率层面看，这意味着未来的AI助手或许真能帮你完成那些繁琐且需要“视觉判断”的复杂工作——如整理复杂表格、进行图像编辑、智能安排日程、甚至辅助通关游戏关卡。它们不会因为找不到按钮而反复乱点，不会因识别不出弹窗状态而傻等，也不会在任务做到一半时还不确定是否完成，真正成为得力的数字助手。

对于AI研究者与开发者而言，这项工作提供了一个新视角：AI智能体可重复使用的经验，不应仅仅是文字说明书或代码模板，而应该是与视觉证据紧密绑定的“图文操作指南”。这种思路打破了过往技能体系过度依赖文本的局限，为构建更强大的多模态AI系统指明了方向。

当然，研究团队也坦诚指出了当前方法的局限。这套方法依赖于源数据的覆盖范围——如果某类任务在公开数据中很少出现，提炼出的技能就可能不够完善。技能生成过程和视觉定位也可能出错。分支加载机制虽然提升了准确性，但也增加了一定的推理计算成本。要将此方法推广至更广泛的具身AI或安全敏感场景，还需要更强的验证机制和在线修复能力。

说到底，这项研究揭示了一个朴素却关键的道理：要让AI真正学会“看着办”，仅提供文字说明是远远不够的。就像教孩子做菜，光给菜谱不行，还得让他看着师傅操作、观察锅中食材的颜色变化、知道什么状态才算炒好了。AI的进步，或许就藏在这些看似细微、实则至关重要的“图文配合”与“视觉对齐”之中。MMSkills框架为AI理解并操作图形界面世界，迈出了坚实的一步。

Q&A

Q1：MMSkills和传统的AI技能包有什么区别？

传统AI技能包主要用文字或代码描述操作步骤，好比纯文字菜谱。而MMSkills是图文结合的智能技能包，除了文字流程，还包含核心的“状态卡片”和多视角参考截图。状态卡片明确告诉AI何时该用此技能、何时不适用、以及看到何种画面才算做对。这让AI不仅知道做什么，还知道该看什么、如何判断进度与成功，实现了从“盲操作”到“视觉引导操作”的跨越。

Q2：分支加载机制是怎么工作的？

当AI在执行任务中遇到需要参考技能的情况时，它不会亲自翻阅整本技能手册，而是召唤一个“临时分身”专门处理。这个分身先智能判断是否需要看图、看哪些图，然后将挑选的参考图与当前屏幕进行实时比对，最后向主AI回传一份精炼建议——告知技能是否适用、下一步做什么、需避开哪些陷阱。这样既获得了技能帮助，又避免了被过时或无关的参考图误导，确保了决策基于当前视觉上下文。

Q3：MMSkills实际效果如何？性能提升明显吗？

在OSWorld桌面任务测试中，所有被测试的AI模型表现均有显著提升。例如，Qwen3-VL-235B的成功率从21.34%几乎翻倍至39.17%；较小的Qwen3-VL-8B模型则从10.78%提升至25.40%。在《我的世界》和超级马里奥游戏测试中也有显著提升。AI不仅成功率更高，完成任务所需的步骤也更少，重复无效操作大幅减少，行为模式更加高效和确定。

来源：https://www.163.com/dy/article/KTIJJMUR0511DTVV.html

上海交大

上一篇三星电子研发250TB超大容量近线固态硬盘技术解析 下一篇小米印度智能电视价格调整部分型号最高上涨1000卢比

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。