上海交大团队突破AI视觉技能包让智能助手实现看图办事

首页

AI资讯

热心网友

转载

2026-05-24

我们每天使用电脑时，许多操作几乎成为本能——比如在表格中插入图表，扫一眼屏幕就知道该点哪里、下一步做什么、结果是否正确。然而，对于人工智能而言，这种基于视觉观察的“看着办”能力，长期以来都是一个巨大的挑战。

当智能助手学会

近期，一项由上海交通大学联合小红书与东南大学共同完成的研究，为AI补上了这块关键的能力短板。研究团队提出了一套名为“MMSkills”的创新框架，旨在教会AI助手像人类一样，结合视觉信息来理解和执行任务。这项研究成果已于2026年5月发表在权威预印本平台arXiv上。

要理解这项研究的突破性，需要从当前AI助手普遍面临的困境说起。目前，许多AI助手已具备一些预设的“技能”，可以将其类比为贴在厨房墙上的文字菜谱。问题在于，这些“菜谱”全是纯文本的。煮一碗泡面或许够用，但遇到“判断牛排几分熟”这类需要观察肉质颜色、油花分布和肉汁状态的复杂任务时，仅靠文字描述就完全无能为力了。AI在操作图形用户界面（GUI）时，正面临同样的困境：它可能“知道”需要点击保存按钮，却无法“识别”屏幕上哪个是保存按钮，或者无法判断一个弹窗是否已经加载完成。

研究团队深刻认识到，对于需要在视觉环境中工作的AI，仅仅提供文字说明书是远远不够的。必须为它准备一份“图文并茂的视觉操作手册”。这份手册不仅要指导AI“做什么”，更要明确告诉它“看什么”、“何时做”以及“如何验证结果”。

一、纯文本指令在视觉任务中的局限性

设想一个典型场景：要求AI在电子表格软件中创建一个图表，并将其放置在第二个工作表，同时将图表标题命名为“销售与成本分析”。听起来指令明确，但传统的AI助手极易出错。

如果完全不提供指导，AI可能会直接在当前打开的第一个工作表上绘制图表——位置错误。如果只提供一份纯文字步骤列表，AI会机械执行，但仍然无法感知自己处于哪个工作表，结果依然错误。但如果AI获得一份附带屏幕截图的多模态操作指南，情况将截然不同。指南在关键步骤附上参考截图，明确指示AI“当界面呈现此状态时应执行此操作”、“操作完成后屏幕应呈现如下样貌”。AI通过比对当前屏幕与参考图像，就能准确理解：需要先将图表剪切，切换到第二个工作表粘贴，最后还需检查标题是否正确。任务得以顺利完成。

这个例子揭示的核心问题是：如何将人类依赖视觉的直觉判断能力，转化为AI可以标准化调用和理解的、可复用的知识包。

二、多模态技能包的核心构成

研究团队设计的“多模态技能包”（MMSkills），犹如一份精心编排的图文旅行攻略，由多个有机部分融合而成。

其基础是文字描述的操作流程，相当于攻略中的路线说明，构成了技能包的逻辑骨架。

但骨架之上，必须填充血肉——这就是创新的“状态卡片”。每张卡片就像一个关键路标，清晰定义了：该技能在何种视觉状态下适用（或禁用）、当前应关注屏幕上的哪些关键视觉元素、如何验证操作是否成功、以及有哪些可选的参考画面。它就像在告诉游客：“当你看到左侧悬挂红灯笼的餐馆，说明已抵达老城区入口，此时应右转；但如果看到的是连锁咖啡店，则说明走错了方向。”

再往上，是关键状态的视觉证据集合。每个重要操作状态都配有多张参考图像：全景图展示整体界面环境，局部特写聚焦于关键交互控件（如按钮、输入框），“操作前”与“操作后”的对比图则清晰展示了界面状态的变化。这些图像并非让AI照搬坐标去点击的模板，而是帮助其识别和定位目标的视觉线索。AI的每一个具体操作指令，最终仍需基于对实时屏幕内容的分析来生成。

三、从公开操作录像中自动化提炼技能

那么，这些精美的“图文攻略”从何而来？研究团队设计了一套自动化流程，能够从公开的计算机操作录像中“蒸馏”出结构化的技能包，整个过程分为五个关键步骤。

第一步是聚类整理。系统将海量的操作录像按照任务相似性进行聚类，好比将食材按不同菜系分门别类。

第二步是规划技能蓝图。在每个任务类别中，一个AI“规划师”会浏览相关录像，识别出反复出现的、有效的操作模式，并初步勾勒出技能蓝图，界定每个技能的边界和完成条件。

第三步是合并与去重。将不同录像中识别出的相似技能蓝图进行合并，同时剔除那些过于宽泛、缺乏具体指导意义的“万能”技能。

第四步是生成文本描述。系统首先仅依据文本信息（如操作日志、界面元素描述），撰写每个技能的描述、步骤和状态卡片的初稿，这类似于先完成小说大纲再配插图。

最后一步是匹配视觉证据与审核。系统会检索相关的屏幕截图，挑选那些真正具有诊断价值的关键画面——通常是标志状态转变或需要视觉验证的关键时刻——将它们精准匹配到对应的状态卡片旁。配图原则极其克制：只在文字无法清晰描述视觉状态时才配图，绝不堆砌无关的截图。

这套流程的关键优势在于，用于提炼技能的源录像数据与后续测试任务完全无关，确保了技能包是从广泛经验中提炼出的、真正具备可迁移性的通用知识，而非针对特定测试的“应试技巧”。

四、技能调用时的智能“分身”机制

制作好技能包后，如何让AI在实际任务中高效、准确地使用，是另一大挑战。最直接的方法是将整个技能包一次性输入给AI，让它边参考边执行。但研究发现这会带来问题：过多的状态卡片和参考图像会挤占AI有限的“工作记忆”（上下文窗口）；更严重的是，AI容易过度依赖静态的参考图，而忽略当前屏幕的实际状况，好比拿着过时的地图开车却不看眼前的路况。

为此，团队设计了一个巧妙的“分支加载”机制，可以理解为AI的智能“分身术”。当主AI在执行任务过程中需要参考某个技能时，它不会亲自翻阅整本手册，而是临时召唤一个专门的“分身助手”来处理此事。

分身助手的工作分为两步：第一步，审视当前的屏幕状态和操作历史，智能判断是否需要以及需要调用哪些视觉参考。如果纯文字说明已足够，则不调用图片；若需要视觉辅助，则只筛选最相关的几张关键图像。第二步，分身助手将精选出的参考图与文字状态卡片一同与当前屏幕进行仔细比对分析，最终向主AI回传一份精炼的“决策建议报告”——内容包括该技能是否适用、下一步的操作目标、具体的行动计划、潜在风险以及完成验证的方式。

主AI将此建议作为重要参考，但最终生成的具体操作指令（如点击坐标、输入文本）仍基于对真实屏幕的实时分析。这样，AI既获得了技能包提供的智慧指引，又有效避免了被静态参考资料所误导。

五、多场景实战检验：从办公到游戏

为了全面验证MMSkills框架的效果，研究团队设置了四个差异巨大的测试环境。

主测试场是OSWorld基准，包含360个真实的Ubuntu桌面任务，覆盖浏览器、办公软件、终端等十类常用应用。macOSWorld则将环境切换到苹果macOS系统。VAB-Minecraft测试让AI在《我的世界》游戏中完成物品制作等任务。Super Mario Bros则进一步挑战经典的2D平台游戏《超级马里奥兄弟》。

结果令人鼓舞。在最严格的OSWorld测试中，所有参与测试的AI模型在使用MMSkills后，任务成功率均获得提升。表现最强的Gemini 3.1 Pro模型，成功率从44.08%提升至50.11%；Gemini 3 Flash模型从36.65%显著跃升至47.97%。提升最为显著的是阿里通义千问的Qwen3-VL-235B模型，成功率从21.34%几乎翻倍，达到39.17%。而参数规模较小的Qwen3-VL-8B-Instruct模型提升更为惊人，从仅10.78%飙升至25.40%。一个有趣的发现是：基础能力越弱的模型，从外部提供的多模态视觉指导中获益越大，恰如新手厨师比经验丰富的大厨更需要详细的图文食谱。

值得注意的是，纯文字版本的技能在某些场景下也有帮助，但效果远不如多模态版本稳定，甚至在部分应用上会出现性能倒退。这有力地印证了研究的核心判断：当任务高度依赖对视觉状态的判断时，仅有文字描述是远远不够的。

在其他测试场景中，效果同样显著。在macOSWorld上，使用MMSkills的Gemini 3 Flash模型将整体任务成功率从55.94%提升至65.73%。在《我的世界》和《超级马里奥兄弟》游戏中，所有测试模型的成功率或平均得分均有显著提升。这表明，该多模态技能框架能普遍增强AI在各种需要“看图办事”的复杂场景中的实际能力。

六、框架核心组件的有效性分析

为了厘清MMSkills框架中各个设计模块的具体贡献，研究团队进行了一系列“消融实验”，如同拆解一台精密仪器以观察每个齿轮的功能。

当移除技能包中的“状态卡片”，仅保留文字流程和图片时，AI的性能出现明显下降——这证明状态卡片在帮助AI判断“此时是否应该使用此技能”方面至关重要。反之，保留状态卡片但去掉所有参考图片，性能同样下滑——这表明图片对于AI在屏幕上定位目标元素不可或缺。这两项实验共同证明，文字流程、状态卡片和视觉证据三者如同鼎之三足，缺一不可，共同构成了有效的多模态技能。

关于“分支加载”使用方式的实验更有启发性。若将整个技能包直接塞给主AI，其性能反而比完全不使用技能时更差——信息过载“撑坏”了AI的推理能力。即使加入了视图筛选机制但仍直接加载全部内容，效果也仅回归到基线水平。只有采用完整的两步分支机制——先由分身助手筛选信息、再进行分析比对、最后回传精炼建议——才能取得最佳的性能提升效果。

七、AI行为模式的深刻转变

除了任务成功率的提升，研究团队还深入分析了使用MMSkills后AI“行为模式”的微观变化，发现了一些深刻的转变。

首先是技能调用频率显著上升。配备多模态技能后，AI更倾向于主动参考和调用技能。例如，Qwen3-VL-235B模型在OSWorld任务中调用技能的比例从37.50%大幅上升至65.28%。这说明多模态技能不仅更有用，也因其包含视觉线索而更容易被AI识别为“适用于当前场景”。

其次是任务执行路径的优化。纯文字技能有时会导致AI绕远路，而多模态技能在所有测试场景中都减少了AI完成任务所需的平均操作步数。Qwen3-VL-235B在OSWorld上的平均步数从15.22步降至9.87步，减少了超过三分之一。这意味着AI找到了更直接、高效的执行路径，减少了盲目尝试。

第三是关于视觉证据类型的偏好。分支助手并非盲目加载所有图片，而是表现出明显的倾向性——在四个测试场景中的三个里，“局部特写”是被选用最多的视图类型。这符合人类直觉：大多数时候，AI需要的是“按钮在哪里”、“输入框是什么样”这类局部信息，仅在需要理解整体界面布局或验证全局变化时，才需要参考全屏截图或对比图。

更深入的行为分析揭示了根本性变化。使用MMSkills后，AI执行的无效或低级操作总数显著减少。以Qwen3-VL-235B为例，其原本75.8%的动作是鼠标点击，使用技能后降至63.7%，而键盘输入和标记“任务完成”的动作比例相应上升。这表明AI从盲目点击转向了更有条理的文本输入和明确的结果判断。

重复无效操作也大幅减少。同一个模型，原本21.8%的动作是重复操作（如反复点击同一位置），使用MMSkills后这一比例骤降至6.2%。AI不再陷入“反复点击同一处却毫无进展”的死循环。同时，“完成”动作的使用频率上升，说明AI更清楚任务何时真正结束——这得益于状态卡片中提供的成功验证线索。

八、真实任务案例现场解析

通过两个具体案例，可以更直观地理解MMSkills的动态工作流程。

案例一：在表格软件中创建销售汇总表。 任务要求创建一个名为“Sheet2”的新工作表，并填入月份和销售总计数据。AI首先识别出当前位于“Sheet1”，需要创建新工作表，于是召唤分支助手参考“工作表管理”技能。分身助手挑选了几张关于工作表标签栏切换的特写图，对照当前屏幕后建议：“先创建Sheet2，切勿在Sheet1直接输入数据”。主AI随即创建新工作表并输入表头与月份数据。当需要填入总计公式时，AI又召唤了第二个技能——“公式与函数应用”。这次分支助手判断无需参考图片，直接给出了文字指导。最终，AI成功使用SUM公式从Sheet1引用数据，全程仅用8步动作高效完成。

案例二：在终端命令行中管理文件。 任务要求将30天前的旧文件压缩至一个归档文件夹，同时将新文件移至另一个文件夹。AI最初尝试的`find`命令出现了语法错误。意识到问题后，AI召唤“文件与文件夹管理”技能。分支助手判断终端命令行任务无需看图，直接用文字建议“使用更稳健的命令格式和参数”。AI修正命令后成功移动文件。随后进行压缩归档时，AI又调用了不同的“归档与压缩”技能，最终顺利完成任务并验证结果。

这两个案例生动展示了MMSkills的动态协作流程：AI在不同任务阶段智能调用不同技能，分支助手负责判断是否需要以及需要何种视觉证据，最终主AI综合所有信息做出精准决策和操作。

九、与现有技术方法的对比

在AI助手研究领域，“技能”并非一个全新概念。早期研究将技能表达为文字提示或可执行的代码片段。后续出现了更精细的方法，例如将技能存储为API函数、构建技能执行图，或让多个AI智能体协作进化出共享技能库。

与本研究最接近的几项工作各有侧重。例如，有研究引入层次化的多模态技能用于图形界面控制，有工作致力于从视觉化操作经验中持续提取技能，也有方法将计算机操作技能表达为带参数的过程图。MMSkills的关键区别在于：它紧紧围绕“运行时状态卡片”和“多视角视觉证据”来组织技能知识，并通过“分支加载”机制，将筛选后的证据与当前屏幕实时对齐后再指导行动。换言之，它不仅关注“如何执行动作”，更强调“在何种视觉状态下执行、依据什么视觉线索执行、以及如何通过视觉验证结果”。

十、这项研究的现实意义与未来展望

归根结底，这项研究瞄准的是一个非常实际的目标：让AI助手在协助我们操作电脑、处理各类视觉交互任务时，变得更可靠、更智能、更少犯低级错误。

这意味着，未来的AI助手或许真能胜任那些繁琐且需要“眼力见”的办公室工作——无论是整理复杂的数据表格、调整图片排版，还是安排日程、甚至辅助通关游戏。它们不会再因为找不到按钮而胡乱点击，不会因识别不出弹窗状态而傻等，也不会做到一半却不知道任务是否真正完成。

对于AI研究者而言，这项工作提供了一个崭新的视角：AI可复用、可迁移的经验，不应仅是文字说明书或代码模板，而应是紧密绑定视觉证据的“图文并茂的操作指南”。这一思路打破了以往技能体系过度依赖文本描述的局限，为具身智能、图形界面自动化等领域开辟了新路径。

当然，研究团队也坦诚指出了当前方法的局限性。其效果在很大程度上依赖于源数据（公开操作录像）的覆盖广度——若某类任务在公开数据中罕见，则提炼出的技能可能不完善。技能生成过程和视觉定位也可能出错。分支加载机制虽提升了准确性，但也增加了推理的计算成本。要将此方法稳健地推广至更广泛的实体机器人或安全敏感场景，还需要更强的在线验证机制和错误修正能力。

这项研究揭示了一个朴素却至关重要的道理：要让AI真正学会人类“看着办”的能力，仅提供文字说明是远远不够的。就像教孩子学做饭，光给菜谱不行，还得让他观察师傅的手法、锅中食材的颜色变化、以及如何判断火候。AI能力的实质性进步，往往就藏在这些看似细微、实则决定成败的“图文配合”与“状态感知”之中。

常见问题解答 (Q&A)

Q1：MMSkills和传统的AI技能包有什么区别？
A：传统AI技能包主要使用文字或代码描述操作步骤，如同纯文字菜谱。而MMSkills是图文结合的多模态技能包，除文字流程外，核心包含“状态卡片”和多视角参考截图。状态卡片明确告知AI技能的使用时机、触发条件、禁忌场景以及成功验证的视觉标准，让AI不仅知道“做什么”，更清楚“看什么”和“如何判断对错”。

Q2：分支加载机制具体是如何工作的？
A：当AI在执行任务中需要参考某个技能时，并非自行翻阅整个技能手册，而是临时召唤一个“智能分身”专门处理此事。该分身首先评估当前场景是否需要以及需要哪些视觉参考，随后将精选的参考图与当前屏幕画面进行比对分析，最终向主AI提交一份精炼的行动建议报告——包括技能适用性、下一步操作目标、具体计划、潜在风险等。主AI以此建议为重要参考，但最终的具体操作指令仍基于对实时屏幕的分析生成，从而在获得精准指导的同时，有效避免被静态参考图所误导。

Q3：MMSkills的实际效果如何？有数据支撑吗？
A：在实际测试中效果显著。在OSWorld桌面任务基准测试中，所有受测的AI模型性能均有提升。例如，Qwen3-VL-235B模型的成功率从21.34%提升至39.17%；较小的Qwen3-VL-8B模型从10.78%提升至25.40%。在《我的世界》和《超级马里奥兄弟》游戏测试中，AI的成功率或游戏得分也获得显著提升。此外，AI完成任务所需的操作步骤更少，重复和无效操作大幅减少，行为模式变得更加高效和有条理，证明了其提升AI视觉任务执行能力的有效性。

来源:https://www.techwalker.com/2026/0522/3187895.shtml

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：康尼机电成立AI机器人新公司布局智能制造业务下一篇：广中医新增医工融合本科专业今年首次招生