多模态程序性知识库 MMSkills 赋能 LLM Agent 技能提升
近日,上海交通大学与小红书联合研究团队发布了一项名为MMSkills的创新成果,旨在解决当前大模型智能体(Agent)研究中的一个关键挑战:如何让视觉Agent真正具备“看懂”并“记住”环境状态的能力。简而言之,MMSkills的核心突破在于将Agent的技能库从传统的“文本操作指南”升级为“多模态程序性知识库”。这意味着视觉Agent不仅能记住“下一步点击哪里”,更能理解“关键状态应该呈现何种视觉特征”,以及“识别到该状态后应如何做出决策”。

为何LLM Agent的技能不能仅依赖文本?
构建技能库本质上是将任务经验进行外部化存储的过程。由于大模型自身的参数难以可靠记忆所有交互经验,因此需要将成功或失败轨迹中的“程序性知识”提取并整理,供后续任务检索与复用。
然而,当前主流的基于文本的技能库存在一个隐含假设:关键状态能够被语言充分描述。这一假设在纯文本任务中或许成立,但在涉及视觉交互的领域——如桌面操作、游戏控制或开放世界环境——便成为显著瓶颈。在这些场景中,智能体的决策往往依赖于对视觉状态的即时感知与识别:例如,一个按钮是否处于高亮可点击状态?一个弹窗是否已加载完成?特定物品是否已被拾取?角色的跳跃时机是否已经出现?
这些信息本质上并非简单的“步骤说明”,而是“状态识别与决策条件”的结合。MMSkills正是精准捕捉到了这一核心需求,将视觉Agent的技能重新定义为一种融合了操作序列与对应视觉状态证据的多模态知识单元。
MMSkills的核心构成:流程、状态卡片与关键帧
那么,一个具体的MMSkill包含哪些部分?它由三个有机结合的模块组成:
首先是文本流程,这部分继承了传统技能中对操作步骤的文字描述。
其次是运行时状态卡片,这是MMSkills的创新精髓。它明确定义了诸如when_to_use(适用时机)、when_not_to_use(禁用时机)、visible_cues(可见线索)、verification_cue(验证线索)和available_views(可用视图)等条件。这相当于为每个技能配备了一份详细的“使用说明书”和“状态核查清单”。
最后是多视角关键帧。它为上述关键状态提供了直观的视觉证据,可能包含全屏截图、局部特写裁剪、操作前后对比图等多种视角的图像。
这种表示方法将抽象的“文字流程”与具体的“视觉条件”紧密绑定。对于大模型而言,技能不再只是一个冗长的提示词模板,而是一个包含了状态记忆与视觉参照的外部知识包。

从交互轨迹生成技能:提炼状态知识,而非存储录像
生成文本技能或许可以通过总结成功经验来完成,但生成多模态技能则复杂得多。系统需要智能判断:哪些视觉状态具有可复用价值?哪一帧画面最能代表该状态?关键视觉区域在哪里?视觉证据又如何与抽象的决策条件相关联?
MMSkills设计了一个智能的“轨迹到技能生成器”。其工作流程颇具巧思:首先对大量公开的非测试交互轨迹进行嵌入表示与聚类分析;接着为每个任务簇规划技能结构;然后进行跨簇的合并、去重与泛化处理;生成流程和状态卡片的草案;最后,读取真实的关键帧画面,完成视觉信息的“落地”与最终审核。
这一过程的关键在于,它并非简单地将原始操作录像存入技能库,而是从海量交互数据中,提炼出那些可复用、可泛化的“状态化知识”。
分支加载:为多模态证据设计的智能上下文管理策略
对于LLM Agent而言,上下文并非越长越好。尤其是在多模态场景下,若将所有技能图片、状态描述和解释文字全部塞入主上下文,只会引入大量噪声,干扰核心推理过程。
MMSkills提出的“分支加载”机制,可被视为一种面向多模态证据的“渐进式披露”策略:
主Agent首先判断当前是否需要调用某个技能;随后,一个临时的技能分支被激活,它仅精选当前所需的状态卡片和关键帧视图;该分支会将精选的视觉证据与实时屏幕画面进行比对分析;最终,它向主Agent返回一份结构化的决策指导,包括技能是否适用、子目标、行动计划、禁忌动作以及验证方式等。
这相当于将耗时的“视觉证据检查”工作从主推理线程中剥离,形成一个独立的“顾问”模块。主Agent接收到的是一份经过压缩和结构化的结论,从而显著降低了上下文污染与视觉锚定效应带来的干扰。

实验结果:外部多模态知识有效补足模型先验不足
研究团队在四个主流的视觉Agent基准上进行了全面评估,覆盖了真实桌面环境(OSWorld, macOSWorld)、3D世界(VAB-Minecraft)和2D游戏(Super Mario Bros),并使用了包括Gemini、Qwen、GLM、Kimi在内的多个主流大模型。
结果令人印象深刻。在OSWorld基准上,MMSkills为所有评测的模型家族均带来了性能提升。对于参数规模较小的模型,提升尤为显著——例如,Qwen3-VL-8B模型的任务成功率从10.78%大幅提升至25.40%。这有力证明,外部多模态技能提供的并非模型已有的知识,而是在模型内部“程序性先验”不足时,提供了关键的补充与支撑。

更重要的是,这种性能收益具备良好的可迁移性。在macOS、Minecraft等视觉环境迥然不同的任务中,MMSkills同样带来了稳定的性能提升。

消融实验的启示:信息需要智能组织,而非简单堆砌
通过细致的消融实验,MMSkills揭示了两个关键结论:
首先,状态卡片与多视角关键帧各自具有独立价值。前者帮助模型进行高层的逻辑判断(例如,当前是否适用此技能?),后者则帮助模型完成低层的感知对齐(例如,当前画面匹配哪个视觉状态?)。
其次,也是更值得注意的一点:简单粗暴地将完整的多模态技能包全部加载到主上下文中,反而会损害模型性能。这对热衷于扩展上下文窗口的研究社区是一个重要提醒:在多模态场景下,并非信息越多越好,关键在于对证据的智能筛选、隔离推理以及结构化的信息回传。Branch Loading机制的有效性,正是对此观点的完美印证。

行为模式的转变:从盲目点击到状态感知决策
除了成功率的提升,论文还深入分析了Agent底层行为模式的变化。引入MMSkills后,Agent的行为展现出更高的“智能感”:动作总数和重复性行为显著下降,对于任务是否完成的判断也变得更加稳定可靠。
以Qwen3-VL-235B模型为例,其点击动作的比例从75.8%下降至63.7%,而完全重复的动作序列则从21.8%骤降至6.2%。这表明,MMSkills不仅仅是在提升任务成功率,更是在从根本上优化Agent的执行策略——使其从一种依赖大量试错、反应式的“盲目点击”模式,转向一种基于状态识别、更有规划性的“感知-决策”模式。

对LLM Agent未来研究的启发
MMSkills这项工作的意义,远不止于构建一个性能更高的视觉Agent系统。它为更广泛的LLM Agent研究提供了几个清晰的启示:
第一,经验的外部化必须超越文本层面。 对于依赖感知的任务而言,“视觉状态”本身就是知识不可或缺的一部分。将视觉证据与操作流程深度融合,是构建真正通用、鲁棒技能库的必经之路。
第二,多模态上下文需要运行时的动态过滤与管理。 无差别地注入所有视觉信息会导致严重的上下文污染。未来的智能体架构需要更精细的“注意力”或“门控”机制,能够动态筛选和加载相关的多模态证据。
第三,技能调用本身可以成为一个独立的推理问题。 Branch Loading机制展示了一种优雅的解决方案:将耗时的、细节性的证据检查工作委托给一个专门的“技能分支”Agent,让主Agent专注于高层规划与决策,仅接收结构化、摘要化的指导。这种“解耦”的设计思想,对于构建复杂、高效的智能体系统具有重要的参考价值。
总结
总而言之,MMSkills通过将技能定义为“多模态程序性知识”,为视觉Agent赋予了真正的“状态记忆”与“情境感知”能力。它不仅仅是一个性能优化工具,更代表了一种研究思路的转变:让智能体不仅知道“如何操作”,更能理解“为何在此刻操作”以及“操作的目标状态是什么”。这或许是迈向更可靠、更类人智能体的关键一步。
相关攻略
在AI领域,Agent Skills完成了一次关键的范式跃迁。Agent本身变得更像一个轻量级的“调度中心”,而Skills则成为了一个个可插拔的“能力模块”。 一、范式价值:从“单一智能”到“模块化智能” 要理解Skills范式的价值,不妨回顾一下计算机操作系统的发展史。早期的操作系统采用的是单体
近日,高德与千问应用团队联合发布了AGenUI,这是行业内首个能够覆盖iOS、Android、HarmonyOS三端原生的端云一体A2UI开源框架。 AGenUI基于Google A2UI最新开放协议,以跨平台C++ Core为核心,为AI Agent提供了一套完整的能力栈,涵盖从模型生成、协议表达
最近在GitHub上发现了一个挺有意思的开源项目,叫“system_prompts_leaks”。这个项目做了一件事:它把市面上几乎所有主流AI产品的系统提示词(System Prompt)都给“扒”了出来,并且整理得井井有条。 从ChatGPT、Claude、Gemini到Grok、Perplex
最近AI圈的新概念层出不穷,大模型、智能体、RAG、工作流……光是记住这些名词就够让人头疼了,更别提理解它们之间的关系。 其实,对于企业经营者而言,完全不必成为技术专家。抓住一个核心概念——“智能体”,就能将AI真正融入业务,创造价值。今天,我们就用“招聘和管理员工”这个最接地气的类比,把复杂的AI
支付宝升级“AI收”能力,强化支付集成并推出商家入驻Skill。开发者通过自然语言对话即可一站式完成应用创建、支付集成和商家入驻,实现快速上线收款。新功能提供免注册测试环境和智能问题排查,大幅降低开发门槛。此举旨在构建AI支付基础设施,推动技术普惠,激活创新生态。
热门专题
热门推荐
为庆祝品牌投身赛车运动整整125年,斯柯达正式推出了晶锐Fabia Motorsport Edition特别版。这款车基于Fabia 130打造,设计灵感直接来源于征战赛场的Fabia RS Rally2拉力赛车,整体风格充满了对赛事历史的致敬意味。不过,得先说明白,它的升级重点主要落在了外观和底盘
Grayscale 通过其以太坊质押 ETF 质押了 102,400 个 ETH,价值 2 37 亿美元 先来看一组数据:资产管理巨头 Grayscale 最近通过其以太坊质押 ETF,一口气质押了超过10万个 ETH,价值约2 37亿美元。这个动作本身不小,但更有意思的是市场的后续反应——或者说,
劳斯莱斯库里南自问世以来,始终是超豪华全尺寸SUV领域的标杆。对于追求极致安全又不愿牺牲低调气质的高净值人士而言,如何实现“隐形”的顶级防护,一直是核心诉求。如今,加拿大专业防弹车制造商Inkas,以一款近乎“零痕迹”改装的库里南,给出了完美解决方案——一座移动的“隐形堡垒”。 区别于常见的外露装甲
新加坡维塔士工作室正考虑将《侠盗猎车手V》与《荒野大镖客:救赎2》移植至任天堂Switch平台。该团队拥有丰富的移植经验,曾成功负责多款游戏的跨平台适配。这两款作品全球销量巨大,若能登陆Switch,其便携特性可能成为新的市场增长点。
当高尔夫GTI迎来五十周年里程碑,传奇的纽博格林北环赛道成为其致敬历史与展望未来的最佳舞台。这里不仅铭刻了燃油性能图腾的巅峰时刻,也正式开启了电动GTI的新纪元。近日,大众汽车正式宣布,高尔夫GTI 50周年版在纽北创下全新纪录,荣膺最快前驱量产车称号;与此同时,品牌首款纯电动GTI车型——ID





