人人拥有贾维斯？浙大团队OS Agents深度解读

时间：2026-06-23 14:27

人人拥有贾维斯？浙大团队OS Agents综述讲明白了图｜OS Agents 领域在近些年的发展进程，包括基础模型、Agent 框架、基准测试和产品等。如果一年前有人跟你说，AI不仅能聊天，还能直接替你在电脑上点外卖、填报销单、订酒店，你会不会觉得这离现实还有点远？但过去这一年，AI圈里一个叫“

人人拥有贾维斯？浙大团队OS Agents综述讲明白了

图｜OS Agents 领域在近些年的发展进程，包括基础模型、Agent 框架、基准测试和产品等。

如果一年前有人跟你说，AI不仅能聊天，还能直接替你在电脑上点外卖、填报销单、订酒店，你会不会觉得这离现实还有点远？但过去这一年，AI圈里一个叫“OS Agents”的新方向，正把这类场景从一个概念，变成可落地的产品。

简单来说，OS Agents 就是能直接“上手干活”的智能体——它存在于你的电脑、手机或浏览器里，接到指令后自动执行多步操作。不同于偏重对话的 Chatbot，这类Agent让“帮我干活”从口号变成了实际行动。

它指向的，是AI行业的下一个趋势：从“回答问题”升级为“全能操作员”。未来，每个人或许都能拥有一个属于自己的AI操作系统，跨平台完成任务，让工作和生活效率成倍提升。

最近，浙江大学团队与合作者发布了一篇关于OS Agents的综述，内容十分扎实，堪称入门必备。如果你正想了解这个领域的发展脉络、技术细节和未来方向，这份报告值得仔细看看。

综述基于多模态大语言模型（MLLM）的视角，系统梳理了Agent如何在不同平台和任务环境中发挥作用，也坦率指出了当前的技术瓶颈和潜在突破口。

论文链接：https://arxiv.org/abs/2508.04482

我们离JARVIS还有多远？

几乎每个看过《钢铁侠》的人，都幻想过拥有一个像J.A.R.V.I.S.那样的超级AI助手——能无缝操控各种系统、自动完成复杂任务。在AI行业，这种实体被称为OS Agents。它们通过操作系统提供的界面（比如图形用户界面GUI），在计算机或移动终端上完成用户交给的任务。如果这种Agent能大规模落地，全球数十亿用户的日常效率将迎来质变。

想象一下：网购、行程安排、文档处理……这些琐事都由Agent默默完成，而你只需要动下嘴或敲一行指令。这听起来像科幻，但基础已经铺开。

过去，Siri、Google Assistant这些虚拟助手曾让我们瞥见一点曙光，但受限于模型的理解能力，它们缺乏上下文理解，功能残缺，并未真正进入“袋里”阶段。

幸运的是，MLLM的快速进化改写了剧本。这些模型强大的理解与生成能力，让OS Agents能够琢磨透复杂任务，并精准操控计算设备去执行。

OS Agents是什么？

OS Agents利用操作系统提供的一切输入输出接口，通过计算设备回应你设定的目标。它的核心使命，就是自动化执行系统内部的任务，借助MLLM的理解与生成能力，把用户体验和操作效率拉上一个台阶。

实现这个目标，需要三个关键组成部分：环境、观察空间和动作空间。三者共同支撑Agent与操作系统之间的高效交互。

环境：Agent运行的平台或系统，可以是桌面系统、移动端或网页端。不同环境下任务各异，要求Agent能在多个界面间进行规划和推理。
观察空间：Agent能访问到的系统状态和用户活动信息。通过这些观察，Agent理解当前环境，做出明智决策，并决定下一步怎么走才能达成目标。
动作空间：Agent通过操作系统的输入接口来操控环境的所有可能方式。简单说，就是它能“按什么按钮”“点哪里”“怎么操作”。

除此之外，OS Agents还需要三项核心能力：理解、规划和grounding。理解能力让Agent看懂复杂的操作系统环境，这是完成信息检索和各类任务的基础。规划能力让它能把复杂目标拆解成可管理的子任务，并制定出执行序列。而grounding，则是将文本指令或计划转化为可执行的具体动作——说白了，就是把“怎么做”落地到界面上。

图｜OS Agents 的基础原理。

构建“能用”的OS Agents

要让OS Agents真正“能用”，基础模型的建设是关键。这涉及两大方面：模型架构和训练策略。前者决定了模型在操作系统中如何处理输入输出，后者赋予模型完成复杂任务的能力。

图｜在基础模型构建中应用的训练策略

训练策略主要包括预训练、有监督微调和强化学习。近期应用于OS Agents的主流架构和策略可用下表概括：

图｜OS Agents 基础模型。Arch：架构，Exist：现有，Mod：修改，Concat：拼接，PT：预训练，SFT：监督微调，RL：强化学习

一个典型的OS Agents框架由四个核心组件构成：感知、规划、记忆和行动。感知模块负责收集和分析环境信息；规划模块负责任务分解与行动序列生成；记忆模块用于存储信息和积累经验；行动模块则负责执行具体的操作指令。这四个模块协同工作，才让Agent具备了理解、规划、记忆和与系统交互的完整能力。

在实际实现中，不同框架会在这四个模块基础上衍生出具体的技术特征和实现方式。

图｜用于 OS Agents 的 Agents 框架，TD：文本描述，GS：GUI 屏幕截图，VG：视觉定位，SG：语义定位，DG：双重定位，GL：全局，IT：迭代，AE：自动化探索，EA：经验增强，MA：管理，IO：输入操作，NO：导航操作，EO：扩展操作。

评估是OS Agents开发中不可或缺的一环。它能帮助衡量Agent在不同场景下的表现和有效性。当前研究采用了多种评估技术，具体环境不同，评估方式也各不相同。评估的关键在于原则和方法，需要多角度、多技术结合，才能全面了解Agent的能力与局限。整个评估分为客观评估和主观评估，重点考察理解、规划和grounding三方面的能力。

为了全面测评，研究人员开发了多种基准测试。这些测试基于不同平台和配置，构建了多样的评估环境，覆盖了各类任务类型。

图｜OS Agents 基准测试

挑战与未来

尽管OS Agents的进展令人兴奋，但该领域仍然面临不少硬骨头。

安全是落地时绕不开的红线。学术界已经开始了针对OS Agents的对抗攻击研究，一些团队也着手构建LLM Agents的安全框架与策略。未来的重点，是开发全面且可扩展的安全解决方案。而除了安全，隐私同样是不可忽视的隐忧。

正如电影里J.A.R.V.I.S.会根据Tony Stark的偏好提供个性化服务一样，开发个性化的OS Agents是AI研究的长期目标。目前，一些大模型（比如OpenAI的memory功能）已经开始朝这个方向迈出半步——让模型拥有“记住”的能力。但整体来看，多数（M）LLM在提供个性化体验和在人机交互中自我进化方面，还远远不够。

另一个重大挑战是记忆的模态扩展：从文本扩展到图像、语音，以及如何高效管理和检索这些记忆，都是摆在面前的技术难题。

研究人员相信，一旦攻克这些关卡，OS Agents就能提供更具个性化、动态且具备上下文感知能力的帮助。它们还将具备更复杂的自我进化机制，能够持续适应用户的需求和偏好。

MLLM的快速发展正在为OS Agents打开一扇扇新的大门。那个“人人拥有贾维斯”的梦想，正在一步步靠近现实。

来源：https://www.aiagiai.com/14051.html

上一篇AI是企业的智能大脑而非普通工具 下一篇DeepSeek新模型开源五大能力变化一手实测

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

AI教程 · 2026-07-02

内网RPA离线部署从依赖打包到7×24无人值守踩坑与避坑方案

这三年，内网RPA项目接了不下二十个。每次开局都像闯关——断网、缺依赖、多机同步、定时执行、批量分发、源码保护、AI离线化，八个坑一个比一个深。今天把这些实战经验整理出来，希望能帮正在内网搞自动化的兄弟们少踩点雷。一、内网无网络环境怎么部署RPA流程：先搞清楚什么叫“真离线” 很多工具宣传“支持本

AI教程 · 2026-07-02

水利工程师用WorkBuddy写洪水报告效率提升3倍

WorkBuddy开发者分享季水利工程师AI提效实战：用WorkBuddy撰写洪水影响评价报告，效率提升3倍 WorkBuddy 效率人工智能开发工具一、我是谁，为什么需要AI 先介绍一下自己——我是一名水利工程师，在湖南长沙的一家小型水利设计公司任职。当前行业环境不太

AI教程 · 2026-07-02

日志服务数据加工规则洞察仪表盘使用指南

数据加工诊断仪表盘想实时掌握日志服务加工功能的运行状态？直接从加工列表页点击那个“规则洞察”按钮，仪表盘就会立刻呈现出来。入口就在那儿，不绕弯子。跳转后，你可以按作业名称、实例ID或源LogStore来筛选任务状态。比如下边这张图，展示的是当前实例ID（90c9d47714dbb807d47c1

AI教程 · 2026-07-02

基于RFID的固定资产管理系统技术架构与工程实践

固定资产管理难题是众多企事业单位的普遍困扰，资产数量动辄数千件，且广泛分布于不同部门、楼层乃至园区。传统人工盘点方式在工程维度上始终面临三大关键瓶颈：采集效率低下、数据闭环中断、状态同步滞后。使用条码枪逐一扫描标签，识别距离通常不超过30厘米，操作人员需逐个寻找并扫描，盘点效率完全受限于人力。面对5

AI教程 · 2026-07-02

WorkBuddy实战用AI搭建A股智能盯盘助手省心高效

炒股的朋友们想必都深有体会——每天重复盯盘、查行情、分析板块轮动，这一整套流程下来耗费大量精力。手动翻查数据不仅身心俱疲，还很容易错过关键买卖节点。今天我们就来聊聊如何打造一款趁手的盯盘工具，借助AI替你分担这些重复性工作。背景：盯盘的核心痛点股民都有同感——每天不只要查询单只股票的实时行情，还

人人拥有贾维斯？浙大团队OS Agents深度解读

人人拥有贾维斯？浙大团队OS Agents综述讲明白了

我们离JARVIS还有多远？

OS Agents是什么？

构建“能用”的OS Agents

挑战与未来

相关推荐

同类最新

内网RPA离线部署从依赖打包到7×24无人值守踩坑与避坑方案

水利工程师用WorkBuddy写洪水报告效率提升3倍

日志服务数据加工规则洞察仪表盘使用指南

基于RFID的固定资产管理系统技术架构与工程实践

WorkBuddy实战用AI搭建A股智能盯盘助手省心高效