游乐游手机版
首页/AI教程/文章详情

一文讲清Agent、Skill、MCP、Tool到底是什么?

时间:2026-06-05 16:43
一口气讲清楚 Agent、Skill、MCP、Tool 到底是什么?Agent、Skill、MCP、Tool 这四个词,在 AI Agent 的讨论里高频出现,但很多人其实说不清它们之间的边界。今天咱们就逐一拆解,把定义和关系彻底理清楚。Agent:决策中枢Agent 是整个系统中负责“思考和决策”

一口气讲清楚 Agent、Skill、MCP、Tool 到底是什么?

Agent、Skill、MCP、Tool 这四个词,在 AI Agent 的讨论里高频出现,但很多人其实说不清它们之间的边界。今天咱们就逐一拆解,把定义和关系彻底理清楚。

一口气讲清楚Agent、Skill、MCP、Tool到底是什么?

Agent:决策中枢

Agent 是整个系统中负责“思考和决策”的那个角色。它接收用户指令,理解意图,把一个复杂需求拆解成多个步骤,然后决定先做什么、后做什么,最后调度具体的能力去执行。

举个例子:用户说“帮我把昨天的会议纪要发给张总”。Agent 要做的可不是简单转发——它得先理解“昨天的会议纪要”指的是哪个文件,确认“张总”的联系方式,再选择通过邮件还是消息发送,最后调用对应的发送能力去完成。每一步都需要判断力。

Agent 的核心价值就在这里:面对不确定的指令,能做出合理的分解和选择。它不一定非得用最大的模型,一个在特定领域训练充分的小模型,决策质量同样可以很高。

Tool:原子操作

Tool 是最小粒度的功能单元,一次只做一件事,不会多管闲事。

比如:

  • read_file — 读取一个文件的内容
  • web_search — 执行一次网页搜索
  • click(x, y) — 在屏幕坐标 (x, y) 处点击一次
  • send_email — 发送一封邮件

Tool 的特点:无状态、单步、确定性。它不关心前因后果,被调用就执行,执行完返回结果。它不会主动决定下一步该做什么——就像一把锤子,功能明确,拿起来就能用,但不会自己决定该钉哪根钉子。

Skill:复合能力

Skill 是多个 Tool 调用加上领域知识的有机组合,用来完成一个相对复杂的任务。

拿“GUI 表单填写”这个 Skill 来说,内部的执行流程可能是:先截取当前屏幕(调用 Tool:screenshot),再识别界面上的输入框和按钮位置(调用 Tool:视觉识别),然后判断应该先填哪个字段(内置决策逻辑),接着执行输入或点击(调用 Tool:键盘输入 / 鼠标点击),最后再截屏验证操作是否成功(再次调用 screenshot)。如果失败,还得调整策略重试。

Skill 和 Tool 的核心区别就在这里:Tool 是一步操作,Skill 是一套流程。Skill 对外暴露一个简洁的接口(比如“帮我填完这个表单”),内部自行编排多个 Tool 调用和判断逻辑。调用方根本不需要关心内部是怎么一步步执行的。

另一个重要特征:Skill 通常封装了领域专有知识。同样是“操控 GUI”,在不同操作系统、不同应用上的操作策略完全不同——这些知识都被封装在 Skill 内部。

MCP:连接协议

MCP(Model Context Protocol)是 Anthropic 提出的一套开放标准,它解决的是一个现实问题:Agent 怎么发现和调用外部 Tool?

这本质上是个工程问题。在没有统一协议的时代,每个 Agent 框架各自定义 Tool 的接入方式——为 LangChain 写的 Tool 插件,搬到 AutoGen 要重写;为 ChatGPT 写的 Function,搬到 Claude 也要重新适配。

MCP 做了三件事:

  1. 描述格式统一:Tool 用标准化的方式声明自己能做什么、需要什么参数、返回什么结果
  2. 调用协议统一:请求和响应的数据结构标准化,基于 JSON-RPC
  3. 发现机制统一:Agent 可以动态查询有哪些 Tool 可用

可以类比成 USB 接口——键盘、鼠标、U 盘长得完全不同,但都能通过同一个接口接入电脑。MCP 就是 Agent 生态里的“USB 标准”。有了它,一个 Tool 开发一次,任何支持 MCP 协议的 Agent 都能直接调用,开发者不用为每个框架单独写适配层。

四者的关系

用一句话概括每个概念的角色:

  • Agent — 决策者,负责理解、规划、调度
  • Skill — 内化的复合能力,封装了流程和领域知识
  • Tool — 原子执行器,被调用、执行、返回
  • MCP — 连接标准,让 Agent 和 Tool 能互相发现、互相对话

协作方式有两条路径:

路径 1:Agent → Skill(调用内化的复合能力,Skill 内部自行编排)路径 2:Agent → MCP → Tool(通过标准协议调用外部的原子能力)

两者并不互斥。一个 Skill 内部也可能通过 MCP 调用外部 Tool;一个 Agent 可以同时具备多个 Skill,也能通过 MCP 动态接入新的 Tool。

关键区别在于耦合度:

  • Skill 和 Agent 的绑定更紧密,通常是预置的、经过调优的
  • MCP Tool 是松耦合的,可以动态接入、即插即用

一张表总结

概念类比做什么关键特征
Agent一个有判断力的人理解意图、规划、调度有上下文,能决策
Skill学会的本领(如开车)完成复杂的多步任务封装流程+领域知识
Tool手边的工具(如锤子)执行单一原子操作无状态,被动调用
MCP工具的统一接口(如 USB)让 Agent 发现和调用 Tool标准化,跨框架通用

一个落地的例子

理解了概念,来看一个实际的开源项目如何体现这四层结构。

Mano-P 是一个运行在本地 Mac 上的 GUI Agent,通过纯视觉方式(截屏 → 理解 → 操作)来操控桌面应用,不依赖 DOM 结构或应用 API。

它的架构恰好对应四层:

  • Agent 层:本地运行的 4B 参数模型作为决策中枢,在 Apple M4 Pro 芯片上推理速度实测 76 tok/s,负责观察屏幕内容并决定下一步操作
  • Skill 层:GUI 操控能力被封装为 mano-skill,包含屏幕理解、元素定位、操作执行的完整链路。这个 Skill 可被 Claude Code、OpenClaw 等外部 Agent 直接调用
  • Tool 层:底层的原子操作——截屏、坐标点击、键盘输入、滚动——每个都是独立的 Tool

一个有意思的设计点:Mano-P 既是一个独立的 Agent(能自主完成 GUI 任务),它的核心能力又被封装为 Skill 供其他 Agent 调用。这意味着一个更上层的 Agent 可以把“操控桌面 GUI”作为自己的一项 Skill 来使用,不用关心底层是怎么实现的。

在 OSWorld 基准测试中,Mano-P 在专有模型类别排名第一,准确率 58.2%。本地运行,数据不出设备。

硬件要求:Apple M4 + 32GB RAM。安装方式:

brew tap Mininglamp-AI/tap && brew install mano-cua

开源协议 Apache 2.0。

来源:https://juejin.cn/post/7639566522559660066
上一篇一文快速看懂Hermes Agent核心概念与用法 下一篇非Claude工具(TRAE/Cursor)使用Agent Skills指南
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
RAG四标融合企业知识资产体系四库协同GEO优化实践
AI教程 · 2026-07-01

RAG四标融合企业知识资产体系四库协同GEO优化实践

生成式AI正在彻底改写信息检索的底层逻辑。传统SEO依赖关键词堆砌和外链建设的策略,在大模型的内容采信规则下已经基本失效。取而代之的,是生成式引擎优化(GEO)。它不再关注外链数量,而是重点衡量你的知识是否结构化、证据链是否坚实、信源是否可靠——这些维度才是RAG(检索增强生成)架构真正看重的核心指

一个普通上班人分享WorkBuddy使用心得与真实体验
AI教程 · 2026-07-01

一个普通上班人分享WorkBuddy使用心得与真实体验

前言 最近我开始使用WorkBuddy——这是腾讯推出的一款AI办公工作台。差不多用了一周时间,趁印象还新鲜,把真实的使用感受记录下来,给还在犹豫的朋友做个参考。不吹不黑,只说实际体验。 初印象:不只是聊天机器人 之前用过不少AI工具,大多数就是个对话框,你问它答,答完就结束了。WorkBuddy不

AI幻觉变真功能实战教程:App Inventor 2视频录制拓展一周开发实录
AI教程 · 2026-07-01

AI幻觉变真功能实战教程:App Inventor 2视频录制拓展一周开发实录

先讲一个颇具戏剧性的开端。 这件事的开端颇显荒诞——有用户前来咨询,称AI Pro版的介绍中提到我们有一款“视频录制拓展”。团队全体成员都感到困惑,翻遍产品列表,发现根本不存在该组件。AI那种“一本正经胡说八道”的能力,这次确实让我们陷入尴尬。 按常理,此事到此便可结束——一句“抱歉,暂时没有这个拓

别再混淆OLAP和SQL-on-Hadoop两者查询本质不同
AI教程 · 2026-07-01

别再混淆OLAP和SQL-on-Hadoop两者查询本质不同

OLAP和SQL-on-Hadoop虽都使用SQL查询数据,但本质不同。SQL-on-Hadoop负责海量数据批量计算与ETL,查询速度秒级至分钟级;OLAP通过预聚合实现毫秒级多维分析,适合BI报表。两者在数据平台分工协作,前者是后厨加工,后者是前台快速服务。

GEO优化深度解析:AI偏好FAQ还是长文内容?
AI教程 · 2026-07-01

GEO优化深度解析:AI偏好FAQ还是长文内容?

在GEO优化中,AI对内容形式无统一偏好:FAQ在简单查询中引用率41%,长文在复杂查询中达58%。内容应基于用户意图选择形式,FAQ适配简单事实类问题,长文建立主题权威,两者互补而非替代。