MCP与Computer Use入门科普了解这些就够了_AI热点日报

MCP与Computer Use入门科普了解这些就够了

类型：热点整理2026-07-04

这段时间，AI圈子里又冒出两个概念，MCP和Computer Use。可能不少人听着耳熟，但具体怎么回事，心里没底。特别是DeepSeek那波热度过去之后，Agent概念被Manus重新点燃，这些底层的“基础设施”也跟着被翻了出来，讨论声量突然大了起来。既然大家有兴趣，咱们今天就掰扯掰扯这两个东西

这段时间，AI圈子里又冒出两个概念，MCP和Computer Use。可能不少人听着耳熟，但具体怎么回事，心里没底。特别是DeepSeek那波热度过去之后，Agent概念被Manus重新点燃，这些底层的“基础设施”也跟着被翻了出来，讨论声量突然大了起来。

既然大家有兴趣，咱们今天就掰扯掰扯这两个东西。先聊MCP，再顺带说说Computer Use。

Model Context Protocol（MCP），全称是模型上下文协议，由 Anthropic 牵头搞出来。它的本质，就是一个开放标准。你可以把它理解成AI界的HTTP协议——都是大家约定俗成的规矩，只要都按这个规矩来，事情就好办得多。

话说回来，为什么需要这么个协议？原因很简单。大模型想要真正落地、解决实际问题，就不可能只活在它自己的世界里，势必要和各种外部接口打交道，比如浏览器、数据库、文件系统……

在MCP出现之前，大家是怎么让AI连接外部世界的呢？答案是：各显神通，但路子基本都是“定制化”。

具体操作是这样的：开发者需要写一个中间程序，用户先访问这个中间程序。中间程序拿到用户请求后，先去调用大模型，拿到大模型的响应，然后根据响应里的内容，再手动调用各种API去读写数据库、拉取信息。你看，这个中间程序就像一个“二传手”，负责弥合大模型和外部能力之间的鸿沟。

但总有人看不惯这种操作。Anthropic那帮人觉得，这中间程序的存在简直是个奇葩，效率低、成本高、还不统一。于是，他们决定在模型底层就解决这个问题。他们先在模型层面实现了固定格式的API调用。这样一来，用户可以直接访问大模型，而大模型自己能按照固定的格式，自动去调用对应API完成数据读写。

后续，又产生了文件读写、浏览器控制等需求。为了提升效率，这个“固定格式”被不断沿用和扩展，最后发现大家都觉得好用，索性就把它正式化、标准化，变成了协议。这就是MCP的由来。

有了MCP之后，AI与外部世界交互终于有了一个统一的工业标准。以前每个开发者都得自己写一套对接逻辑，结果就是系统七零八落、互不兼容，还容易搞出安全漏洞。现在，模型、工具、数据源，只要能听懂MCP这“普通话”，就能无缝集成。

这么说可能有点绕，咱们用更直观的方式对比一下。

从前的老路子：

用户说：“查北京天气。” -> 中间程序收到 -> 中间程序把这句话丢给大模型 -> 大模型说：“我需要调天气API，城市是北京。” -> 中间程序硬着头皮去解析这句话，从里面抠出“北京” -> 然后自己写代码去调用天气API -> 返回结果给用户。

用户 → 中间程序 → 大模型 → 中间程序 → API → 返回结果

有了MCP之后：

流程简化了不少，核心是中间那个“二传手”被标准化了。

用户 → 模型 → MCP客户端（生成结构化请求）→ MCP服务器（协议转换和袋里）→ API → 返回结果

关键差别在哪儿？

老路子，大模型输出的是自然语言，开发者得自己写一堆正则表达式去猜去解析。有了MCP，模型直接输出结构化的指令，比如一个标准的JSON格式。这个指令里，动作、参数、权限都写得清清楚楚。MCP协议层直接把过去那堆定制化的解析代码给替代了。

举个例子：

没MCP时，模型说人话：“请调用天气API查北京”，你得上个解析器。

有了MCP，模型直接输出机器能懂的“指令”：

{
  "action": "query_weather",
  "params": {"location": "北京"},
  "auth_scope": "user_weather"
}

概念理解到这，基本就够了。至于具体怎么写，等到真正需要的时候，跟着官方规范走就行，没什么门槛。

这个概念，同样出自Anthropic（也就是Claude的亲爹），在2024年10月正式推出。

简单来说，它的目标就是：让AI像人类一样操作电脑。看屏幕、动鼠标、点按钮、打字，这些活儿，它都能干。在此基础上，再扩展出帮人订机票、填表格、查天气等更复杂的任务。

事实上，在此之前，这类屏幕自动化操作，一直是RPA（机器人流程自动化）的领域，而且被玩得很溜。

但是，这里有一个根本性的不同。

你可以这么理解：RPA和Computer Use虽然干的是同一类活，但脑子完全不一样。

RPA属于固化的流程。你给它画好路线图，它就严格按照图上的路线走，一步都不会错，但一步也不会多走。一旦流程变了或者中间出了点意外，它就彻底抓瞎。

而Computer Use更聪明。它接到一个任务后，会先自己列一份行动计划，然后一边看屏幕实时反馈，一边思考、调整计划、再操作。它可以对未知情况进行主动探索，甚至通过试错来找到解决办法。

打个比方，RPA就像一个熟练度满级的流水线工人，重复一个动作，又快又准；而Computer Use像一个刚入职的实习生，你告诉他“去帮我订一张机票”，他可能手忙脚乱，但会自己琢磨怎么打开浏览器、怎么登录、怎么搜索、怎么填信息。

从长远来看，这种“主动探索”的能力，可能会让不少RPA公司感到脊背发凉。

技术实现上，Computer Use主要通过截取屏幕画面，然后模拟虚拟键盘和鼠标的操作来完成。目前它还处在测试阶段，操作速度比较慢，错误率也不算低。不过，意义是明确的：它可以脱离第三方工具，让大模型自己去“玩电脑”。

无论是MCP还是Computer Use，现在市场上的噱头成分都还偏大。作为一个观察者，持续关注是必要的，但完全不必为此焦虑。等到这些技术真正成熟的时候，一定会有非常完善的文档和工具出现。到那时候，再上手实操也不迟。

来源：https://www.53ai.com/news/LargeLanguageModel/2025032318725.html

ai 人工智能

补充最近整理过的热点入口。