这段时间,AI圈子里又冒出两个概念,MCP和Computer Use。可能不少人听着耳熟,但具体怎么回事,心里没底。特别是DeepSeek那波热度过去之后,Agent概念被Manus重新点燃,这些底层的“基础设施”也跟着被翻了出来,讨论声量突然大了起来。
既然大家有兴趣,咱们今天就掰扯掰扯这两个东西。先聊MCP,再顺带说说Computer Use。
究竟什么是MCP?
Model Context Protocol(MCP),全称是模型上下文协议,由 Anthropic 牵头搞出来。它的本质,就是一个开放标准。你可以把它理解成AI界的HTTP协议——都是大家约定俗成的规矩,只要都按这个规矩来,事情就好办得多。
话说回来,为什么需要这么个协议?原因很简单。大模型想要真正落地、解决实际问题,就不可能只活在它自己的世界里,势必要和各种外部接口打交道,比如浏览器、数据库、文件系统……
在MCP出现之前,大家是怎么让AI连接外部世界的呢?答案是:各显神通,但路子基本都是“定制化”。
具体操作是这样的:开发者需要写一个中间程序,用户先访问这个中间程序。中间程序拿到用户请求后,先去调用大模型,拿到大模型的响应,然后根据响应里的内容,再手动调用各种API去读写数据库、拉取信息。你看,这个中间程序就像一个“二传手”,负责弥合大模型和外部能力之间的鸿沟。
但总有人看不惯这种操作。Anthropic那帮人觉得,这中间程序的存在简直是个奇葩,效率低、成本高、还不统一。于是,他们决定在模型底层就解决这个问题。他们先在模型层面实现了固定格式的API调用。这样一来,用户可以直接访问大模型,而大模型自己能按照固定的格式,自动去调用对应API完成数据读写。
后续,又产生了文件读写、浏览器控制等需求。为了提升效率,这个“固定格式”被不断沿用和扩展,最后发现大家都觉得好用,索性就把它正式化、标准化,变成了协议。这就是MCP的由来。
有了MCP之后,AI与外部世界交互终于有了一个统一的工业标准。以前每个开发者都得自己写一套对接逻辑,结果就是系统七零八落、互不兼容,还容易搞出安全漏洞。现在,模型、工具、数据源,只要能听懂MCP这“普通话”,就能无缝集成。
这么说可能有点绕,咱们用更直观的方式对比一下。
从前的老路子:
用户说:“查北京天气。” -> 中间程序收到 -> 中间程序把这句话丢给大模型 -> 大模型说:“我需要调天气API,城市是北京。” -> 中间程序硬着头皮去解析这句话,从里面抠出“北京” -> 然后自己写代码去调用天气API -> 返回结果给用户。
用户 → 中间程序 → 大模型 → 中间程序 → API → 返回结果
有了MCP之后:
流程简化了不少,核心是中间那个“二传手”被标准化了。
用户 → 模型 → MCP客户端(生成结构化请求)→ MCP服务器(协议转换和袋里)→ API → 返回结果
关键差别在哪儿?
老路子,大模型输出的是自然语言,开发者得自己写一堆正则表达式去猜去解析。有了MCP,模型直接输出结构化的指令,比如一个标准的JSON格式。这个指令里,动作、参数、权限都写得清清楚楚。MCP协议层直接把过去那堆定制化的解析代码给替代了。
举个例子:
没MCP时,模型说人话:“请调用天气API查北京”,你得上个解析器。
有了MCP,模型直接输出机器能懂的“指令”:
{
"action": "query_weather",
"params": {"location": "北京"},
"auth_scope": "user_weather"
}
概念理解到这,基本就够了。至于具体怎么写,等到真正需要的时候,跟着官方规范走就行,没什么门槛。
那么,Computer Use又是什么?
这个概念,同样出自Anthropic(也就是Claude的亲爹),在2024年10月正式推出。
简单来说,它的目标就是:让AI像人类一样操作电脑。看屏幕、动鼠标、点按钮、打字,这些活儿,它都能干。在此基础上,再扩展出帮人订机票、填表格、查天气等更复杂的任务。
事实上,在此之前,这类屏幕自动化操作,一直是RPA(机器人流程自动化)的领域,而且被玩得很溜。
但是,这里有一个根本性的不同。
你可以这么理解:RPA和Computer Use虽然干的是同一类活,但脑子完全不一样。
RPA属于固化的流程。你给它画好路线图,它就严格按照图上的路线走,一步都不会错,但一步也不会多走。一旦流程变了或者中间出了点意外,它就彻底抓瞎。
而Computer Use更聪明。它接到一个任务后,会先自己列一份行动计划,然后一边看屏幕实时反馈,一边思考、调整计划、再操作。它可以对未知情况进行主动探索,甚至通过试错来找到解决办法。
打个比方,RPA就像一个熟练度满级的流水线工人,重复一个动作,又快又准;而Computer Use像一个刚入职的实习生,你告诉他“去帮我订一张机票”,他可能手忙脚乱,但会自己琢磨怎么打开浏览器、怎么登录、怎么搜索、怎么填信息。
从长远来看,这种“主动探索”的能力,可能会让不少RPA公司感到脊背发凉。
技术实现上,Computer Use主要通过截取屏幕画面,然后模拟虚拟键盘和鼠标的操作来完成。目前它还处在测试阶段,操作速度比较慢,错误率也不算低。不过,意义是明确的:它可以脱离第三方工具,让大模型自己去“玩电脑”。
无论是MCP还是Computer Use,现在市场上的噱头成分都还偏大。作为一个观察者,持续关注是必要的,但完全不必为此焦虑。等到这些技术真正成熟的时候,一定会有非常完善的文档和工具出现。到那时候,再上手实操也不迟。
