先说一个基本判断:昨天,Manus至少在中文媒体圈里刷屏了。
自媒体的反应相当狂热,“通用Agent终于实现了!”“这是继DeepSeek之后的又一技术革命!”这样的说法遍地都是。从Benchmark来看,Manus的表现确实亮眼——在GAIA测试中,它超越了此前的各种Agent以及OpenAI的DeepResearch。

GAIA测试到底有多权威?它是由来自Meta、HuggingFace和AutoGPT的数位大佬共同设计的,模拟的是真实世界里的复杂问题,要求AI同时具备推理、多模态处理、网页浏览和工具使用等能力。要知道,之前GPT-4加上工具调用,在这个测试中也只拿到了15%的成绩。
但技术世界的真相,往往藏在热闹的表象之下。想真正评估Manus的进步意义,得先看看它在已有的技术土壤上,到底播下了什么新种子。
Manus之前,Agent离临门一脚还有多远?
我们先看看,当前的Agent已经发展到什么水平了。
借用OpenAI前应用研究主管Lilian Weng的经典定义,一个合格的Agent需要三大核心能力作为“大脑”中枢:
1. Planning(规划)——像一位棋手,能把复杂局面分解成精妙的子步骤。
2. Tool use(工具使用)——像一位工匠,能从工具箱中选出最合适的工具并熟练使用。
3. Memory(记忆)——既有短期记忆存储即时信息,又有长期记忆沉淀持久知识。

过去这半年,Agent领域虽然看起来没什么火爆的产品,但底层技术能力却在大幅跃进。尤其在Planning和Tool Use两个方向上,进步非常快。Memory领域虽然略显滞后,但DeepSeek的NSA(原生稀疏注意力机制)、Google和微软也都在发力突破。
今天,我们重点聊聊Planning和Tool Use这两个方向。
Planning的进化:推理之翼展开
Planning是率先取得突破的。从GPT-o1开始的测试时计算(test-time compute)拓展模型——也就是咱们常说的推理模型——让单个大模型的Planning能力大幅提升。
这里有必要展开说说基础模型和推理模型的区别。相比基础模型,推理模型在四种关键认知能力上有很大提升:
● 验证——像一位细心的校对者,不放过任何错误。
● 回溯——发现此路不通,敢于放弃并寻找新路径。
● 子目标设定——把整座大山分解成一个个可以攀登的台阶。
● 逆向思考——从终点回望起点,找到最优路径。
也就是说,过去基础模型需要四个模型才能完成的事情,现在一个推理模型就够了。
斯坦福大学最近有一篇论文,就在试图解开推理模型为什么这么厉害的谜题。研究者给Qwen-2.5-3B和Llama-3.2-3B施加相同的训练,结果Qwen像开了挂一样迅速进步,而Llama进展缓慢。深入探究后发现,Qwen天生就具备验证和回溯等思维习惯,而Llama缺乏这些“思维良习”。

更有意思的是:当研究者用含有这些思维模式的“示范”来引导Llama时,即使示范中的答案是错的,Llama也能迅速提升。这揭示出一个关键:想让AI在有更多思考时间时真正变聪明,必须先让它掌握上面那四种基本思维方法。
推理模型带来的另一个好处是灵活性。过去用workflow搭建的模型,通常只能对付特定问题,局限很明显。而推理模型凭借更强的泛化能力,可以处理更通用的事物——这恰恰是Manus能更“通用”的基础。当前Agent工作流系统中的核心节点功能,很大程度上就是在模拟这些思维模式。换句话说,这四种能力齐全的推理模型,本身已经是一个天然的Planning Agent系统了。
在Manus出现前,在Agent中成功使用推理模型的,是2月2日OpenAI的DeepResearch以及Grok 3的DeepSearch。红杉对OpenAI DeepResearch产品团队的访谈中,团队解释其能力时就提到:“DeepResearch是o3模型的一个微调版本,o3是一个非常智能和强大的模型。很多分析能力也来自底层o3模型的训练。”DeepResearch通过端到端训练来运作,而非搭建工作流——在这里,推理模型本身就成了Agent。
而想复现DeepResearch的Jina AI分析说,它的核心流程无非就是搜索、阅读和分析三者反复循环。只不过,推理模型需要判断内容是否充足、搜索到的资料是否对应,再决定要不要下一轮搜索。

同样是在昨天发布、在外网收获满堂彩的Qwen团队的QwQ-32B模型,也特别提到,它在推理模型中集成了与Agent相关的能力,能边使用工具边批判性思考,并根据环境反馈调整推理过程。这些都是为已经有能力Agent化的大模型打基础、做拓展。
作为一款通用AI袋里,Manus毫无疑问用到了推理模型带来的新能力。它的搜索路径规划和DeepResearch非常相似,但网页浏览中用到了后面要讲的浏览器控制能力——这确实很聪明,因为可以更好地阅读像网页PDF这类直接读取页面难以完整呈现的内容。

Tool Use的进化:从工具到环境的征服
Tool Use能力的进化开始得更早。有几个关键里程碑标记了这段进程:
● 2023年7月9日:Code Interpreter问世,AI开始能执行代码,这是工具使用的第一步。
● 2024年6月20日:Claude Artifacts登场,AI能在对话中动态创建和修改各类“人工制品”,生成从代码到图表、从文档到交互式组件的直观内容。

● 2024年10月22日:Claude的Computer Use功能上线,AI不再局限于专用工具,而是能像人类一样“看见”屏幕并操作计算机,移动光标、点击按钮、输入文本。这个能力的加入,让Claude 3.5 Sonnet的Agentic工具使用评分整体平均提升了一半以上。

● 2024年11月25日:Anthropic开源了“模型上下文协议”(MCP),这相当于一把打开数据世界的万能钥匙,让AI可直接连接各类数据源,无需繁琐的定制开发。
● 2025年1月23日:OpenAI推出Operator,主打网页浏览能力的计算机使用袋里,能力和Claude的Computer Use很相近,但在网页UI上更有加成。
Manus目前演示中的工具使用能力,和Artifact水平相似,多加了网页浏览能力,但受限于虚拟机,其他计算机交互还达不到。
特别值得一提的,是MCP的出现堪称革命性。因为对AI工具使用来说,最大的问题就是数据获取和功能获取。过去常用的Function call,最大的毛病是,用API时需要为每个功能进行额外开发。每个功能分别开发,工具的扩展速度就会很慢。而MCP直接做到了高灵活、高复用,很多工具和数据都可以通过协议直接调用,无需单独开发。它优雅地统一了本地资源和远程API的访问方式。

(图片来自知乎作者Dukee)
正如AIGCLINK发起人所说:“MCP相当于一个万能的数据插头,打通了Agent构建的最后一公里。”更重要的是,它解决了隐私安全和知识产权问题——“工作流完全可以在本地运行,没有商业授权问题。”这意味着,中间件平台如Coze、Dify等产品的空间被大大压缩,模型方和应用方的分工将更加清晰。
因为在过去Agent工作流里,另一个核心功能就是工具调用,这都是中间件平台用function call手搭的。一般开发者不想自己写,就得用开发Agent工作流的中间件平台。可以说,Agent原来的中间件平台的两大作用——工具调用和节点式步骤规划,到这里就都被新技术进化取代了。
Manus的真相:是创新革命还是组装?
回到Manus本身,看看它的能力范围有没有超出前两点?从演示来看,它确实有效整合了DeepResearch、Artifacts和Operator三大现有能力。
据媒体引用但未出现在Manus官网上的资料称,Manus AI 使用一套叫“Multiple Agent”的架构,运行在独立虚拟机中,通过规划袋里、执行袋里、验证袋里的分工协作来提升复杂任务处理效率,并用并行计算缩短响应时间。在这个架构中,每个袋里可能基于独立语言模型或强化学习模型,彼此通过API或消息队列通信。每个任务在沙盒中运行,避免干扰其他任务,同时支持云端扩展。每个独立模型都能模仿人类处理任务的流程——先思考和规划,理解复杂指令并拆解为可执行步骤,再调用合适工具。
我们可以大胆地从Manus当前能执行的操作和技术描述去还原其能力:它很可能是三个相关功能的串联,由一个主脑做步骤调配。当然,也有可能根本不需要主脑,由规划袋里同时承担工作协调的能力。

这也是MIT博士Zengyi Qin认为它本质上还是预先设定的“工作流”的原因。

只不过,这个工作流当前各个节点的能力大幅增强了,而负责规划的主脑也进化成了能分布拆解和发起任务的推理模型。其袋里层及模型层架构中,与DeepResearch和Artifact能力的重叠几乎是100%(图像浏览用了一些Operator能力)。

在Manus的解释中,除了浏览网页用到Computer Use之外,它在虚拟机中的计算机应用并不多。这也是Zengyi Qin认为它在无边界操作系统级环境(open-ended OS Level environment)中尚未取得突破的原因。因此,官网介绍的智能研究、高级数据分析、任务自动化三大功能,也就是Manus的极限了。
Less Structure, More Hype?
相比DeepResearch这类尝试用推理模型赋能Agent的前沿工作,或者Claude的MCP协议对工具使用领域的革新,Manus的技术突破相对有限。它的核心创新点,是借助推理模型实现了简化结构,同时增强了智能处理能力的设计——也就是杨远骋Koji发布的、据称来自Manus团队内部的理念:“Less Structure, More Intelligence”。

当然,OpenAI的产品团队在红杉的访谈中也提到了类似的说法。

不过,作为一款产品,Manus展现了Monica公司在整合功能、优化用户体验方面的专长。它提供了简洁而强大的工作流升级,把当前最先进的AI能力整合到了一个流畅的用户体验里。在它之前,领先模型公司中唯一做过这个尝试的是谷歌——2024年12月12日,谷歌在推出Gemini的同时也推出了Agent系统Project Mariner,能同时完成获取表单、找到公司官网、联系方式等多步骤任务,且用户可以随时暂停和停止,并看到每一步的推理计划和步骤。

在计算机使用层面上,它比Manus还要激进。但谷歌的产品目前还只是个饼,并没上线。因此,Manus代表了当前AI技术整合的一个优秀案例,而且整体性上甚至超越了最先进的基础模型公司。但无论如何,把它和DeepSeek的突破直接相比,也许并不太合适。
