Manus AI是通用Agent革命还是精巧缝合怪

时间：2026-06-27 14:03

先说一个基本判断：昨天，Manus至少在中文媒体圈里刷屏了。自媒体的反应相当狂热，“通用Agent终于实现了！”“这是继DeepSeek之后的又一技术革命！”这样的说法遍地都是。从Benchmark来看，Manus的表现确实亮眼——在GAIA测试中，它超越了此前的各种Agent以及OpenAI的D

先说一个基本判断：昨天，Manus至少在中文媒体圈里刷屏了。

自媒体的反应相当狂热，“通用Agent终于实现了！”“这是继DeepSeek之后的又一技术革命！”这样的说法遍地都是。从Benchmark来看，Manus的表现确实亮眼——在GAIA测试中，它超越了此前的各种Agent以及OpenAI的DeepResearch。

GAIA测试到底有多权威？它是由来自Meta、HuggingFace和AutoGPT的数位大佬共同设计的，模拟的是真实世界里的复杂问题，要求AI同时具备推理、多模态处理、网页浏览和工具使用等能力。要知道，之前GPT-4加上工具调用，在这个测试中也只拿到了15%的成绩。

但技术世界的真相，往往藏在热闹的表象之下。想真正评估Manus的进步意义，得先看看它在已有的技术土壤上，到底播下了什么新种子。

Manus之前，Agent离临门一脚还有多远？

我们先看看，当前的Agent已经发展到什么水平了。

借用OpenAI前应用研究主管Lilian Weng的经典定义，一个合格的Agent需要三大核心能力作为“大脑”中枢：

1. Planning（规划）——像一位棋手，能把复杂局面分解成精妙的子步骤。
2. Tool use（工具使用）——像一位工匠，能从工具箱中选出最合适的工具并熟练使用。
3. Memory（记忆）——既有短期记忆存储即时信息，又有长期记忆沉淀持久知识。

过去这半年，Agent领域虽然看起来没什么火爆的产品，但底层技术能力却在大幅跃进。尤其在Planning和Tool Use两个方向上，进步非常快。Memory领域虽然略显滞后，但DeepSeek的NSA（原生稀疏注意力机制）、Google和微软也都在发力突破。

今天，我们重点聊聊Planning和Tool Use这两个方向。

Planning的进化：推理之翼展开

Planning是率先取得突破的。从GPT-o1开始的测试时计算（test-time compute）拓展模型——也就是咱们常说的推理模型——让单个大模型的Planning能力大幅提升。

这里有必要展开说说基础模型和推理模型的区别。相比基础模型，推理模型在四种关键认知能力上有很大提升：

● 验证——像一位细心的校对者，不放过任何错误。
● 回溯——发现此路不通，敢于放弃并寻找新路径。
● 子目标设定——把整座大山分解成一个个可以攀登的台阶。
● 逆向思考——从终点回望起点，找到最优路径。

也就是说，过去基础模型需要四个模型才能完成的事情，现在一个推理模型就够了。

斯坦福大学最近有一篇论文，就在试图解开推理模型为什么这么厉害的谜题。研究者给Qwen-2.5-3B和Llama-3.2-3B施加相同的训练，结果Qwen像开了挂一样迅速进步，而Llama进展缓慢。深入探究后发现，Qwen天生就具备验证和回溯等思维习惯，而Llama缺乏这些“思维良习”。

更有意思的是：当研究者用含有这些思维模式的“示范”来引导Llama时，即使示范中的答案是错的，Llama也能迅速提升。这揭示出一个关键：想让AI在有更多思考时间时真正变聪明，必须先让它掌握上面那四种基本思维方法。

推理模型带来的另一个好处是灵活性。过去用workflow搭建的模型，通常只能对付特定问题，局限很明显。而推理模型凭借更强的泛化能力，可以处理更通用的事物——这恰恰是Manus能更“通用”的基础。当前Agent工作流系统中的核心节点功能，很大程度上就是在模拟这些思维模式。换句话说，这四种能力齐全的推理模型，本身已经是一个天然的Planning Agent系统了。

在Manus出现前，在Agent中成功使用推理模型的，是2月2日OpenAI的DeepResearch以及Grok 3的DeepSearch。红杉对OpenAI DeepResearch产品团队的访谈中，团队解释其能力时就提到：“DeepResearch是o3模型的一个微调版本，o3是一个非常智能和强大的模型。很多分析能力也来自底层o3模型的训练。”DeepResearch通过端到端训练来运作，而非搭建工作流——在这里，推理模型本身就成了Agent。

而想复现DeepResearch的Jina AI分析说，它的核心流程无非就是搜索、阅读和分析三者反复循环。只不过，推理模型需要判断内容是否充足、搜索到的资料是否对应，再决定要不要下一轮搜索。

同样是在昨天发布、在外网收获满堂彩的Qwen团队的QwQ-32B模型，也特别提到，它在推理模型中集成了与Agent相关的能力，能边使用工具边批判性思考，并根据环境反馈调整推理过程。这些都是为已经有能力Agent化的大模型打基础、做拓展。

作为一款通用AI袋里，Manus毫无疑问用到了推理模型带来的新能力。它的搜索路径规划和DeepResearch非常相似，但网页浏览中用到了后面要讲的浏览器控制能力——这确实很聪明，因为可以更好地阅读像网页PDF这类直接读取页面难以完整呈现的内容。

Tool Use的进化：从工具到环境的征服

Tool Use能力的进化开始得更早。有几个关键里程碑标记了这段进程：

● 2023年7月9日：Code Interpreter问世，AI开始能执行代码，这是工具使用的第一步。
● 2024年6月20日：Claude Artifacts登场，AI能在对话中动态创建和修改各类“人工制品”，生成从代码到图表、从文档到交互式组件的直观内容。

● 2024年10月22日：Claude的Computer Use功能上线，AI不再局限于专用工具，而是能像人类一样“看见”屏幕并操作计算机，移动光标、点击按钮、输入文本。这个能力的加入，让Claude 3.5 Sonnet的Agentic工具使用评分整体平均提升了一半以上。

● 2024年11月25日：Anthropic开源了“模型上下文协议”(MCP)，这相当于一把打开数据世界的万能钥匙，让AI可直接连接各类数据源，无需繁琐的定制开发。
● 2025年1月23日：OpenAI推出Operator，主打网页浏览能力的计算机使用袋里，能力和Claude的Computer Use很相近，但在网页UI上更有加成。

Manus目前演示中的工具使用能力，和Artifact水平相似，多加了网页浏览能力，但受限于虚拟机，其他计算机交互还达不到。

特别值得一提的，是MCP的出现堪称革命性。因为对AI工具使用来说，最大的问题就是数据获取和功能获取。过去常用的Function call，最大的毛病是，用API时需要为每个功能进行额外开发。每个功能分别开发，工具的扩展速度就会很慢。而MCP直接做到了高灵活、高复用，很多工具和数据都可以通过协议直接调用，无需单独开发。它优雅地统一了本地资源和远程API的访问方式。

（图片来自知乎作者Dukee）

正如AIGCLINK发起人所说：“MCP相当于一个万能的数据插头，打通了Agent构建的最后一公里。”更重要的是，它解决了隐私安全和知识产权问题——“工作流完全可以在本地运行，没有商业授权问题。”这意味着，中间件平台如Coze、Dify等产品的空间被大大压缩，模型方和应用方的分工将更加清晰。

因为在过去Agent工作流里，另一个核心功能就是工具调用，这都是中间件平台用function call手搭的。一般开发者不想自己写，就得用开发Agent工作流的中间件平台。可以说，Agent原来的中间件平台的两大作用——工具调用和节点式步骤规划，到这里就都被新技术进化取代了。

Manus的真相：是创新革命还是组装？

回到Manus本身，看看它的能力范围有没有超出前两点？从演示来看，它确实有效整合了DeepResearch、Artifacts和Operator三大现有能力。

据媒体引用但未出现在Manus官网上的资料称，Manus AI 使用一套叫“Multiple Agent”的架构，运行在独立虚拟机中，通过规划袋里、执行袋里、验证袋里的分工协作来提升复杂任务处理效率，并用并行计算缩短响应时间。在这个架构中，每个袋里可能基于独立语言模型或强化学习模型，彼此通过API或消息队列通信。每个任务在沙盒中运行，避免干扰其他任务，同时支持云端扩展。每个独立模型都能模仿人类处理任务的流程——先思考和规划，理解复杂指令并拆解为可执行步骤，再调用合适工具。

我们可以大胆地从Manus当前能执行的操作和技术描述去还原其能力：它很可能是三个相关功能的串联，由一个主脑做步骤调配。当然，也有可能根本不需要主脑，由规划袋里同时承担工作协调的能力。

这也是MIT博士Zengyi Qin认为它本质上还是预先设定的“工作流”的原因。

只不过，这个工作流当前各个节点的能力大幅增强了，而负责规划的主脑也进化成了能分布拆解和发起任务的推理模型。其袋里层及模型层架构中，与DeepResearch和Artifact能力的重叠几乎是100%（图像浏览用了一些Operator能力）。

在Manus的解释中，除了浏览网页用到Computer Use之外，它在虚拟机中的计算机应用并不多。这也是Zengyi Qin认为它在无边界操作系统级环境（open-ended OS Level environment）中尚未取得突破的原因。因此，官网介绍的智能研究、高级数据分析、任务自动化三大功能，也就是Manus的极限了。

Less Structure, More Hype?

相比DeepResearch这类尝试用推理模型赋能Agent的前沿工作，或者Claude的MCP协议对工具使用领域的革新，Manus的技术突破相对有限。它的核心创新点，是借助推理模型实现了简化结构，同时增强了智能处理能力的设计——也就是杨远骋Koji发布的、据称来自Manus团队内部的理念：“Less Structure, More Intelligence”。

当然，OpenAI的产品团队在红杉的访谈中也提到了类似的说法。

不过，作为一款产品，Manus展现了Monica公司在整合功能、优化用户体验方面的专长。它提供了简洁而强大的工作流升级，把当前最先进的AI能力整合到了一个流畅的用户体验里。在它之前，领先模型公司中唯一做过这个尝试的是谷歌——2024年12月12日，谷歌在推出Gemini的同时也推出了Agent系统Project Mariner，能同时完成获取表单、找到公司官网、联系方式等多步骤任务，且用户可以随时暂停和停止，并看到每一步的推理计划和步骤。