OWL团队万字分享:复现Manus最佳团队如何看待Agentic AI落地现状
OWL项目复刻了Manus的核心功能,提出OptimizedWorkforceLearning技术,实现多智能体协作处理现实任务。与Manus基于CodeAgent和Claude-3 5的闭源方案不同,OWL完全开源且高度可定制。性能差距主要源于模型与工具差异,MCP协议有助于统一工具接口。垂直领域Agent更值得发力,Agent产品将带来更自主的人机交互,
# 深度解析AI Agent领域最新动态:OWL项目技术、商业逻辑与Agentic AI落地现状
本教程将深度解析AI Agent领域的最新动态,聚焦于OWL项目与Manus的技术差异、AI Agent的技术原理与商业落地现状,以及CAMEL-AI开源社区的使命与未来展望。
## 01 OWL项目的源起与Manus的技术差异
### CAMEL-AI开源社区的使命
CAMEL-AI开源社区的使命是 **“finding the scaling laws of agent”**,简单来说,社区相信AI Agent有其独特的 **“scaling laws”**,核心工作就是探寻这些规律究竟是什么。
社区一直在专注底层技术,做了大量前沿研究,包括:
- 打造世界上第一个 **multi-agent** 框架
- 第一个跨平台操控项目 **CRAB**(能同时通过UI操控手机和电脑上任意APP)
- 构建了世界上第一个拥有 **100万 agent** 的multi-agent系统——**OASIS**
这些从0到1的成果,虽然耗费了大量精力,但目前受到的关注较少,社区相信它们将是未来Agent应用的重要基础设施。
> **小提示:** CRAB和OASIS都是开源项目,你可以在GitHub上找到它们的代码仓库进行学习和研究。
### 社区的核心工作方向
社区主要在以下几个方面开展工作:
1. **搭建基础设施**
- 框架、数据、Agent及其通信协议
- 面向开发者的工具
- 服务于开发者和研究人员
2. **开展前沿研究**
- 与大家一起撰写论文
- 进行开放性质的研究
- OWL项目既是学术研究,也是开发者工具
### CAMEL框架的核心特性
CAMEL是一个Agent框架,与一般框架不同的是,它**非常注重数据驱动**,从数据角度构建框架,未来AI就能实现自我发展。框架的核心特性包括:
- 整合了 **multi-agent**
- 拥有数据生成相关的流程
- 集成了国内外几乎所有主流模型
- 整合了大量工具
- 具备**短期记忆**、**长期记忆**功能
- 支持多种存储方式
- 有不同的基准测试用于Agent benchmark
- 有多种可执行代码的解释器
- 支持**向量检索**和**Bm25检索**
> **小提示:** 正是因为有CAMEL这套完备的工具库,社区团队才能快速复刻Manus的核心功能。
### OWL项目的技术框架
OWL(猫头鹰)项目主要复刻了Manus的一些功能,提出了一种名为 **Optimized Workforce Learning** 的技术,用于通用的multi-agent协助,主要处理现实世界中的任务,比如网页检索、读取PDF、生成代码等。
**系统框架工作流程:**
1. 用户指令输入后,进入 **multi-agent系统**
2. 系统内的Agent负责执行任务
3. **AI user agent** 和 **AI助手agent** 相互协作
4. 助手agent可调用各类工具:
- **web agent**:操控浏览器
- **search agent**:进行谷歌搜索或社区搜索
- **coding agent**:生成并执行代码获取结果
- **document agent**:读取并转换PDF格式
5. 任意工具都能接入基础系统
> **小提示:** OWL支持的工具包括谷歌搜索、视频处理、图像处理、音频处理、Playwright网页浏览、PDF解析、代码执行等。
### OWL与Manus的技术差异
| 对比维度 | OWL | Manus |
|---------|-----|-------|
| 技术基础 | Optimized Workforce Learning | CodeAgent + Claude-3.5 |
| 工具使用 | 用户可根据任务选择不同工具 | 只能使用固定工具 |
| 开源情况 | 完全开源 | 商业闭源 |
| 定制性 | 高度可定制 | 固定配置 |
**OWL的优势:** 开源的优势在于可以定制自己的工具,在特定领域或应用场景中,将特有的工具加入进来,提高效率和稳定性。
## 02 Manus的技术实现与市场表现
### Manus的行业意义
Manus的出现被形容为 **“点燃了AI Agent这一波技术浪潮”**。具体来说,它的意义在于:
1. 让大众看到了AI技术的可能性
2. 展示了Agent的实际应用(如做研究、写代码、操控网页)
3. **首次以出色的产品形态(UI/UX)面向大众**
4. 让众多不了解该技术的人开始关注
> **小提示:** Manus的首席科学家在推特上坦诚分享了技术细节,他们自己也说没什么技术秘密,技术本身就是成熟技术的组合。
### Manus的技术亮点
从工程角度分析,Manus有两个值得学习的技术亮点:
**1. 利用Ubuntu文件系统做上下文持久化和管理**
- 将存储文件置于用户文件夹,方便随时读取
- 相比传统数据库语义检索更灵活
**2. 把终端命令行运用到极致**
- 命令行非常通用,功能强大
- AI Agent熟练运用命令行便具备超强通用能力
- **学会把命令行当作通用工具解决问题,远比构建工具高效**
### 市场表现与评价
在国外,Manus的评价同样两极分化:
- **支持者认为:** 产品做得很棒,通用AI时代要来了
- **质疑者认为:** 这是谁都能做出来的简单“套壳”产品
## 03 AI Agent的技术原理与商业落地现状
### Agent之间的差距:模型是关键
**Q:OWL和CAMEL离大规模实际部署有多大距离?**
**成本分析:**
- 复杂任务(如证明费马大定理)可能消耗24万token,成本约$36
- 简单任务(打开网页查找信息、调研新闻)一般不超过$1
**成本降低方案:**
1. **模型层面:** 更高效完成任务,精准理解指令
2. **推理层面:** 做好量化、稀疏化、缓存等技术
3. **硬件层面:** 使用更便宜的专用推理芯片
> **常见问题:** 为什么Agent任务成本这么高?
> **答案:** Agent在执行任务时可能反复调用、尝试,在无法完成任务的情况下导致大量token消耗。可以通过设置最大步数等限制来控制成本。
### 与Manus的性能差距原因
在GAIA benchmark上对比发现:
- Level-1性能:OWL与Manus差不多
- Level-2和Level-3性能:OWL比Manus差约20%
**主要原因:**
1. **模型差距**
- OWL用GPT-4o测试,Manus用Claude 3.5
- Claude 3.5具备Computer Use能力
- **换成支持Computer Use的模型,性能将大幅提升**
2. **工具差距**
- 需要补齐工具层面的不足
- 双方各有对方没有的工具
3. **工程优化**
- 需要更多调试和实验
### MCP协议的价值
MCP(Model Context Protocol)是未来的重要技术:
- 让所有框架接入相同工具
- Cursor和OWL项目都能使用符合MCP标准的工具
- 借助众多开源工具完善Agent
使用方式:利用 **“MCP Toolkit manager”**,把MCP服务器信息给到它,连接MCP就能与相应APP连通,agent随之可获取并使用所有MCP工具。
### 为什么Manus现在才出现?
Manus的出现并非突然,而是经历了一个**量变到质变**的过程:
1. **2023年3月:** 第一个multi-agent框架发布(用于写游戏、代码、股票交易软件)
2. **AutoGPT阶段:** 能做搜索、代码生成,但效果不好
3. **产品优化阶段:** kimi、豆包、Perplexity把搜索做得不错
4. **Deep Research阶段:** OpenAI的Operator能操控网页
5. **Manus阶段:** 在基础上经过优化后出现
> **小提示:** 从技术层面看,复现Manus的技术相对简单,更多在于产品交互和形态方面。Manus首发占优势,后续产品要复现它的成功会比较难。
### CodeAct与MCP的差异
**Q:Manus采用CodeAct来调用工具,和MCP的差异是什么?**
Manus是通过写代码调用的工具,这与使用MCP进行的所有调用**并不冲突**。MCP解决的是Agent与工具之间接口的统一问题,而且MCP也支持以代码形式执行调用。
### MCP与multi-agent的关系
MCP的服务器可以是简单工具,也可以是Agent。如果服务器和客户端均为Agent,就能实现两个Agent间的通讯。服务器和客户端本身也可以是multi-agent系统,如此便可实现multi-agent之间的通讯。
## 04 垂直领域Agent的深入思考
### Agentic AI的实现路径
当前有两条看似相反的实现路径:
| 路径 | 特点 | 长期性 |
|------|------|--------|
| 端到端学习 | 模型学习tool learning能力 | 长期趋势 |
| 基模+外部工程框架 | 通过工程手段实现 | 过渡阶段 |
**李国豪的观点:** 两条路线其实是**互补的**。模型使用工具的能力本质上是概率模型,无法永远保证调用工具完全准确。通过约束采样等方式实现工具调用是很好的方式。
### 垂直领域Agent的价值
**Q:通用Agent框架已初步成型,垂类Agent框架是否更值得发力?**
**核心观点:垂类领域更值得发力**
不同领域的信息处理逻辑、所需工具、数据源、API都不同,导致通用Agent框架难以很好地适配垂类场景。
**实现难度在哪些环节?**
1. **找准问题所在**(最难)
2. **工具欠缺**:补充工具即可
3. **推理能力不足**:采集数据优化模型
4. **缺乏有效监督信号**:通过偏好学习等方式解决
### 通用Agent与垂类Agent的关系
**Q:通用Agent能力提升是否会挤压垂类Agent市场空间?**
**核心观点:如果垂直领域的工作能被通用Agent轻易取代,那就说明该垂直领域的工作还不够“垂直”**
Agent和模型有很大区别:
- Agent更需要优质的交互界面和良好的UI/UX
- 模型的输出通常是文本
- Agent的输出形式多样(操控浏览器、操控机械等)
- 不同专业领域的UI/UX设计差异很大
## 05 Agent带来的人机交互变革
### 内容输出个性化问题
**Q:通用Agent怎么解决内容输出个性化的问题?**
目前线上的解决方案主要通过**记忆模块**来实现:
- 模块能跨不同任务生成不同知识
- 执行任务前会检索知识,回忆其中的内容
- 从记忆层面解决用户偏好问题
- 需要与Agent不断交互以产生个性化
### 幻觉问题的优化方案
**Q:多个模型嵌套导致幻觉难以商用,如何优化?**
**核心观点:取决于构造的系统是收敛系统还是发散系统**
- 如果多个Agent每一步都更趋向收敛,产生的幻觉会更少
- 需要分析每一步产生幻觉的具体原因
### 端到端模型与“套壳”产品的竞争
**Q:Deep Research这类端到端模型产品未来有没有可能吃掉Manus这类产品?**
**核心观点:** 如果Manus能把“壳”套好,自身架构做得更完善,不一定会被淘汰。
Manus已经有大量用户数据,也有能力做端到端训练,同时开源模型越来越强,闭源模型也开放了微调接口,大家都有机会。
### Agent产品的人机交互特点
**Q:Agent产品与普通AI工具在人机交互方式上的区别?**
**关键差异:**
- 传统AI工具:需人主动提问、下达任务,**人主导**
- Agent产品:减少人的参与,**更自主**地完成任务
- 仅在特殊情况下需要人确认
**未来方向:**
1. **人、机器和Agent三者的交互关系**
2. **生成式UI**:UI不一定是固定的
3. **动态生成Agent**:一个发展方向
### Agent系统与具身机器人的结合
**Q:Agent系统能否成为具身机器人的任务管理技术底座?**
**核心观点:** Agent系统在未来大有可为,这个趋势已在发生。
通过Agent系统调用原子技能,实现AI Agent与具身场景的融合,这肯定是未来方向。让Agent进行多次推理是可行的,例如借鉴MapReduce的方式,分配多个任务,再整合它们的记忆。
## 06 AI for Science与Agent的融合
### 判断Agent系统好坏的标准
**评判维度:**
1. **性能方面**
- GAIA benchmark
- OSWorld Benchmark
- Crab Benchmark
2. **效率方面**
- 系统运行速度
- 资源消耗情况
### 构建专属Benchmark的方法
**Q:如何构建专属Benchmark?**
1. **保证数据多样性与足够数据量**
- 传统方式:人工采集
- 注意避免数据偏差
2. **数据合成**
- 基于已有数据合成更多数据
- 再进行标注与过滤
3. **设计合理评判指标**
- 除最终是否完成任务外
- 需考量任务完成进度
### AI for Science的产品形态
**Q:AI for Science领域的Agent与通用Agent产品形态差异?**
**核心观点:非常看好Agent用来做AI for Science**
AI for Science的特点:
1. 任务存在重复性
2. 涉及工具调用
3. 速度较慢
4. 经常需要与物理世界交互
5. 反馈周期长(可能好几天甚至一年)
**实际案例:** 自动化实验室项目,例如自动寻找新化合物,需要Agent操控机械臂完成药品选择、分发,同时对实验进行观测、分析。
### 资源有限团队的研究方向建议
**Q:对于资源极其有限的学术研究项目,应该聚焦哪些方向?**
**核心建议:选择大厂或大型创业公司不太在意或尚未关注到的领域**
**具体策略:**
1. 避开OpenAI和DeepMind等公司正在做的事情
2. 专注于他们暂时不会去做的领域
3. 关注大公司优先级不高但重要的方向
**成功案例:** 社区专注于multi-agent,构建更大规模的系统,因为短期内大公司不会涉足这个领域,但这又是一个非常重要的研究方向。
> **小提示:** AI有五个不同级别的智能定义,第五级是组织层面能够完成的事情。只有multi-agent系统才能实现组织层面的任务,这无疑是未来的重要发展方向。
---
## 常见问题汇总
### Q1:Agent任务的成本如何控制?
**答案:** 通过设置最大步数、选择成本较低的模型(如GPT系列而非Claude 3.7)、优化模型能力使Agent更高效完成任务等方法来控制成本。
### Q2:如何缩小与Manus的性能差距?
**答案:** 主要从三个方面入手:使用支持Computer Use的更强模型、补齐工具层面的不足、进行更多工程优化。
### Q3:垂直领域Agent是否值得投入?
**答案:** 非常值得。通用Agent在解决垂直领域问题时总会有效率不足的情况。如果垂直领域的工作能被通用Agent轻易取代,说明该领域的工作还不够“垂直”。
### Q4:Agent产品的核心竞争力是什么?
**答案:** Agent产品的核心竞争力在于优质的交互界面、良好的UI/UX设计,以及能够更自主地完成任务,减少人的参与。
来源:https://www.53ai.com/news/OpenSourceLLM/2025033110495.html
相关热点
继续查看同栏目近期热点。
延伸阅读
补充最近整理过的热点入口。
