OWL团队万字分享：复现Manus最佳团队如何看待Agentic AI落地现状_AI热点日报

OWL团队万字分享：复现Manus最佳团队如何看待Agentic AI落地现状

类型：热点整理2026-07-05

OWL项目复刻了Manus的核心功能，提出OptimizedWorkforceLearning技术，实现多智能体协作处理现实任务。与Manus基于CodeAgent和Claude-3 5的闭源方案不同，OWL完全开源且高度可定制。性能差距主要源于模型与工具差异，MCP协议有助于统一工具接口。垂直领域Agent更值得发力，Agent产品将带来更自主的人机交互，

# 深度解析AI Agent领域最新动态：OWL项目技术、商业逻辑与Agentic AI落地现状本教程将深度解析AI Agent领域的最新动态，聚焦于OWL项目与Manus的技术差异、AI Agent的技术原理与商业落地现状，以及CAMEL-AI开源社区的使命与未来展望。 ## 01 OWL项目的源起与Manus的技术差异 ### CAMEL-AI开源社区的使命 CAMEL-AI开源社区的使命是 **“finding the scaling laws of agent”**，简单来说，社区相信AI Agent有其独特的 **“scaling laws”**，核心工作就是探寻这些规律究竟是什么。社区一直在专注底层技术，做了大量前沿研究，包括： - 打造世界上第一个 **multi-agent** 框架 - 第一个跨平台操控项目 **CRAB**（能同时通过UI操控手机和电脑上任意APP） - 构建了世界上第一个拥有 **100万 agent** 的multi-agent系统——**OASIS** 这些从0到1的成果，虽然耗费了大量精力，但目前受到的关注较少，社区相信它们将是未来Agent应用的重要基础设施。 > **小提示：** CRAB和OASIS都是开源项目，你可以在GitHub上找到它们的代码仓库进行学习和研究。 ### 社区的核心工作方向社区主要在以下几个方面开展工作： 1. **搭建基础设施** - 框架、数据、Agent及其通信协议 - 面向开发者的工具 - 服务于开发者和研究人员 2. **开展前沿研究** - 与大家一起撰写论文 - 进行开放性质的研究 - OWL项目既是学术研究，也是开发者工具 ### CAMEL框架的核心特性 CAMEL是一个Agent框架，与一般框架不同的是，它**非常注重数据驱动**，从数据角度构建框架，未来AI就能实现自我发展。框架的核心特性包括： - 整合了 **multi-agent** - 拥有数据生成相关的流程 - 集成了国内外几乎所有主流模型 - 整合了大量工具 - 具备**短期记忆**、**长期记忆**功能 - 支持多种存储方式 - 有不同的基准测试用于Agent benchmark - 有多种可执行代码的解释器 - 支持**向量检索**和**Bm25检索** > **小提示：** 正是因为有CAMEL这套完备的工具库，社区团队才能快速复刻Manus的核心功能。 ### OWL项目的技术框架 OWL（猫头鹰）项目主要复刻了Manus的一些功能，提出了一种名为 **Optimized Workforce Learning** 的技术，用于通用的multi-agent协助，主要处理现实世界中的任务，比如网页检索、读取PDF、生成代码等。 **系统框架工作流程：** 1. 用户指令输入后，进入 **multi-agent系统** 2. 系统内的Agent负责执行任务 3. **AI user agent** 和 **AI助手agent** 相互协作 4. 助手agent可调用各类工具： - **web agent**：操控浏览器 - **search agent**：进行谷歌搜索或社区搜索 - **coding agent**：生成并执行代码获取结果 - **document agent**：读取并转换PDF格式 5. 任意工具都能接入基础系统 > **小提示：** OWL支持的工具包括谷歌搜索、视频处理、图像处理、音频处理、Playwright网页浏览、PDF解析、代码执行等。 ### OWL与Manus的技术差异 | 对比维度 | OWL | Manus | |---------|-----|-------| | 技术基础 | Optimized Workforce Learning | CodeAgent + Claude-3.5 | | 工具使用 | 用户可根据任务选择不同工具 | 只能使用固定工具 | | 开源情况 | 完全开源 | 商业闭源 | | 定制性 | 高度可定制 | 固定配置 | **OWL的优势：** 开源的优势在于可以定制自己的工具，在特定领域或应用场景中，将特有的工具加入进来，提高效率和稳定性。 ## 02 Manus的技术实现与市场表现 ### Manus的行业意义 Manus的出现被形容为 **“点燃了AI Agent这一波技术浪潮”**。具体来说，它的意义在于： 1. 让大众看到了AI技术的可能性 2. 展示了Agent的实际应用（如做研究、写代码、操控网页） 3. **首次以出色的产品形态（UI/UX）面向大众** 4. 让众多不了解该技术的人开始关注 > **小提示：** Manus的首席科学家在推特上坦诚分享了技术细节，他们自己也说没什么技术秘密，技术本身就是成熟技术的组合。 ### Manus的技术亮点从工程角度分析，Manus有两个值得学习的技术亮点： **1. 利用Ubuntu文件系统做上下文持久化和管理** - 将存储文件置于用户文件夹，方便随时读取 - 相比传统数据库语义检索更灵活 **2. 把终端命令行运用到极致** - 命令行非常通用，功能强大 - AI Agent熟练运用命令行便具备超强通用能力 - **学会把命令行当作通用工具解决问题，远比构建工具高效** ### 市场表现与评价在国外，Manus的评价同样两极分化： - **支持者认为：** 产品做得很棒，通用AI时代要来了 - **质疑者认为：** 这是谁都能做出来的简单“套壳”产品 ## 03 AI Agent的技术原理与商业落地现状 ### Agent之间的差距：模型是关键 **Q：OWL和CAMEL离大规模实际部署有多大距离？** **成本分析：** - 复杂任务（如证明费马大定理）可能消耗24万token，成本约$36 - 简单任务（打开网页查找信息、调研新闻）一般不超过$1 **成本降低方案：** 1. **模型层面：** 更高效完成任务，精准理解指令 2. **推理层面：** 做好量化、稀疏化、缓存等技术 3. **硬件层面：** 使用更便宜的专用推理芯片 > **常见问题：** 为什么Agent任务成本这么高？ > **答案：** Agent在执行任务时可能反复调用、尝试，在无法完成任务的情况下导致大量token消耗。可以通过设置最大步数等限制来控制成本。 ### 与Manus的性能差距原因在GAIA benchmark上对比发现： - Level-1性能：OWL与Manus差不多 - Level-2和Level-3性能：OWL比Manus差约20% **主要原因：** 1. **模型差距** - OWL用GPT-4o测试，Manus用Claude 3.5 - Claude 3.5具备Computer Use能力 - **换成支持Computer Use的模型，性能将大幅提升** 2. **工具差距** - 需要补齐工具层面的不足 - 双方各有对方没有的工具 3. **工程优化** - 需要更多调试和实验 ### MCP协议的价值 MCP（Model Context Protocol）是未来的重要技术： - 让所有框架接入相同工具 - Cursor和OWL项目都能使用符合MCP标准的工具 - 借助众多开源工具完善Agent 使用方式：利用 **“MCP Toolkit manager”**，把MCP服务器信息给到它，连接MCP就能与相应APP连通，agent随之可获取并使用所有MCP工具。 ### 为什么Manus现在才出现？ Manus的出现并非突然，而是经历了一个**量变到质变**的过程： 1. **2023年3月：** 第一个multi-agent框架发布（用于写游戏、代码、股票交易软件） 2. **AutoGPT阶段：** 能做搜索、代码生成，但效果不好 3. **产品优化阶段：** kimi、豆包、Perplexity把搜索做得不错 4. **Deep Research阶段：** OpenAI的Operator能操控网页 5. **Manus阶段：** 在基础上经过优化后出现 > **小提示：** 从技术层面看，复现Manus的技术相对简单，更多在于产品交互和形态方面。Manus首发占优势，后续产品要复现它的成功会比较难。 ### CodeAct与MCP的差异 **Q：Manus采用CodeAct来调用工具，和MCP的差异是什么？** Manus是通过写代码调用的工具，这与使用MCP进行的所有调用**并不冲突**。MCP解决的是Agent与工具之间接口的统一问题，而且MCP也支持以代码形式执行调用。 ### MCP与multi-agent的关系 MCP的服务器可以是简单工具，也可以是Agent。如果服务器和客户端均为Agent，就能实现两个Agent间的通讯。服务器和客户端本身也可以是multi-agent系统，如此便可实现multi-agent之间的通讯。 ## 04 垂直领域Agent的深入思考 ### Agentic AI的实现路径当前有两条看似相反的实现路径： | 路径 | 特点 | 长期性 | |------|------|--------| | 端到端学习 | 模型学习tool learning能力 | 长期趋势 | | 基模+外部工程框架 | 通过工程手段实现 | 过渡阶段 | **李国豪的观点：** 两条路线其实是**互补的**。模型使用工具的能力本质上是概率模型，无法永远保证调用工具完全准确。通过约束采样等方式实现工具调用是很好的方式。 ### 垂直领域Agent的价值 **Q：通用Agent框架已初步成型，垂类Agent框架是否更值得发力？** **核心观点：垂类领域更值得发力** 不同领域的信息处理逻辑、所需工具、数据源、API都不同，导致通用Agent框架难以很好地适配垂类场景。 **实现难度在哪些环节？** 1. **找准问题所在**（最难） 2. **工具欠缺**：补充工具即可 3. **推理能力不足**：采集数据优化模型 4. **缺乏有效监督信号**：通过偏好学习等方式解决 ### 通用Agent与垂类Agent的关系 **Q：通用Agent能力提升是否会挤压垂类Agent市场空间？** **核心观点：如果垂直领域的工作能被通用Agent轻易取代，那就说明该垂直领域的工作还不够“垂直”** Agent和模型有很大区别： - Agent更需要优质的交互界面和良好的UI/UX - 模型的输出通常是文本 - Agent的输出形式多样（操控浏览器、操控机械等） - 不同专业领域的UI/UX设计差异很大 ## 05 Agent带来的人机交互变革 ### 内容输出个性化问题 **Q：通用Agent怎么解决内容输出个性化的问题？** 目前线上的解决方案主要通过**记忆模块**来实现： - 模块能跨不同任务生成不同知识 - 执行任务前会检索知识，回忆其中的内容 - 从记忆层面解决用户偏好问题 - 需要与Agent不断交互以产生个性化 ### 幻觉问题的优化方案 **Q：多个模型嵌套导致幻觉难以商用，如何优化？** **核心观点：取决于构造的系统是收敛系统还是发散系统** - 如果多个Agent每一步都更趋向收敛，产生的幻觉会更少 - 需要分析每一步产生幻觉的具体原因 ### 端到端模型与“套壳”产品的竞争 **Q：Deep Research这类端到端模型产品未来有没有可能吃掉Manus这类产品？** **核心观点：** 如果Manus能把“壳”套好，自身架构做得更完善，不一定会被淘汰。 Manus已经有大量用户数据，也有能力做端到端训练，同时开源模型越来越强，闭源模型也开放了微调接口，大家都有机会。 ### Agent产品的人机交互特点 **Q：Agent产品与普通AI工具在人机交互方式上的区别？** **关键差异：** - 传统AI工具：需人主动提问、下达任务，**人主导** - Agent产品：减少人的参与，**更自主**地完成任务 - 仅在特殊情况下需要人确认 **未来方向：** 1. **人、机器和Agent三者的交互关系** 2. **生成式UI**：UI不一定是固定的 3. **动态生成Agent**：一个发展方向 ### Agent系统与具身机器人的结合 **Q：Agent系统能否成为具身机器人的任务管理技术底座？** **核心观点：** Agent系统在未来大有可为，这个趋势已在发生。通过Agent系统调用原子技能，实现AI Agent与具身场景的融合，这肯定是未来方向。让Agent进行多次推理是可行的，例如借鉴MapReduce的方式，分配多个任务，再整合它们的记忆。 ## 06 AI for Science与Agent的融合 ### 判断Agent系统好坏的标准 **评判维度：** 1. **性能方面** - GAIA benchmark - OSWorld Benchmark - Crab Benchmark 2. **效率方面** - 系统运行速度 - 资源消耗情况 ### 构建专属Benchmark的方法 **Q：如何构建专属Benchmark？** 1. **保证数据多样性与足够数据量** - 传统方式：人工采集 - 注意避免数据偏差 2. **数据合成** - 基于已有数据合成更多数据 - 再进行标注与过滤 3. **设计合理评判指标** - 除最终是否完成任务外 - 需考量任务完成进度 ### AI for Science的产品形态 **Q：AI for Science领域的Agent与通用Agent产品形态差异？** **核心观点：非常看好Agent用来做AI for Science** AI for Science的特点： 1. 任务存在重复性 2. 涉及工具调用 3. 速度较慢 4. 经常需要与物理世界交互 5. 反馈周期长（可能好几天甚至一年） **实际案例：** 自动化实验室项目，例如自动寻找新化合物，需要Agent操控机械臂完成药品选择、分发，同时对实验进行观测、分析。 ### 资源有限团队的研究方向建议 **Q：对于资源极其有限的学术研究项目，应该聚焦哪些方向？** **核心建议：选择大厂或大型创业公司不太在意或尚未关注到的领域** **具体策略：** 1. 避开OpenAI和DeepMind等公司正在做的事情 2. 专注于他们暂时不会去做的领域 3. 关注大公司优先级不高但重要的方向 **成功案例：** 社区专注于multi-agent，构建更大规模的系统，因为短期内大公司不会涉足这个领域，但这又是一个非常重要的研究方向。 > **小提示：** AI有五个不同级别的智能定义，第五级是组织层面能够完成的事情。只有multi-agent系统才能实现组织层面的任务，这无疑是未来的重要发展方向。 --- ## 常见问题汇总 ### Q1：Agent任务的成本如何控制？ **答案：** 通过设置最大步数、选择成本较低的模型（如GPT系列而非Claude 3.7）、优化模型能力使Agent更高效完成任务等方法来控制成本。 ### Q2：如何缩小与Manus的性能差距？ **答案：** 主要从三个方面入手：使用支持Computer Use的更强模型、补齐工具层面的不足、进行更多工程优化。 ### Q3：垂直领域Agent是否值得投入？ **答案：** 非常值得。通用Agent在解决垂直领域问题时总会有效率不足的情况。如果垂直领域的工作能被通用Agent轻易取代，说明该领域的工作还不够“垂直”。 ### Q4：Agent产品的核心竞争力是什么？ **答案：** Agent产品的核心竞争力在于优质的交互界面、良好的UI/UX设计，以及能够更自主地完成任务，减少人的参与。

来源：https://www.53ai.com/news/OpenSourceLLM/2025033110495.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。

OWL团队万字分享：复现Manus最佳团队如何看待Agentic AI落地现状

相关热点

延伸阅读