游乐游手机版
首页/AI热点日报/热点详情

OpenManus一日GitHub揽万星 作者解读Agent趋势

类型:热点整理2026-07-02
推理模型能力提升后,Agent领域迎来了一个刷屏周。这话怎么说?3月2日,锦秋基金被投企业Pokee AI发布了最新通用Agent的演示Demo,引发外网讨论;3月5日晚,Manus展示Demo,全网刷屏;3月7日,国内DeepWisdom MetaGPT团队和CAMEL AI团队分别推出开源项目O

推理模型能力提升后,Agent领域迎来了一个刷屏周。这话怎么说?3月2日,锦秋基金被投企业Pokee AI发布了最新通用Agent的演示Demo,引发外网讨论;3月5日晚,Manus展示Demo,全网刷屏;3月7日,国内DeepWisdom MetaGPT团队和CAMEL AI团队分别推出开源项目OpenManus和OWL,复刻Manus,继续在网络及Github社区引发广泛讨论。

这其中,基于MetaGPT的长期技术积累,OpenManus团队仅用1小时就完成了核心系统,整体3小时火速上线,在Github上轻松收获过万星,引发广泛关注。

随后,锦秋基金邀请到了OpenManus核心作者团队——洪思睿、梁新兵、向劲宇三位专家,来一场闭门分享,深入拆解OpenManus的技术实现,并前瞻Agent技术的未来趋势。

先快速了解一下分享嘉宾的背景。洪思睿是MetaGPT论文(ICLR 2024 Oral)与数据解释器(Data Interpreter)论文一作,也是AFLOW论文(ICLR 2025 Oral)作者之一,多篇研究成果已发表在国际顶级会议。梁新兵和向劲宇则是OpenManus的核心作者与合作者,向劲宇还是AFlow和SPO的一作。

在本次分享中,几位嘉宾给出了一些非常关键的趋势判断,值得反复琢磨:

• 随着大模型能力提升,许多问题的解决成功率显著提高,特别是在QA、HumanEval这类单函数代码生成问题上,单模型已经能直接解决得很好。

• 但人类社会的问题远不止于此。机器学习、代码修复,以及需要多信息搜索整合的复杂任务,仍需要大量技术工作,尤其是如何有效应对幻觉问题。

• Agent在规划能力上的进步,既依赖模型本身能力的提升,也离不开外部结构化框架的辅助。

• 当Agent可调用的工具越来越多,其中不乏功能相似的工具时,如何做出最准确的决策、选择最合适的工具,并避免决策错误,是一个核心挑战。

• Agent的Memory管理,本质上是在解决成本和效率的博弈问题。直接使用完整memory虽然可行,但会显著增加处理时间和成本,严重影响用户体验。

• 目前解决Memory问题的一个有效方法是采用多智能体或工具辅助。在OpenManus这类框架中,通常先通过规划工具生成规划,每个任务间的memory不完全共享,任务执行完毕后进行总结或压缩处理。

• 尽管在标准测试中能判断任务是否正确完成,但在真实场景中,很难量化评估一个任务完成的好坏程度——这有点像考核一个实习生和资深员工,很难给出一个绝对客观的分数。

• Agent商业化的核心比拼点,在于能否将真实场景中的任务和效果(包括个性化功能)做到极致,用户才会愿意持续使用。

• 大量应用厂商都在优化Token消耗,无论是通过工程缓存还是memory压缩技术,核心目标是尽量减少每次调用的上下文长度。

• 未来一个很可能的趋势是:集成多个小模型的能力,实现完整甚至超越大模型的效果,在推理速度、token消耗和成本上形成明显的优势。

以下是对本次分享内容的更详细整理。

Github一天过万星,OpenManus开发揭秘

梁新兵:3月6日下午5点多,组会后劲宇提议,按照几个技术步骤,或许能达到Manus的效果。我第一次看Manus演示视频时,从交互过程判断,下意识以为它是一个单智能体系统。当时非常震惊——一个单智能体怎么能达到这么好的效果?它是怎么规划、怎么做到的?晚饭时聊起Manus的技术方案,从用户示例看,它展示了卓越的体验,但技术方案上,它大量使用了业内共识的核心基础技术。最终我判断,它是借助一个外部规划来协调多智能体。晚饭后,OpenManus的开发就开始了。整体花了大约三个小时。当时完全没想过它会爆火。

拆解Manus的多智能体实现:Manus是一个多智能体系统,核心流程是:先使用PlanningTool做规划,形成一个包含多个任务的线性结构计划,然后顺序执行每一个任务,并动态分配给相应的Agent。Agent在执行每个任务的过程中,以ReAct循环的形式调用工具完成目标。它具备规划能力和工具使用能力。一个关键点在于,Manus将PlanningTool规划工具引入多智能体框架。举个例子,Claude-3.7在SWEBench上的解决率从49%提升到了70%,一部分提升源于模型本身,另一部分就来自于规划。我们之前的工作Data Interpreter也充分证明了规划在处理现实问题中的重要性。因此,我们不仅会在多智能体系统上加入规划能力,也会在单智能体上尝试加入。我们猜测Manus使用了Claude的模型和一些自训练的模型,并在工程上做了大量优化,这显著增强了它在不同场景下的工具使用能力。

OpenManus的设计思路:当时的设计思路很清晰:一个极简的Agent框架,应该是可插拔的Tools和Prompt的组合。沿着这个思路,我们写了一个完整的Agent迷你框架。决定一个ReAct Agent效果的关键,就是提示词引导和工具使用。在OpenManus中,Prompt控制Agent的整体行为逻辑,Tools定义Agent的行动空间,二者定义了,就能完整诠释一个ReAct Agent。在React Agent的基础上,我们基于Function Call实现了一个轻量的ToolCall Agent,它能以更格式化的方式选择和执行工具。OpenManus正是基于ToolCall Agent构建的。可插拔的好处在于可组合。我们可以把几个不同场景下的Tools组合起来创造一个新的Agent,定义也很方便,只需修改动作空间(Tools),无需单独写内部逻辑。Tools本身就该是可组合的,我们的工作是把抽象做得更干净。它提供了丰富的工具集合,支持多种Agent通过装备不同工具集,灵活扩展在不同场景下的能力。规划能力的重要性不言而喻。OpenManus继承了Manus的规划优势,通过PlanningTool实现任务分解,从而处理现实世界中的复杂问题。

OpenManus工作流程:首先,OpenManus收到用户需求后,会使用PlanningTool形成一个包含多个任务的线性结构计划,并写入一个plan的markdown文件中。接着,它查看这个Plan,从中依次取出每个任务。执行任务时,会将任务分配给最适合的Agent——这些Agents装备了不同的工具集,在处理不同任务时各有优势。需要说明的是,Agent的分配是临时进行的,这使得系统更加灵活,能够根据任务的具体需求和上下文选择最合适的Agent。目前我们使用正则匹配进行任务分配,如果匹配不上,则使用默认配置的Agent执行任务。未来,我们也会考虑让LLM直接将任务分配给某个Agent。但每次执行任务都使用LLM识别意图并分配Agent,会增加计算成本和延迟。

OpenManus后续工作:接下来我们会从以下几个方向提升OpenManus的效果:增强Planning能力;引入标准化评测,采用GAIA/TAU-Bench/SWE-Bench作为基准持续评估;拓展模型适配,从Claude-3-5扩展到DeepSeek V2.5,优化低成本场景;实现容器化部署,简化安装流程;丰富示例库,增加更多实用案例,包含成功和失败的分析;前后端开发,提供UI界面提高用户体验;集成RAG模块,提供外部知识库以增强效果。Manus的产品交互做得很好,有很多技术值得学习。目前OpenManus效果还很有限,我们还没单独调效果。前期目标是与原始Manus达到相同效果,后续依靠庞大的开源社区不断优化Computer Use、Browser Use和Planning Use,以及工具调用的能力,从而带来更高的智能涌现。

3小时复刻Manus,MetaGPT的多年技术积累

洪思睿:事实上,我们整个团队在AI场景的自动化和智能体框架上已经有多年的技术积累。过去两年多,我们持续将团队工作开源并形成学术论文和技术报告,贡献给社区。主要工作包括:MetaGPT、Data Interpreter、AFlow、FACT、SELA、SPO、AOT等。

MetaGPT框架:2023年我们就开源了MetaGPT框架,这是一个多智能体的元编程框架,沉淀了多智能体协作的核心思想。我们始终认为,虽然当时大模型能力已在通用任务上达到一定水平,但要有效解决人类社会复杂问题,需要将问题原子化拆解,并集成更符合人类社会解决问题的流程。大家可能熟悉SOP(标准操作流程)这个概念。通过将SOP分配给不同角色,利用各角色的背景知识和工具能力,能显著提升大模型在复杂问题上的表现效果。因此,我们提出了嵌入SOP的多智能体框架,希望实现智能体的元编程能力。这种方法在HumanEval和MBPP等基准测试上取得了显著效果,相比当时的GPT-4模型有很大提升。我们在许多典型的软件开发应用(如2048小游戏和贪吃蛇)上验证了这一思路,与同期的其他开源框架相比,整体成功率明显更高。

Data Interpreter:在MetaGPT框架和智能体设计基础上,我们意识到智能体还需要更强的规划能力和工具使用能力,尤其是在解决机器学习或数据建模问题时。一方面,机器学习/数据建模流程通常可以结合大模型能力规划出完整流程,大模型可以更关注任务的执行和实现。另一方面,处理大型表格数据时,由于大模型上下文限制,无法直接输入全部数据,我们需要智能体通过代码形式与数据交互。所以从2023年下半年开始,我们探索规划能力和工具使用能力,沉淀出“数据解释器”(Data Interpreter)这一工作。在Devin等项目出圈的那段时间,我们发现Data Interpreter在数据建模/机器学习等任务上已经达到了初级数据分析师的水平。只需将数据交给它,它就能完成从数据处理到NLP/CV模型训练等复杂AI任务。

SELA:在Data Interpreter的基础上,为了进一步提高效果,我们认为需要增强智能体的调试能力和对实验结果的反馈机制。我们开发了SELA工作:在Data Interpreter基础上增加了蒙特卡洛搜索方法,使智能体通过自主实验的方式进行机器学习任务的自动优化,在推理过程中进行多样性探索,并根据执行结果反馈调整策略和求解步骤,从而进一步提升整体任务表现。通过这种方式,我们显著提升了Agent在机器学习任务上的能力,达到了与AutoML工具相当的水平。

AFlow:同期,我们还基于蒙特卡洛树搜索(MCTS)在大模型推理能力提升上进行了探索,研发了AFlow工作。不同于固定SOP的方案,AFlow可以为不同任务自动搜索合适的解决流程。AFlow的创新点在于:如何在不同问题上提升解决效果?我们希望系统能根据问题反馈,自主探索出最优的智能体组合(拓扑结构),使解决问题的组合更动态,规模也无需预先规定。AFlow通过定义问题原子化的搜索空间,并利用蒙特卡洛方法探索和优化多智能体的组合拓扑结构。这项工作在六个数据集上均取得了SOTA结果,并获得了ICLR 2025的Oral认可。

FACT:我们也注意到,随着智能体解决问题步骤的增加,其Memory体量也会增大。因此我们需要解决智能体在问题求解过程中的上下文管理问题,通过改进检索和上下文压缩来提升能力。我们提出了FACT工作,通过多针查找机制提升大模型在事实查找上的准确率,在QA问题上展现了显著效果,并被NAACL录用。

此外,去年9月份左右,我们在SWE-Bench上进行了能力探索。我们发现大模型在代码修复等问题上,需要依赖文件定位、查找以及Computer Use能力,同时对工具使用和规划能力提出较高要求。许多工作采用多智能体方式来解决这类长链复杂推理过程。因此我们在这个Benchmark任务中加入了文件定位、文件查找等能力,这后来也成为了OpenManus代码的基础。如果查看OpenManus的代码,会发现其中不少工具与代码修复和定位相关。

SPO:SPO是一套提示词优化工具。与传统需要大量数据集的优化方法不同,SPO适用于没有准确评分或数据集有限的场景。例如写小红书文案或SEO优化时,可能只有几个满意样例。SPO能在这种有限样例条件下进行提示词优化。该工具已经开源,在国内魔搭平台和Hugging Face上均有良好反馈。

AOT:AOT(原子思维)则用于问答类信息推理和整合任务,如从不同段落整合信息进行阅读理解。这项工作已有35万浏览量,后续会整合到MetaGPT框架中。

十个基础问题,还原Agent的现实难题

Q1:大模型能力提升后,能否完全解决复杂问题?
洪思睿:随着大模型能力提升,许多问题的解决成功率会提高,但问题本身并不会消失。例如前面提到的QA、HumanEval和MBPP这类单函数代码生成问题,现在单模型已经能解决得很好。从去年到今年,大模型在这类问题上的成功率已接近实用水平。但人类社会有很多非常复杂和长尾的问题,包括我们正在解决的机器学习、代码修复,以及通过搜索组合结果提供给用户的问题,这些仍需要大量技术工作,特别是解决幻觉问题。

Q2:大模型能力提升与Agent提升的关系是什么?
向劲宇:Agent与大模型可能是垂直或正交的关系。框架本身的提升会因为模型能力的提升而带来更多功能,两者并不冲突。框架扩展了更多工具,让大模型可以与物理世界或更多环境交互。同时,大模型自身的提升会增强其推理和规划能力。两者可以组合使用,也可以分离开来,这是一种互补而非冲突的关系。

Q3:Foundation Agent Model目前能达到什么水平?
向劲宇:最近看过一些相关的工作,不过可能不完全是Foundation Agent Model。我观察到Pan Jiayi团队做了一个尝试,他们在SWE-GYM项目上解决代码库修复问题。他们使用基于Claude或GPT-4o等模型运行后产生的数据,再借助Openhands等框架采集Agent运行过程中的轨迹数据,既包括成功案例,也包括失败案例。然后将轨迹数据重新用于训练Qwen的开源模型,观察到模型在这种训练后能力有所提升。他们在论文中详细描述了这一过程,研究内容比较扎实。这类工作的泛化难点在于,在SWE-Bench中我们能明确判断任务是否正确完成,但在实际场景中,很多情况下很难量化评估任务完成的好坏程度。就像现实工作里考核一个实习生和一个资深员工,很难给出一个客观分数,需要基于很多主观的业务逻辑和标准来判定。这种开放任务下的评估反馈自动设计,也是我们未来探索的一个重要方向。

Q4:Agent在规划上的进步是否主要依赖于大模型本身?
向劲宇:目前规划方面的进步,一方面取决于模型本身能力的提升,另一方面也依靠外部结构的辅助,即在Agent层面加入更复杂的结构进行辅助规划。最早的工作之一是"Tree of Thought"(TOT),它通过引入额外结构,使模型在任务推理过程中取得了显著增强。规划领域也有类似的外部结构辅助相关工作在进行。

Q5:Agent使用外部工具的难点是什么?
梁新兵:目前OpenManus主要使用一些现有开源工具,比如Cloud Computer和Browser。有其他团队开展的Browser使用相关工作表明,仅凭这两个工具就能完成许多任务,已经初步形成Manus的雏形。另外,如果Agent想使用某个工具但目前没有,我们也设想未来可以赋予Agent创建工具的能力。当Agent需要工具去完成任务但环境中没有合适的工具时,它可以自行创建并使用,这将进一步增强Agent的能力。

洪思睿:说到底,大模型和Agent使用工具本身并不新奇。但随着工具数量逐步增加,技术难点也随之而来:如果有众多相似工具,Agent在解决同一任务时如何做出准确决策,选择最合适的工具,并避免决策错误。此外,如果不是使用标准化的工具接口,而是自行定义工具,还可能面临工具参数定义不合理或不明确的问题,导致大模型在生成调用工具决策时容易出错,工具执行效果因此受影响。另一个难点不仅仅是工具的选择和使用本身,而是上下文中可能包含很多细节信息。例如用户同时打开不同网页时,这些网页上的信息(比如某个简历的时间、另一个网页提及的某个事件的起始时间),Agent在整合生成最终结果时可能会造成混淆或错误。如何保证Agent在使用工具时准确处理这些细节信息,是实际应用中需要重点解决的问题。

Q6:MCP等协议在工具使用方面会成为主流吗?
梁新兵:MCP协议目前正在逐渐成为主流。工具使用的能力,这实际上取决于模型本身是否具备良好的工具使用能力。有些模型可能并不具备工具使用能力,或者这方面能力较弱,使用工具时效果就会受限制。因此,工具协议的普及与模型自身具备较强的工具使用能力密切关联。

Q7:Agent在处理海量上下文(Memory管理)时有哪些进展和难点?
洪思睿:大家可能了解一些已有工作,如MemoryGPT或开源项目Mem0,它们对较长上下文和Agent的记忆管理做了一些优化。例如MemoryGPT对上下文进行总结,这是一种朴素但有效的思想。Mem0则在memory更新过程中主动使用工具,涉及memory删除、更新和新增等操作。目前Agent在处理复杂、长程任务(例如浏览网页时,信息可能非常长)时,如何压缩上下文并存储到记忆中,是一个非常具有挑战性的问题,并且要确保压缩后关键信息不被修改或遗漏。早期一些研究工作指出,memory会随着时间或任务步骤的增加而消退。另一方面,人的memory存在多种类型,不仅仅是语义信息的记忆,还包括工具使用时产生的程序性记忆以及事件关联关系的记忆。学术界也针对不同的记忆类型分别进行优化。以上是单个Agent的memory管理情况。在多智能体系统中,我们可以更巧妙地利用memory。除了一定程度的隔离,人们还希望复用其他Agent在解决问题过程中产生的memory,以增强自己处理特定任务的经验。此外,Agent可以进化,复用群体的解决问题经验,最终形成群体智能。

梁新兵:memory管理主要涉及成本问题。如果我们不考虑memory,不做压缩和处理,直接使用完整的memory,目前的大模型仍然可以处理,但这样带来的问题并非质量下降,而是会显著增加处理时间和成本,严重影响用户体验。因此这涉及工程层面的优化,目前已有一些公司或组织在尝试优化memory。当前解决memory问题的一个方法是采用多智能体或工具辅助的方式,例如在OpenManus等框架中,通常通过规划工具先生成规划,每个规划包含多个任务,每个任务间的memory不完全共享,每个任务执行完毕后进行总结或压缩处理。

Q8:Agent在商业化落地上最终会拼什么?
洪思睿:最重要的是将真实场景中的任务和效果,包括个性化功能,做到极致。目前学术界的许多工作,无论是针对SWEBench、GAIA还是其他Agent测试任务,任务成功率依然有限。如果这种相对微小的任务标准对应到真实商业场景,不同用户面对不同难度的问题,目前Agent的成功率还相当受限。无论是编程任务,还是数据收集和报告生成任务,如果能够针对各种各样的用户问题和场景做到极致,将成功率提升到令人满意的程度,真正实现Agent当前人们所期望的行动能力,我相信用户会持续使用Agent,将其作为日常助手和工具。

Q9:当前Manus、OpenManus等Agent成本较高,如何进一步降本增效?
洪思睿:首先,大量应用厂商(包括我们自己在内)都会对token消耗进行优化,无论是在工程上通过缓存还是memory压缩技术,尽量减少每次调用的上下文长度,这是在应用层面持续优化的方向。此外,未来大家很可能会部署大量小模型,基于已有数据进行微调或强化,专注于优化某些节点或工具使用的能力。通过集成多个小模型的能力,实现完整甚至超过大模型的效果。这样可以在推理速度、token消耗和费用上明显降低成本。

Q10:如何评估多智能体的商业前景?
洪思睿:首先我们认为在代码生成领域,无论是单个Agent还是多智能体系统,都可以更早实现商业落地。我们发现大量用户虽然编程水平一般,但懂一些基本概念,想自行搭建个人网站或简单应用程序时,非常需要智能体或大模型辅助解决问题。如果用户直接使用大模型,可能需要多轮交互和烦琐的调试过程。但使用产品化的智能体系统,这个过程就能变得轻松。用户可能只需花费15分钟或半小时,包括后续需求变更,也能快速获得满意的网站或应用。因此我认为,在真正有效解决用户实际需求方面,多智能体的商业前景是明确且强烈的,也是Agent技术目前能较好解决的场景,用户在这方面的付费意愿也较高。

Agent商业化:代码生成加速落地

Q1. 能否简单介绍一下MGX这款多智能体产品?
洪思睿:如果大家熟悉MetaGPT,就会了解MGX是一款多智能体同时在线协作、帮助用户解决问题的产品。用户只需像使用ChatGPT一样输入需求,便会有一个较强的智能体对任务进行拆解,再将任务分发到不同的智能体执行。整个产品目前主要专注于代码生成领域。例如用户想做个人网站、游戏或者数据分析的应用程序等,智能体都能很好地完成任务。在开发过程中用户可以随时修改需求,比如调整前端项目的风格、排版或布局,智能体也能很自然地完成,使整个开发成本明显降低。与Manus和OpenManus等产品不同,我们具备自动部署的能力,即开发过程中软件会自动部署,用户可实时预览和调整效果。此外,产品中每个智能体也具有之前提到的计算机工具调用、浏览器工具调用,以及规划和代码执行的能力。我们内部也对设计或数据可视化效果进行美学评估,可能会形成相应的Benchmark,帮助大模型或Agent学习评估生成的页面或数据仪表盘是否符合用户预期和审美标准。以下是样例:
个人网站:
https://alex-portfolio-yhx5c3-v1.mgx.world/
https://photographer-portfolio-myuf2t-v1.mgx.world
个人博客:
https://personal-blog-v7amdv-v2.mgx.world
https://cute-cartoon-blog-p58801-v1.mgx.world
个人名片:
https://portfolio-dveerm-v1.mgx.world
https://emma-anderson-homepage-8rnqm6-v1.mgx.world

Q2. MGX DEV后续会不会增加新的Agent?
洪思睿:MGX后续会继续增加新的Agent。我们内部目前正在尝试一种叫做User Agent的新型智能体。当用户项目部署后,有可能无法直接运行或出现缺陷,导致页面空白等情况。User Agent会主动检测项目部署效果,例如截取页面截图,主动与网页交互,测试生成软件的可行性和可执行性,随后再通知其他负责开发的智能体进行修复,以便更完善地完成项目。此外,我们内部也可能沉淀针对设计或数据可视化效果进行美学评估的Benchmark,使得Agent能够判断页面或数据仪表盘的质量与审美表现是否符合预期。

(完)

来源:https://www.53ai.com/news/OpenSourceLLM/2025031161327.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。