零基础入门 | AI Agent 框架是怎样的？有哪些部分？

首页

AI资讯

热心网友

转载

2026-03-31

Agent = Reasoning + Acting

1.1 AI Agent 框架基础理论

关于AI智能体是啥，这里摘一段Google Cloud的定义，言简意赅：“AI智能体是使用AI来实现目标并代表用户完成任务的软件系统。其表现出推理、规划和记忆能力，并且具有一定的自主性，能够自主学习、适应和做出决定。”

1）ReAct 模式

说到当前AI Agent的理论基础，ReAct模式无疑是最根本、也最具代表性的一环。这个模式由Yao等人在2022年的论文《ReAct: Synergizing Reasoning and Acting in Language Models》中提出，核心就是把“推理”和“行动”拧成了一股绳。

大家都很熟悉CoT（思维链），它确实大幅提升了大型语言模型的推理能力，但短板也很明显：它像个闭关修炼的学者，没法真正与外部世界互动，自然也就拿不到实时的反馈，知识疆域难以拓宽。ReAct的出现，恰好弥补了这个缺口。

ReAct智能体的工作原理，本质上是一个循环迭代、持续更新的闭环，可以清晰地分为三个步骤：

推理（Reasoning）

依托大语言模型，对当前的任务状态进行分析，形成内部的思考链条，从而确定下一步该干什么。其核心思路，就是我们熟知的思维链（CoT）。

执行（Acting）

根据上一步推理出的结论，去执行具体的操作。比如搜索信息、调用外部工具（函数工具、MCP、Shell命令、代码执行等），这一步的实现深度依赖于宿主机的执行环境和具体的应用场景。

观察（Observation）

审视上一步操作的结果，将得到的反馈信息注入下一轮的思考中；如果判断已经获得最终答案，就直接整理并输出结果。

2）Plan-and-Execute 模式

时间来到2023年5月，LangChain团队参考了Lei Wang等人的《Plan-and-Solve Prompting》论文以及当时热门的开源项目BabyAGI，提出了Plan-and-Execute模式。其中，《Plan-and-Solve Prompting》的思路很直接：让大模型先制定一个完整的分步计划，然后按部就班地去执行，而不是像ReAct那样“走一步看一步”。

再说BabyAGI项目，它算是第一个火出圈的任务驱动型自主Agent，简单来说，就是实现了“生成任务列表→执行任务→根据结果再规划”这样一个循环工作流。

Plan-and-Execute模式的核心在于“先规划，后执行”，属于一种结构相对固定的工作流程，典型路径是：规划→任务1→任务2→任务3→总结。这种模式非常适合那些步骤复杂、任务间关联性强的长期目标。当然，它的不足也在于此：流程过于固定，缺乏根据实际情况动态调整的灵活性。

3）Reflection 模式

最早系统性地将“反思”概念引入Agent设计的，是Noah Shinn、Shunyu Yao（没错，也是ReAct的作者之一）等人的论文《Reflexion: Language Agents with Verbal Reinforcement Learning》。这篇论文提出的Reflexion框架，核心在于不更新模型权重，而是通过语言反馈来强化语言智能体。简言之，Agent会对任务反馈进行“口头反思”，并将这些反思内容存入情节记忆缓冲区，为后续的决策提供参考，从而做得更好。

除此之外，Aman Madaan等人受人类修改文本方式的启发，在《Self-Refine: Iterative Refinement with Self-Feedback》论文中提出了Self-Refine方法。这种方法通过“输出→反馈→优化”的反复循环，来提升大模型的初始输出质量。据测试，在所有评估任务中，Self-Refine平均能将任务性能提升约20%。

还有清华大学与微软联合发布的《CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing》论文，该方法结合外部工具（如搜索引擎、代码执行器）来验证大模型的输出，再根据验证结果进行自我修正。

这些里程碑式的研究，共同构成了Reflection模式的理论基石。如今主流的Agent框架虽然演绎出各种形态，但基本都是ReAct提出后的扩展与补充。说到底，Agent的核心实践从未脱离ReAct的根本逻辑——将推理与执行紧密结合。

1.2 主流 AI Agent 框架对比

目前市面上的主流AI Agent框架选择不少，各有侧重，简单梳理如下：

LangChain

算得上最成熟、应用最广泛的框架之一。其工具链和集成能力极其丰富，能帮助开发者快速搭建复杂的AI应用。它支持各类大模型、向量数据库和工具调用，文档齐全，社区生态成熟。

LlamaIndex
主打数据索引和检索，在RAG（检索增强生成）场景中表现尤为突出。文档处理和查询效率很高，非常适合构建知识密集型的AI应用。

AutoGPT/AutoGen

微软推出的多智能体协作框架，支持多个智能体之间相互沟通、协同工作。擅长将复杂任务拆解后分工执行，用以处理更大型、更复杂的挑战。

CrewAI

专注于“角色扮演型”的智能体协作，每个智能体都有清晰的角色定位和目标。这种设计使其非常适于模拟真实世界中的团队协作场景。

LangGraph

由LangChain团队开发的状态图框架，能实现更精细的流程控制。适合开发那些逻辑复杂、对状态管理要求严格的Agent应用。

Semantic Kernel

微软推出的轻量级框架，与Azure服务的兼容性极佳，支持多种编程语言，主打插件化设计。

怎么选？直接看建议

想快速做出Agent原型？优先考虑LangChain。
主攻RAG检索增强类应用？强烈推荐LlamaIndex。
业务涉及多智能体协同工作？选AutoGen或CrewAI，它们天生就是为协作设计的。
需要复杂流程控制？用LangGraph，基于状态管理的工作流更灵活，通用性强。
工作环境是.NET生态？搭配Semantic Kernel最合适。

另外，随着Anthropic的Claude Cowork这类通用Agent的爆火，现在出现了许多基于通用Code Agent SDK开发的“套壳”应用。比如，CodeBuddy团队就用自家的CodeBuddy Agent SDK打造了WorkBuddy等产品。

这类Agent的核心优势在于：能够针对不同的用户场景，提供更友好的交互设计和更贴合实际工作流的解决方案。

1.3 AI Agent 框架核心

谈到Agent应用的落地与破圈，有一款产品绝对无法绕开——AI初创公司Monica推出的C端产品Manus。它的一夜爆火，直接将Agent从技术极客的小圈子，推向了普通大众的视野。

在人机交互层面，Manus首次模糊地勾勒出了Agent应用的交互雏形。这就像当年键盘鼠标的诞生、第一代iPhone的发布，回头去看，都带有划时代的意义。

在工程实践上，Manus更是走在了行业前沿：

当年MCP技术正热时，Manus首席科学家Peak直接在社交平台表态：“Actually, Manus doesn’t use MCP。”
短短4个月后（2025年7月），Manus官方工程博客发布《AI Agent的上下文工程：构建Manus的经验教训》，公开了其关键技术路线：放弃微调，专注于在通用大模型基础上深耕上下文工程。其中最关键的一条经验便是：用文件系统做上下文。

仅过了3个月，2025年10月Anthropic推出Claude Skills，“用文件系统作为上下文”的思路瞬间火遍行业，成为公认的主流方向。

而那句“Actually, Manus doesn’t use MCP”其实还有后半句：“inspired by CodeAct”。

CodeAct是一套经典的Agent设计架构，源自UIUC王星尧博士2024年初的论文《Executable Code Actions Elicit Better LLM Agents》。其核心观点非常直接：让LLM Agent生成可执行的Python代码，以此来统一行动空间。这意味着Agent完成任务不再仅仅依赖Function Call或MCP；直接写代码执行，效果反而更优。

到了2025年11月，Anthropic官方博客也发文《Code execution with MCP: Building more efficient agents》，提出将MCP服务器当作代码API，让Agent自己编写代码与之交互，实现按需加载、更高效地利用上下文。这与CodeAct的思路不谋而合，也印证了Shunyu Yao的那句名言：“人类最重要的能力是手，AI最重要的能力可能是代码。”

从Manus的发展轨迹，我们可以清晰地总结出当前Agent工程领域的两大行业共识：

1. 用文件系统做上下文：利用文件来存储Agent的长期记忆，比如OpenClaw的SOUL.md/TOOLS.md/MEMORY.md等方案，如今已成为标配。
2. 编程是通用解题方案：AI最擅长用代码解决问题——提出问题→生成代码→执行代码→循环迭代→直到解决问题。

如今，主流Agent框架已经从传统的ReAct模式，逐步融入了CodeAct的思想，但“推理 + 执行”的核心逻辑始终未变。

站在工程实施的角度看，推理的本质就是LLM Call，执行的本质则是Tools Call（代码可视为Tools的一种）。而连接这两者的“上下文工程”，正是整个Agent框架最核心的环节。

来源:https://blog.csdn.net/javatiange/article/details/158466822?ops_request_misc=elastic_search_misc&request_id=3408c9629226947a81126d714010d25d&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~ElasticSearch~search_v2-2

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：OpenClaw 是激进的AI玩具下一篇：Windows 环境下 OpenClaw 的安装与千问大模型配置