游乐游手机版
首页/AI教程/文章详情

AI Agent知识扫盲:16个概念+11张图+38个开源项目

时间:2026-06-19 14:22
本文系统梳理了围绕AIAgent的十六个核心概念,按基础底座、能力扩展、智能核心、协作、工程实践五层自底向上展开,涵盖Token、训练、幻觉、RAG、记忆、工具使用、MCP、多Agent协作与A2A协议等关键技术,并推荐三十八个GitHub热门开源项目。

最近半年,AI Agent 这个词几乎无处不在。GitHub 上相关项目动不动就几十万 Star,朋友圈里天天都是“这个炸了”“那个爆火”。但真要问一句“Agent 到底是什么”,很多人一时半会儿还真答不上来。今天这篇就来把它理清楚。

这一年里,Claude Code 用得比较多,Agent 相关的东西接触得也深。这篇文章就把这些概念梳理一遍——从最基础的 Token,到多 Agent 协作,一共 16 个概念,自底向上分成 5 层。每个概念配一张图,再加上几个按 GitHub Star / Fork 热度筛过的代表性项目。看完之后,能对 Agent 有个比较完整的认识。

先放一张全景图:

[图片:全景图]

为什么要分层?因为这些概念是一层一层垒起来的,下面的没搞懂,上面的就悬空。比如不懂 Token,就理解不了为什么会有上下文窗口这个限制。从底往上看一遍,整个脉络就清晰了。

第一层:基础底座

这一层是地基,看着不起眼,但后面会反复用到。三个概念。

Token:AI 只认数字

模型不认汉字,也不认英文,它只认数字。你输入的一段话,会被分词器切成一个个小单元(叫 Token),每个对应一个数字,模型干的活就是对这些数字做运算。

Token 直接决定三件事:上下文能塞多少、API 怎么计费、回复有多快。这也是为什么 Claude Code 要弄个 CLAUDE.md 文件——把项目架构浓缩成几百行,而不是把整个代码库都塞进去,怕的就是上下文被无关内容占满。

要数 Token 的话,tiktoken(OpenAI 出的)最方便。想看更通用的分词器实现,可以顺手看看 Hugging Face Tokenizers 和 SentencePiece。

训练:从通才到专家

你可能会好奇,为什么同一个模型,写代码的时候很聪明,问它冷门问题就开始瞎编?这跟训练有关。

[图片:训练流程]

训练分两步。第一步叫预训练,拿海量的通用数据(网页、书、代码)喂给它,让它学会语言和常识。这一步最烧钱,几万张显卡跑上几个月。第二步叫微调,用规模小但更专业的数据接着练,比如想让模型擅长写代码,就拿大量优质代码来微调。

打个比方,预训练像读本科,知识面广但都浅;微调像读研究生,在一个方向上钻深。

微调框架里 LLaMA-Factory(约 72K Star)最火,支持 LLaMA、Qwen 这些主流模型。偏训练加速可以看 Unsloth,偏 RLHF / SFT 流程可以看 TRL。

幻觉:它不是故意骗你

你大概也被 AI 一本正经地忽悠过。之前问过一个模型,Spring 里有没有处理消息重试的注解,它信誓旦旦给了个 @AsyncRetryable,参数、用法讲得头头是道——结果加进代码编译就报错,这注解压根不存在。

这就是幻觉。原因在于大模型本质上是个概率预测器,它算的是“下一个词最可能是什么”,而不是“正确答案是什么”。所以它有时候会编出看起来挺合理、其实是错的内容。不是它坏了,是天生就这么运作。用的时候自己验证一下,别全信。

第二层:能力扩展

底座有了,模型已经是个合格的聊天机器人。但要变成能干活的 Agent,它得有记忆、会用工具、能查资料。这些能力基本都在这一层。

Context Engineering:2025-26 年比较火的概念

最近一年有个变化:大家不太提 Prompt Engineering(提示词工程)了,开始说 Context Engineering(上下文工程)。

以前的提示词工程,关心的是“这句话怎么写”。但 Agent 面对的是复杂任务,它需要的不只是一句提示词,而是整个信息环境:项目背景、之前做过什么决定、有哪些工具能用、输出要什么格式、有什么安全约束。把这些都系统地准备好,就是上下文工程。Ma ven 有份报告说得挺到位:大部分 Agent 失败,不是因为模型不行,是上下文没喂对。

[图片:上下文工程示意]

RAG:让 AI 开卷考试

问大模型一个公司内部的问题,它经常瞎编,因为训练数据里没有你们公司的资料。

RAG(检索增强生成)的思路很简单:让它回答之前先查资料,相当于开卷考试。流程是——提问 → 把文本转成向量 → 在向量库里找最相关的内容 → 把找到的拼进提示词 → 交给模型生成回答。

[图片:RAG 流程]

RAG 也分代,最新的叫 Agentic RAG,不再傻乎乎检索一次就回答,而是让一个 Agent 来决定要不要查、查什么、要不要多查几轮。

框架标杆是 LlamaIndex(约 50K Star),主打深度文档理解的有 RAGFlow(约 83K Star),传统检索问答工程里 Haystack 也值得看。

记忆

你发现没,每开一个新的对话,AI 都不记得你是谁,上次聊的全忘。Agent 要干活就得有记忆:短期记忆管当前这摊事(太长会自动摘要),长期记忆把你的偏好存下来,下次直接用。相当于给它配了个笔记本,省得每次重新自我介绍。

[图片:记忆机制]

Mem0(约 59K Star)专门做这个。如果想看更完整的长期记忆 / Agent 状态管理,可以看 Letta;偏记忆服务化可以看 Zep。

Tool Use:Agent 的手

Claude 是怎么“看到”你代码文件的?它不是自己打开文件看,而是调了一个叫 Read 的工具。这就是 Tool Use,也叫 Function Calling。

这里有个关键点:模型自己不执行函数,它只是决定“该调哪个函数”,真正执行的是外面的程序。理解了这个,下面 MCP 才好懂。

Computer Use / Browser Use:Agent 的眼睛

有些事没有 API 可以调,得像人一样去看屏幕、点按钮、填表单。Computer Use 让 Agent 能看屏幕截图、模拟鼠标键盘;Browser Use 更专注,专门操作浏览器。browser-use(约 99K Star)这个项目,Star 数比很多 Agent 框架都高,因为只要人能在浏览器里干的事,它都能干。工程里还经常搭配 Playwright 做浏览器自动化和回归验证。

MCP:统一接口

接一个新工具就得写一套代码,今天接数据库写一套,明天接文件系统又写一套,挺烦的。MCP(Model Context Protocol)就是来解决这个的,相当于 Function Calling 的标准化版本。

它的架构分三层:Host 是 AI 应用(比如 Claude Code),Client 负责在 Host 内部和外部通信,Server 是提供具体能力的工具服务。配的时候,就是声明每个 Server 能干啥。

[图片:MCP 架构]

MCP 管的是 Agent 怎么连工具,服务器合集可以看 awesome-mcp-servers(约 89K Star),官方服务器合集是 modelcontextprotocol/servers(约 87K Star)。至于 Agent 之间怎么通信,那是第四层 A2A 的事。

第三层:智能核心

能力和工具都有了,这层看 Agent 怎么把它们串起来完成任务。

Agent:从对话到执行

普通聊天是你问一句、它答一句。Agent 是你给个任务,它自己拆解、自己执行、自己检查,搞完给你结果。

一句话:Agent = 模型 + 规划 + 记忆 + 工具调用。它不是聊天框,是个能自己干活的角色。

[图片:Agent 与普通对话对比]

跟普通对话对比一下:

普通对话Agent
交互一问一答给任务,自己搞定
工具没有能调外部工具
拆解不拆,直接答自己拆成多步
反馈没有做完看结果,不行重来

OpenClaw(约 379K Star)就是典型的 Agent。写代码这块,Claude Code 和 Cursor 是主流;如果想看 SDK 层怎么封装 Agent,可以看 OpenAI Agents SDK、Pydantic AI。

CoT 和推理模型:先想再答

CoT(思维链)就是让模型在给答案之前,先把推理过程写出来,逼它一步步想,别直接跳到结论。对数学、写代码这种需要多步推理的事,效果明显。

2024 年 OpenAI 的 o1 把这事推进了一步,出现了推理模型(o1、DeepSeek R1、Claude 的 extended thinking)——把长链推理直接练进模型里,不用你再写“一步一步想”,它自己就会。DeepSeek-R1 是开源推理模型的代表。

ReAct:想一步做一步

Agent 怎么完成一个复杂任务?不是一口气干完,而是“想一想、做一步、看看结果、再想下一步”,循环往复。

[图片:ReAct 循环]

你可能会说,这不就是平时调试代码的流程吗?差不多,区别在于这个循环是 Agent 自己跑的,不用你在旁边一步步指挥。

编排框架里 LangGraph(约 35K Star)比较成熟。它背后的 LangChain 生态更大,但 LangGraph 更贴近 Agent 的状态机和循环编排。

反思

人做完题会检查一遍,Agent 也该会。反思就是生成之后再评估,根据反馈修正。分两种:一种是自己审自己,适合检查格式、有没有改错地方;另一种是丢进真实工具里验证,比如跑测试、编译看有没有报错。

Skill:岗位手册

Skill 是结构化的知识包,给 Agent 补充某个领域的流程和工具。模型本身像个聪明但不懂具体流程的新人,Skill 就像是给它的岗位手册,看完就知道这事该怎么干。

第四层:协作

一个人能力再强也有上限,2026 年比较热的方向是让多个 Agent 一起干活。

Multi-Agent:组队干活

产品拆需求、前后端并行、测试验收,一个人理论上全能干,实际干不过来,Agent 也一样。常见的编排有三种:顺序的(一个接一个,像流水线)、并行的(同时干,最后汇总)、层级的(一个主管拆活、底下的人各干各的)。

[图片:Multi-Agent 编排]

框架里 CrewAI(约 54K Star)比较简单,AutoGen(微软的,约 59K Star)更灵活,MetaGPT(约 69K Star)专门做多 Agent 软件开发。还有个热度很高的新项目 Paperclip(约 71K Star),主打“零人公司”——把 Agent 组织成一家公司,连 CEO、预算、组织架构都有。它本质还是多 Agent 编排框架;这项目 3 个月涨到 7 万 Star,热度可见一斑。

A2A:Agent 之间的通信协议

MCP 解决了 Agent 怎么调工具,但没解决 Agent 怎么跟另一个 Agent 说话。Google 2025 年推出了 A2A 协议来补这块——让不同框架、不同公司做的 Agent 能互相发现、通信、协作。

[图片:A2A 协议]

一句话区分:MCP 是 Agent 连工具的接口(像 USB-C),A2A 是 Agent 连 Agent 的协议(像蓝牙)。A2A 仓库在 A2A Protocol(24K+ Stars)。

第五层:工程实践

光有概念,Agent 在生产环境里跑不稳,还得靠工程手段兜底。

开发方式这几年也在变,大概三个阶段:

  • Vibe Coding(氛围编程):Karpathy 2025 年提的,用大白话描述要啥让 AI 写,适合做 demo。
  • Context Engineering(上下文工程):系统地管上下文,写 CLAUDE.md、配记忆、接 MCP。
  • Agentic Engineering(Agent 工程化):搭一套让 Agent 能稳定运行的工程底座,权限、沙箱、日志、测试都配上。

不想写代码也能搭 Agent 的话,Langflow(约 150K Star)、Dify(约 145K Star)和 Flowise(约 54K Star)可以可视化拖拽。

最后还有个概念叫 Loop Engineering(循环工程)。Claude Code 的负责人 Boris Cherny 说过一句话:「我现在不写提示词了,我的工作是写循环。」意思是把 Agent 干活看作一个循环——发现任务、分派、执行、验证、记录——工程师要设计的是这个循环本身。这套东西里干货和营销掺半,但“循环”这个视角确实给了个能落地的调试切入点。

[图片:循环工程概念]

概念和项目对照表

按两个维度筛了一遍:先看项目和概念是否强相关,再看 GitHub Star / Fork 热度。Star 代表关注度,Fork 代表二次使用和改造的人多不多。以下数字是写稿时从 GitHub API 查的,之后会变,所以只保留到约数。

概念推荐项目(按热度优先)适合看什么Star / Fork
Token / 分词tiktokenOpenAI 模型 Token 计算约 18.5K / 1.5K
Token / 分词SentencePiece经典子词分词算法约 11.9K / 1.4K
Token / 分词Tokenizers高性能通用 tokenizer约 10.8K / 1.1K
训练 / 微调LLaMA-Factory一站式微调主流开源模型约 72.2K / 8.8K
训练 / 微调Unsloth低成本、高速微调约 66.6K / 6.0K
训练 / 微调TRLSFT、RLHF、偏好优化约 18.7K / 2.8K
推理模型DeepSeek-R1开源推理模型代表约 92.0K / 11.7K
RAGRAGFlow文档解析 + RAG 工作流约 82.9K / 9.6K
RAGLlamaIndex数据连接、索引、检索编排约 50.2K / 7.6K
RAGHaystack传统检索问答工程框架约 25.6K / 2.9K
向量库 / 检索底座Chroma本地向量库和检索实验约 28.4K / 2.3K
记忆Mem0Agent 长短期记忆约 58.7K / 6.7K
记忆Letta长期记忆和有状态 Agent约 23.4K / 2.5K
记忆Zep记忆服务化约 4.7K / 0.6K
Tool Use / Agent SDKOpenAI Agents SDKAgent、工具调用、handoff 封装约 27.2K / 4.2K
Tool Use / Agent SDKPydantic AI类型安全的 Agent 开发约 17.8K / 2.2K
MCPawesome-mcp-serversMCP Server 生态目录约 89.3K / 11.7K
MCPmodelcontextprotocol/servers官方 MCP Server 示例约 87.3K / 11.0K
Browser Usebrowser-useAgent 操作浏览器约 99.1K / 11.1K
Browser UsePlaywright浏览器自动化和回归验证约 91.1K / 5.9K
Browser UseSelenium经典浏览器自动化约 34.2K / 8.7K
AgentOpenClaw端到端 Agent 产品形态约 379.0K / 79.3K
Agent 框架LangChainLLM 应用生态入口约 139.4K / 23.1K
Agent 框架LangGraph状态图、循环、可控 Agent约 34.9K / 5.8K
Multi-AgentPaperclip"零人公司"、Agent 公司化编排约 70.8K / 13.2K
Multi-AgentMetaGPT多 Agent 软件开发流程约 68.8K / 8.8K
Multi-AgentAutoGen多 Agent 对话与协作约 59.0K / 8.9K
Multi-AgentCrewAI角色分工式多 Agent约 53.7K / 7.5K
A2AA2A ProtocolAgent 之间通信协议约 24.3K / 2.5K
评测 / 反思promptfooPrompt 和 Agent 输出评测约 22.3K / 2.0K
评测 / 反思DeepEvalLLM / RAG / Agent 测试约 16.2K / 1.5K
评测 / 反思RagasRAG 质量评估约 14.4K / 1.5K
可观测 / 反馈闭环LangfuseLLM 调用链路、反馈、评估约 29.2K / 3.0K
可观测 / 反馈闭环PhoenixLLM 可观测和实验分析约 10.2K / 0.9K
幻觉 / 护栏Guardrails AI输出校验、约束和护栏约 7.0K / 0.6K
低代码 AgentLangflow可视化搭建 Agent / RAG约 149.7K / 9.3K
低代码 AgentDify企业级 LLM 应用平台约 145.4K / 22.9K
低代码 AgentFlowise拖拽式 LLM 工作流约 53.6K / 24.5K

最后

16 个概念过完了。如果只记一句话,就是上面那个:Agent = 模型 + 规划 + 记忆 + 工具调用,剩下那些概念都是在给这个公式添砖加瓦。

光看不动手没用,挑一个顺眼的项目装上跑跑,比看十篇文章都管用。

来源:https://juejin.cn/post/7652201148236283923
上一篇腾讯云Hermes AI爱马仕级方案一键搞定 下一篇单个终端指挥多个智能体 Claude Code Agents View新功能详细解读
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
Windows Docker Desktop RabbitMQ生产级部署完整指南
AI教程 · 2026-06-29

Windows Docker Desktop RabbitMQ生产级部署完整指南

前言 在 Windows 本地开发环境中,直接安装 RabbitMQ 确实颇为周折:需要单独配置 Erlang 运行环境、手动管理环境变量、服务启停全凭手工操作。更令人困扰的是,版本兼容冲突、端口占用、环境不一致等问题层出不穷。笔者见过不少开发者为搭建环境就得耗费整整半天时间。 相比之下,借助 Do

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践
AI教程 · 2026-06-29

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践

先分享一个切实感受。过去两年,我们与福建制造企业合作较为频繁,发现一个非常突出的现象:超过80%的企业官网,产品参数仍然存放在PDF或图片中。AI爬虫?根本无法抓取。这些企业技术实力不弱、资质证照齐全、应用案例也丰富,但在AI搜索这一全新战场上,它们几乎处于隐身状态。 一、一个正在发生的行业变化 A

阿里云Token Plan团队版功能价格与省钱购买指南
AI教程 · 2026-06-29

阿里云Token Plan团队版功能价格与省钱购买指南

阿里云百炼近期推出了名为“Token Plan 团队版”的全新服务,这一服务专为企业与开发者量身打造,定位为AI大模型订阅平台。通过引入Credits作为统一计量单位,将文本生成、图像生成等多模态AI能力纳入单一计费体系,同时无缝兼容主流AI编程工具及智能体(Agent)生态系统。其核心亮点包括:全

阿里云物联网.NET Core客户端位置信息上报
AI教程 · 2026-06-29

阿里云物联网.NET Core客户端位置信息上报

阿里云物联网平台的位置服务并非一个完全独立的功能模块。位置信息可包含二维坐标与三维坐标,而位置数据的来源本质上是借助设备属性进行上传。换言之,若要让设备上报位置,您需先将其视为一个普通属性进行处理。 1)添加二维位置数据 操作过程十分简洁。进入数据分析 → 空间数据可视化 → 二维数据,点击添加,将

年阿里云服务器选型配置与网站部署全攻略
AI教程 · 2026-06-29

年阿里云服务器选型配置与网站部署全攻略

2026年,阿里云服务器生态已高度成熟,形成了清晰的轻量应用服务器与ECS云服务器两大产品阵营。无论你是计划搭建个人博客、企业官网,还是运营电商平台、进行应用开发,基本都能找到理想的解决方案。本指南将从服务器选型、配置选择、部署流程到安全运维,系统梳理2026年最实用的操作要点,帮助你少走弯路,让网