你是否也曾好奇,那些能自主执行任务、调用工具、不再只满足于聊天的 AI “agent” 到底是怎么一回事?2024 年,AI 技术眼看着从单纯的“对话机器人”朝更复杂的“智能体”进化,势头很猛。但当你真正想搞明白这些 agent 背后的门道时,会发现支撑它们的核心技术栈,和我们熟悉的普通大模型技术栈,差别不是一星半点——几乎是两套完全不同的东西。

今天,我们就梳理一下这个快速发展的领域,揭开 AI agent 技术的神秘面纱。目的只有一个:让你不再雾里看花。
从 LLM 到 Agent:一场深刻的进化
回想 2022 和 2023 年,那会儿大家聊得最多的是 LLM 框架和 SDK 的爆发,比如 LangChain、LlamaIndex。大模型的使用也越来越方便,无论你是调 API 还是自己折腾 vLLM、Ollama 本地部署,门槛都比以前低了很多。
但到了 2024 年,风向变了。所有人的目光都投向了更高级的 AI “agent”。这个概念在 AI 圈子里其实不新鲜,可放在后 ChatGPT 时代,它被赋予了全新的含义:一个能自主行动、执行任务,并且能调用外部工具交互的 LLM。这一跃迁,不仅仅是把聊天机器人拉来多用几个插件那么简单;它需要一套全新的、专为“自主行动”量身打造的技术栈。
agent 技术栈:核心差异到底在哪?
简单来说,agent 不只是一个会聊天的模型,它们更像是具备一定自主性的智能体。为了做到这一点,它们需要自己管理状态(比如对话历史和记忆)、要学会调用各种工具来解决问题,还要确保执行过程足够安全。这就使得 agent 的技术栈和传统的 LLM 技术栈从根儿上就分叉了。
我们从下往上,把 agent 技术栈的关键部分拆开来看:
1. 模型服务:AI 的大脑
- 核心: 大语言模型(LLM),这是所有 agent 的动力源泉。
- 服务方式: 通过推理引擎提供 API(付费调用或自己部署)。
- 主要玩家:
- 闭源阵营: OpenAI 和 Anthropic 保持着领先优势。
- 开源阵营: Together.AI、Fireworks 和 Groq 开始崭露头角,提供基于 Llama 3 等模型的推理服务。
- 本地部署: vLLM 是生产级 GPU 服务的首选;而 Ollama 和 LM Studio 则凭借极低的上手门槛,深受个人爱好者的喜爱。
2. 存储:记忆的基石
- 核心: 把状态持久化,比如对话历史、记忆和外部数据。
- 关键技术:
- 向量数据库: Chroma、Wea viate、Pinecone、Qdrant 和 Milvus 这些,专门用来存储 agent 的“外部记忆”,应对大容量数据的检索需求。
- 传统数据库: 传统关系型数据库(比如 Postgres)通过 pgvector 扩展,也开始支持向量搜索了。
- 为何重要? Agent 是有状态的,它们需要长期存储并高效检索信息。
3. 工具与库:能力的延伸
- 核心: 让 agent 去执行各种任务的“工具”(或者叫函数)。
- 调用方式: 通过 LLM 生成的结构化输出(例如 JSON)来指定调哪个函数、传什么参数。
- 安全执行: 这是关键——必须用沙箱机制(比如 Modal 和 E2B)确保工具执行的安全性,防止意外操作。
- 工具生态:
- 通用工具库: Composio 这类。
- 专用工具: Browserbase(负责网页浏览)、Exa(专门做网页搜索)等。
- 为何重要? 工具就像一个插件库,直接扩展了 agent 的能力边界,让它们能完成各种复杂任务。
4. Agent 框架:编排智能的指挥中心
- 核心: 负责任务编排,统筹 LLM 调用,管理整个 agent 的状态。
- 关键特性:
- 状态管理: 如何正确地保存和加载 agent 的状态(对话、记忆)。
- 上下文窗口: 如何把状态信息“编译”成 LLM 能理解的上下文。
- 跨 agent 通信: 如何实现多 agent 之间的协作配合。
- 内存管理: 如何应对 LLM 上下文窗口有限的问题,管理好长期记忆。
- 开源模型支持: 如何让 agent 更好地利用开源模型,不依赖闭源服务。
- 热门框架: Llama Index、CrewAI、AutoGen、Letta、LangGraph 等都在这个赛道上。
- 为何重要? 框架决定了 agent 的运行方式和效率,它就像是整套系统的操作系统。
5. Agent 托管与服务:未来趋势
- 核心: 把 agent 打包成一项服务,通过 API 对外暴露。
- 当前痛点: 状态管理、安全工具执行以及规模化部署,是目前最头疼的几个难题。
- 未来展望: 从长远看,未来一定会出现标准化的 Agents API,让 agent 的部署和服务化变得像调用网络服务一样便捷。
- 为何重要? 实现服务化,才是 agent 从原型 Demo 真正走到实际应用的关键一步。
未来已来:agent 技术栈正在高速发展
整体来看,agent 技术栈还是相当年轻的。但它正在以惊人的速度迭代和演进。可以预见,未来的 agent 将会更智能、更自主,在制造、金融、医疗、客服等各行各业,从幕后走向台前,发挥越来越重要的作用。
