Google 在近期的战略规划中明确宣告:2025 年将成为 AI 智能体(AI Agents)的爆发元年;Sam Altman 同样预测,2025 年我们就能迎来达到 AGI L3 级别的 Agent 产品。
观察 Google Trends 上关于 AI Agents 的搜索热度,过去五年一直表现平稳,但近几个月骤然飙升——这一趋势已经释放出强烈的信号。
Google 近期发布了一份关于智能体(Agents)的白皮书(长达 50 多页的 PDF),内容干货满满,非常值得深入解读。
Agent:AI 的新边界,从模型迈向智能体
坦白说,我们正站在一个全新赛道的起点。AI 已经不再是单纯的“模型”——你输入一个问题,它返回一个答案。如今,AI 正在进化为能够主动思考、推理、并调用外部工具来完成任务的智能体(Agent)。它可以像人类一样规划步骤、拆解任务、甚至临时“学会”新技能。其背后的核心概念就是 Agent:它突破了传统大语言模型(LLM)的被动响应模式,将 AI 的应用推向了一个全新的高度。

Agent 的核心:不止是模型
那么,究竟什么是 Agent?简单来说,它是一个能够观察环境、做出决策、采取行动的程序。它不是被动听话的工具,而是一个主动解决问题的智能体。拆解来看,它由三个核心部件组成:

- 模型 (Model) —— 相当于 Agent 的“大脑”,可以是任意 LLM(例如 Gemini)。它负责理解语言、进行推理和规划。你可以根据任务场景选择不同规模、不同专长的模型。
- 工具 (Tools) —— 大脑再聪明,也无法直接触及现实世界。工具就是 Agent 的“双手”,让它能够调用外部 API 查询天气、检索数据库、执行代码等。
- 编排层 (Orchestration Layer) —— 如果说模型是大脑,那么编排层就是执行机构。它负责协调模型的思考过程与工具的使用顺序,让 Agent 按部就班地推进任务。常见的推理框架包括 ReAct、思维链(Chain-of-Thought, CoT)、思维树(Tree-of-Thoughts, ToT)等。
Agent 与模型:关键区别
一个很自然的问题:Agent 和普通的 LLM 模型到底有什么区别?下面这张对比表可以清晰地说明:
| 特征 | 模型 (Model) | Agent |
|---|---|---|
| 知识来源 | 受限于训练数据 | 可通过工具连接外部系统获取新知 |
| 推理方式 | 单次推理 | 可管理历史会话,基于上下文进行多次推理 |
| 工具 | 没有原生工具 | 集成原生工具 |
| 执行逻辑 | 无逻辑层,仅提供预测 | 使用推理框架,构建复杂逻辑 |
下面这张图展示了一个基于 ReAct 推理构建的 Agent 示例。它通过多次“思考→动作(带输入)→观察”的循环,不断调用关键工具来逼近问题答案。
工具:连接世界的钥匙
工具是 Agent 区别于普通模型的核心能力。它让 Agent 能够真正“触碰”外部世界,具体分为三类:
- 扩展 (Extensions) —— 标准化的 API 连接方式。Agent 无需关心底层实现细节,就能调用外部服务。
- 函数 (Functions) —— 在客户端执行的自定义代码,可以实现更精细的数据处理或系统控制。
- 数据存储 (Data Stores) —— 让 Agent 访问网站、文档、数据库等外部数据源,扩展知识范围。通常使用向量数据库实现,也支持多种格式的数据。
增强 agent 的学习能力
除了工具本身,我们还可以通过以下方法让 Agent 变得更加“聪明”:
- 上下文学习 (In-context learning) —— 在运行时给 Agent 提供示例,让它“即时”学会如何使用工具。
- 检索式上下文学习 (Retrieval-based in-context learning) —— 动态地从外部知识库中检索最相关的例子和知识,优化决策质量。
- 微调 (Fine-tuning) —— 使用特定领域的数据集微调底层模型,让 Agent 在该领域表现更加出色。
Agent 的实际应用:无限可能
拥有了这些组件和学习方法,能够做的事情非常丰富。举几个例子:
- 旅行规划助手:根据用户需求,自动查询航班、酒店,生成完整的行程安排。
- 代码生成器:根据描述自动编写代码,甚至直接运行和测试。
- 智能客服:理解用户问题,调用知识库和工具给出精准解答。
Agent 的未来:一个新时代的开端
Agent 的潜力远不止于此。它不仅是技术的进步,更是一种思维方式的转变——从“我告诉你答案”到“我帮你去实现”。随着工具生态的成熟以及推理能力的迭代,Agent 将逐渐成为工作和生活中不可或缺的伙伴。
最后,有几个要点值得记住:
- 构建 Agent 是一个反复迭代的过程,需要不断试错和优化。
- 每一个 Agent 都是独一无二的,因为 LLM 的生成能力赋予了它们无限的可能。
- 把工具和推理框架玩出新花样,你就能打造出各种令人惊艳的智能体。
