AI Agent 到底是什么?李宏毅老师用一堂课讲透了。从底层原理到实际应用,从强化学习到LLM驱动的智能体,这篇笔记帮你一次性理清。先看一个核心框架:任何智能体都遵循“目标→观察→行动”的循环——行动改变环境,产生新观察,循环往复直到目标达成。比如AlphaGo,目标就是赢棋,观察棋盘局面,行动是落子。道理很简单,但背后的技术演进却很有意思。

传统AI Agent依赖强化学习(RL),但RL有一个硬伤:每个任务都需要单独训练一个模型,成本极高。于是研究者们开始打LLM的主意——直接用大语言模型来当智能体的“大脑”,思路一下子打开了。
一、AI Agent 的基本运作原理
核心循环:目标 (Goal) → 观察 (Observation) → 行动 (Action)。行动作用于环境,环境产生新观察,循环继续,直到目标达成。这个框架在AlphaGo身上体现得淋漓尽致。
传统上,AI Agent依赖强化学习算法,但RL的局限性很明显——每个任务都得单独训练模型,泛化能力差。新思路的出现彻底改变了局面:直接用LLM充当AI Agent。
二、LLM 作为 AI Agent
运作方式变成:目标用文字描述,环境也转化为文字(或直接输入图像),行动同样是文字描述,只不过需要转译成可执行的指令。核心逻辑很简单:LLM本质上是文字接龙,AI Agent就是这种能力的一种应用。
回顾一下历史:2023年春季曾掀起一波AI Agent热潮(AutoGPT),但实际效果远未达到预期。不过方向是对的——LLM带来的优势太大了:行动可能性近乎无限,不再被预设行为限制;而且无需定义 Reward,直接提供错误日志之类的丰富信息就行。
三、AI Agent 实例
- AI 村民:斯坦福小镇项目,模拟人类社交行为
- AI 使用电脑:Claude Computer Use、ChatGPT Operator 等
- AI 训练 AI 模型:Google 的 co-scientist 等
四、更即时的互动
核心需求是根据环境的实时变化立刻调整行动。典型的应用场景是语音对话——你得一边听一边想怎么回,不能等全部听完再反应。
五、AI Agent 的关键能力剖析
(一)根据经验调整行为
传统方法需要调整模型参数(本课程不涉及细节)。而LLM的能力在于:直接提供错误信息,无需调参就能改变行为。关键问题来了:如何有效管理和利用过去的经验?
解决方案是 Memory 机制,包含三个模块:
- Read 模块:从 Memory 中筛选与当前问题相关的经验(类似 RAG 技术)
- Write 模块:判断哪些信息值得记录下来
- Reflection 模块:对记忆做抽象和整理,建立经验之间的联系(类似 Knowledge Graph)
(二)使用工具
工具的定义很宽松:只需要知道怎么用,不需要了解内部原理。常用工具包括搜索引擎、程序(LLM自己编写)、其他AI模型。本质上就是 Function Calling(函数调用)。开发者的角色就是搭桥,把工具指令转化为实际的函数调用。
具体工具举例:搜索引擎(RAG)、LLM自己编写程序作为工具、其他AI模型作为工具(比如文字模型调用语音识别或情绪识别模块来处理语音)。大模型和小模型协同工作也是常见套路。
但风险也显而易见:过度相信工具可能导致错误。这里有一个关键问题——内部知识和外部知识冲突时怎么办?LLM 会在自己的“信念”和工具返回的外部结果之间权衡。外部信息与 LLM 信念差距越大,LLM 越不容易采纳。而 LLM 对自己信念的信心程度,也会影响它是否会被外部信息动摇。
(三)做计划
目前的现实是:传统LLM的规划能力介于“有”和“没有”之间。要强化规划能力,可以通过与环境互动探索(Tree Search),切除没有希望的路径。但缺点很明显——有些动作不可逆。解决方案是“脑内模拟”(World Model),在思维中模拟环境变化。DeepSeek-R1 等思考模型就有类似效果。不过风险同样存在:过度思考可能导致停滞不前,甚至直接放弃。
