李宏毅3分钟揭秘AI Agent从原理到应用_AI热点日报

李宏毅3分钟揭秘AI Agent从原理到应用

类型：热点整理2026-07-05

AI Agent 到底是什么？李宏毅老师用一堂课讲透了。从底层原理到实际应用，从强化学习到LLM驱动的智能体，这篇笔记帮你一次性理清。先看一个核心框架：任何智能体都遵循“目标→观察→行动”的循环——行动改变环境，产生新观察，循环往复直到目标达成。比如AlphaGo，目标就是赢棋，观察棋盘局面，行动是

AI Agent 到底是什么？李宏毅老师用一堂课讲透了。从底层原理到实际应用，从强化学习到LLM驱动的智能体，这篇笔记帮你一次性理清。先看一个核心框架：任何智能体都遵循“目标→观察→行动”的循环——行动改变环境，产生新观察，循环往复直到目标达成。比如AlphaGo，目标就是赢棋，观察棋盘局面，行动是落子。道理很简单，但背后的技术演进却很有意思。

揭秘AI Agent！李宏毅老师3分钟带你飞速穿梭AI前沿，从原理到应用，一文读懂智能体的无限可能！

传统AI Agent依赖强化学习（RL），但RL有一个硬伤：每个任务都需要单独训练一个模型，成本极高。于是研究者们开始打LLM的主意——直接用大语言模型来当智能体的“大脑”，思路一下子打开了。

一、AI Agent 的基本运作原理

核心循环：目标 (Goal) → 观察 (Observation) → 行动 (Action)。行动作用于环境，环境产生新观察，循环继续，直到目标达成。这个框架在AlphaGo身上体现得淋漓尽致。

传统上，AI Agent依赖强化学习算法，但RL的局限性很明显——每个任务都得单独训练模型，泛化能力差。新思路的出现彻底改变了局面：直接用LLM充当AI Agent。

二、LLM 作为 AI Agent

运作方式变成：目标用文字描述，环境也转化为文字（或直接输入图像），行动同样是文字描述，只不过需要转译成可执行的指令。核心逻辑很简单：LLM本质上是文字接龙，AI Agent就是这种能力的一种应用。

回顾一下历史：2023年春季曾掀起一波AI Agent热潮（AutoGPT），但实际效果远未达到预期。不过方向是对的——LLM带来的优势太大了：行动可能性近乎无限，不再被预设行为限制；而且无需定义 Reward，直接提供错误日志之类的丰富信息就行。

三、AI Agent 实例

AI 村民：斯坦福小镇项目，模拟人类社交行为
AI 使用电脑：Claude Computer Use、ChatGPT Operator 等
AI 训练 AI 模型：Google 的 co-scientist 等

四、更即时的互动

核心需求是根据环境的实时变化立刻调整行动。典型的应用场景是语音对话——你得一边听一边想怎么回，不能等全部听完再反应。

五、AI Agent 的关键能力剖析

（一）根据经验调整行为

传统方法需要调整模型参数（本课程不涉及细节）。而LLM的能力在于：直接提供错误信息，无需调参就能改变行为。关键问题来了：如何有效管理和利用过去的经验？

解决方案是 Memory 机制，包含三个模块：

Read 模块：从 Memory 中筛选与当前问题相关的经验（类似 RAG 技术）
Write 模块：判断哪些信息值得记录下来
Reflection 模块：对记忆做抽象和整理，建立经验之间的联系（类似 Knowledge Graph）

（二）使用工具

工具的定义很宽松：只需要知道怎么用，不需要了解内部原理。常用工具包括搜索引擎、程序（LLM自己编写）、其他AI模型。本质上就是 Function Calling（函数调用）。开发者的角色就是搭桥，把工具指令转化为实际的函数调用。

具体工具举例：搜索引擎（RAG）、LLM自己编写程序作为工具、其他AI模型作为工具（比如文字模型调用语音识别或情绪识别模块来处理语音）。大模型和小模型协同工作也是常见套路。

但风险也显而易见：过度相信工具可能导致错误。这里有一个关键问题——内部知识和外部知识冲突时怎么办？LLM 会在自己的“信念”和工具返回的外部结果之间权衡。外部信息与 LLM 信念差距越大，LLM 越不容易采纳。而 LLM 对自己信念的信心程度，也会影响它是否会被外部信息动摇。

（三）做计划

目前的现实是：传统LLM的规划能力介于“有”和“没有”之间。要强化规划能力，可以通过与环境互动探索（Tree Search），切除没有希望的路径。但缺点很明显——有些动作不可逆。解决方案是“脑内模拟”（World Model），在思维中模拟环境变化。DeepSeek-R1 等思考模型就有类似效果。不过风险同样存在：过度思考可能导致停滞不前，甚至直接放弃。

来源：https://www.53ai.com/news/LargeLanguageModel/2025032846519.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。