这个系列更新到第16天,和朋友聊了一回天,被他一句话戳中了。他直接问我:
“你到底在搞什么高级玩意儿?我每天用豆包不是一样吗?”
说实话,这个反馈确实让我愣了一拍。
回过头翻翻前两周的文章,发现还真有这个问题——满篇都在讲“怎么做”,但对于“为什么”,一直没好好交代清楚。读者点进来,扑面一堆代码和术语,自然就懵了:这东西和平时用的AI有啥两样?干嘛非得绕这个弯子?
所以今天先把话说清楚,聊三个核心问题:我在做什么?Agent和大模型到底什么关系?看完这堆文章你能拿到什么?
一、我在做什么?
直说吧,我在搭一个英语单词学习系统。
不过别想成那种打开对话框,问一句“cat是什么意思”就完事的工具。它更像是这样运转的:
- 打开App,系统自动推送一个单词
- 答题错了,系统自动丢进错题本
- 下次打开,系统自动从错题本里抽题
- 每完成一轮,系统自动发积分,形成激励闭环
一句话概括:把每次都得你自己手动干的活,变成系统自动替你跑完。
二、Agent和大模型,到底差在哪?
这个问题被我朋友问得最多,也是很多人的困惑点。用几个真实场景就能看明白。
场景1:学一个单词
| 场景 | 用豆包/ChatGPT | 用我做的Agent |
|---|---|---|
| 想学一个单词 | 手动输入:"cat是什么意思" | 系统自动推送一个单词 |
| 答错了 | 自己拿本子记下来 | 系统自动写入错题本 |
| 下次复习 | 自己翻笔记翻半天 | 系统从错题本自动出题 |
| 想知道学了几个 | 自己一个一个数 | 系统显示积分,一目了然 |
关键差异就在这里:大模型是被动的,你问它才答,每次都要你亲自操作。而Agent是主动的,系统自动帮你完成整个流程。
场景2:写代码
| 场景 | 用Cursor的AI | 用Agent思路 |
|---|---|---|
| 写个功能 | 描述需求,AI生成代码 | 描述需求,Agent自己写完、测试、修bug |
| 代码报错了 | 把报错信息贴回去,让它修 | Agent自动捕获错误并修复 |
| 想重构 | 一段段让AI改 | Agent自动扫描整个项目,标记重构点 |
现在的Cursor AI其实已经有点Agent的影子了,但毕竟被困在编辑器里。真正独立的Agent可以做到:你下班走人,它还在后台默默跑,把剩下的活干完。
场景3:日常办公
| 场景 | 用豆包/ChatGPT | 用Agent |
|---|---|---|
| 每天写日报 | 打开网页,输入"帮我写日报",再把记录贴进去 | Agent自动读取Git记录、日程,生成日报发到群里 |
| 整理会议纪要 | 把录音丢过去,让它总结 | Agent自动参会(录音)、自动总结、自动发邮件 |
| 查项目历史 | 问AI:"之前的决策是什么?" 答:"不知道" | Agent自动翻文档、Git log,给出准确答案 |
看明白了吧?Agent的核心价值就是「自动化」——你不需要每次都手动触发,它会按照设定主动运转。
三、大模型能做什么,Agent又能做什么?
用一个对照表来总结更直观:
| 能力 | 大模型 | Agent |
|---|---|---|
| 回答问题 | ✅ 这是它的看家本领 | ✅ 继承大模型的能力 |
| 主动执行任务 | ❌ 你问它才答 | ✅ 程序调度,自动启动 |
| 记住信息 | ❌ 每次对话从零开始 | ✅ 有独立的记忆系统 |
| 调用外部API | ❌ 不能 | ✅ 能调用工具 |
| 读取本地文件 | ❌ 不能 | ✅ 可以 |
| 拥有用户界面 | ❌ 只有聊天框 | ✅ 网页、App都可以 |
| 后台自动运行 | ❌ 不能 | ✅ 可以 |
| 具备“性格”和行为模式 | ❌ 只有回答风格 | ✅ 通过System Prompt加程序逻辑设计 |
一句话:大模型是“脑子”,Agent是“脑子+手脚+记忆+工具”。
四、看完这个系列,你到底能拿到什么?
如果你的情况和我朋友类似——平时用AI工具,但不太清楚Agent是什么,不知道它为什么值得关注——那么这些文章能帮你实现三件事。
1. 搞懂概念
看完前两周的内容,你可以清晰回答:
- 大模型和Agent的本质区别
- 为什么有时“直接用ChatGPT”不够用
- Agent究竟能解决哪些具体问题
2. 动手做一个Agent
这些文章是实战笔记,不是教科书。跟着做下来:
- 第一周:做一个命令行Agent,最简单版本,1小时搞定
- 第二周:升级成网页版Agent,有界面、积分、错题本
代码全部贴出,复制就能跑。
3. 理解技术构成
| 技术组件 | 对应在哪周学习 |
|---|---|
| 大模型API调用 | 第一周第1天 |
| System Prompt(设定“性格”) | 第一周第2天 |
| 流式输出(一边想一边输出) | 第二周第3天 |
| 记忆系统(记住对话历史) | 第二周第5天 |
| Function Calling(让AI调用函数) | 第三周(即将开始) |
学完这些,你不仅能用Agent,还能改Agent、造Agent。
五、接下来怎么走
第二周结束,英语学习Agent已经成型了:有网页界面,能学单词、做测验、编故事,有积分激励,还有自动错题本。
接下来第三周,要啃几块硬骨头:
| 计划内容 | 解决什么问题 |
|---|---|
| Function Calling | 让Agent自己决定“该调用什么函数” |
| RAG(检索增强生成) | 让Agent能读取你的文档和数据 |
| 多模态 | 让Agent能看图片、听语音 |
这几块拼上去,Agent会更聪明、更独立。
写在最后
如果看完这篇你觉得“我直接用豆包就挺好”,那说明你现在遇到的问题确实不需要Agent。没问题,不是每个场景都适合它。
但如果你每天重复做某件事,而且这件事完全可以交给AI去跑——比如写日报、整理邮件、按计划背单词——那么Agent的价值就很清楚了:它替你省下的,不只是点几下鼠标的时间,而是那些本该用在更有价值事情上的精力。
第三周见。会继续更新实战笔记。
写于2026-04-16,搞清楚Agent是什么的一天
