引言
要说2025年AI圈子里最热的关键词,Agent绝对排在前列。三月的时候,一款叫Manus的通用AI Agent横空出世,从筛选简历到分析股票,从写代码到做PPT,几乎让人看到了“AI打工人”的雏形,整个科技圈都为之震动。

巧的是,我们同期在开发的电子书阅读器——ReadAny,也采用了类似的Agent架构,用来实现智能问答、语义搜索、内容摘要和笔记导出等功能。可以说,Agent让“阅读”这件事,真正变得高效了。
这篇文章,我们打算结合ReadAny的工程实践,好好聊一聊ReAct和Multi-Agent架构设计,看看一个生产级的AI Agent系统是怎么搭建起来的。
一、2025年的Agent爆发:从Manus到通用智能
2025年3月,Manus的出现是个标志性事件。它和ChatGPT这类对话式AI完全不同:它能自主规划,把复杂任务拆成可执行的子任务;能调用工具,自己操作浏览器、写代码、处理文件;还能在云端异步执行,干完活再主动通知你。
Manus爆火背后,其实验证了一个很朴素的市场需求——大家要的不是聊天机器人,而是真正能“干活”的AI。老实说,它的技术架构并不算神秘,无非是多Agent协作加上工具调用,但产品体验的打磨,让它成了2025年第一个出圈的Agent产品。
1.1 Claude的独特贡献
硬要盘点Agent能火起来的关键推手,Anthropic的Claude绝对排在前列——
- Computer Use:让AI能直接操作电脑界面,看屏幕、点鼠标、敲键盘,一步到位
- MCP协议:开源的Agent工具通信标准,有点像“AI时代的USB接口”,统一了工具调用规范
- 双模式推理:快速响应和深度思考可以切换,复杂任务不慌,简单问题不绕
这几个创新为整个Agent生态提供了基础设施层面的支撑。
1.2 几个关键转折点
回头看这一年,有几个节点推动了Agent从概念走向产品:
2025年1月:DeepSeek R1引爆推理模型
DeepSeek的R1模型用极低的价格实现了接近OpenAI o1的推理能力,而且开源了。这一下子,高性能推理不再是巨头的专利,全球开发者都能搭自己的Agent系统了。一石激起千层浪,说的就是这种情况。
2025年2月:Claude 3.7 Sonnet与GPT-4.5相继发布
Anthropic和OpenAI同月放出大招。Claude 3.7搞了双模式推理,GPT-4.5提升了多模态理解能力。两家公司其实都在为Agent应用打基础——模型能力够强,上层才能搭得更高。
2025年3月:Manus现象级爆火
中国团队Monica.im的Manus是第一个真正破圈的通用Agent产品。邀请码炒到好几万,一周之内GitHub上冒出了几十个开源替代品,像OpenManus、OWL什么的,热闹得很。
2025年4-6月:开源框架爆发
OpenManus、OWL、MetaGPT等项目密集发布。LangGraph v1.0稳定版也出来了,企业级Agent开发门槛一下子降低了不少。
2025年7-9月:产品化落地
- 阿里通义千问、字节豆包、百度文心纷纷推出Agent开发平台
- Cursor、Windsurf这种AI IDE深度集成了Agent,代码自动执行成了标配
- OpenAI o1正式版发布,复杂推理能力又上了一个台阶
2025年10-12月:生态整合
- MCP协议成了事实标准,主流工具链全面接入
- 国内首个“Agent即服务”平台上线
- 全球Agent应用数量突破10万,从单点工具走向平台生态
一句话总结这一年:Agent从技术验证走向了产品落地,从实验室走向了生产环境。
二、到底什么是AI Agent
AI Agent,说通俗点,就是一种能感知环境、自己决策、然后动手执行任务的智能系统。和传统的LLM应用比起来,Agent有几个明显特征:
- 自主性:独立完成任务,不用你一步步盯着
- 工具使用:可以调用外部API、数据库、搜索引擎这些工具
- 记忆能力:既管短期上下文,也存长期知识
- 规划能力:复杂任务自己拆成多个子任务,逐个击破
2.1 Agent的核心组件
graph TD
A[AI Agent Architecture] --> B[Planner
决策规划模块]
A --> C[Memory
短期/长期记忆]
A --> D[Tools
工具调用接口]
A --> E[Action
执行输出]
三、ReAct模式详解
ReAct(Reasoning + Acting)是AI Agent领域最基础、也最重要的设计模式,2022年由Google提出。
3.1 ReAct的核心思想
把推理和行动紧密结合,形成一个Thought → Action → Observation的循环:
- Thought:分析当前状态,想想下一步该干啥
- Action:动手执行具体操作(调用工具或输出结果)
- Observation:观察行动结果,更新状态——然后继续思考下一步
这个循环看起来简单,但效果出奇好。Agent不再是“问了就答”,而是有了“先想一下、查一下、再回答”的节奏。
3.2 ReAct的代码实现
拿LangChain.js举个例,一个简单的ReAct Agent长这样:
import { Tool, AgentExecutor, createReactAgent } from "langchain/agents";
import { ChatOpenAI } from "@langchain/openai";
// 定义工具
const tools: Tool[] = [
new Tool({
name: "Search",
func: searchFunc,
description: "用于搜索实时信息"
}),
new Tool({
name: "Calculator",
func: calculatorFunc,
description: "用于数学计算"
})
];
// 创建 ReAct Agent
const llm = new ChatOpenAI({ model: "gpt-4", temperature: 0 });
const agent = await createReactAgent({ llm, tools });
const agentExecutor = new AgentExecutor({ agent, tools });
// 执行
const result = await agentExecutor.invoke({
input: "查询北京今天天气并计算摄氏度转华氏度"
});
3.3 ReAct的局限性
当然,ReAct也不是万能药。几个痛点很明显:
- 单线程执行:一次只能处理一个任务,没法并行
- 上下文限制:任务一长,容易超出Token限制
- 错误累积:一步算错,后面的都可能跟着错,而且不容易纠正
所以,任务复杂到一定程度,就得考虑Multi-Agent了。
四、Multi-Agent系统
当单一Agent搞不定的时候,Multi-Agent架构就成了必然选择。
4.1 Multi-Agent的设计原则
- 职责分离:每个Agent管自己的领域,不越界
- 协作机制:Agent之间通过消息传递来协作
- 路由决策:由一个Router或Orchestrator来分配任务
说白了,就是把一个大项目拆成多个小队,各干各的,但统一协调。
4.2 典型架构模式
模式一:层级式(Hierarchical)
graph TD
S[Supervisor
任务分发与结果汇总]
S --> A1[Agent1
专项任务]
S --> A2[Agent2
专项任务]
S --> A3[Agent3
专项任务]
Supervisor负责调度和汇总,Worker Agents干具体活。这种结构清晰,适合任务明确、分工清楚的场景。
模式二:对等式(Peer-to-Peer)
graph TD
A[AgentA] <--> B[AgentB]
A <--> C[AgentC]
B <--> D[AgentD]
C <--> D
各Agent地位平等,适合开放式讨论和创意生成的场景——比如几个专家一起头脑风暴。
4.3 LangGraph实现Multi-Agent
LangGraph是LangChain专门为Multi-Agent系统打造的框架。看看代码是怎么玩的:
import { StateGraph, END } from "@langchain/langgraph";
// 定义状态类型
interface AgentState {
messages: BaseMessage[];
}
// 定义节点(Agent)
const researcher = async (state: AgentState) => {
return { messages: [researchResult] };
};
const writer = async (state: AgentState) => {
return { messages: [draftContent] };
};
const reviewer = async (state: AgentState) => {
return { messages: [reviewFeedback] };
};
// 构建图
const workflow = new StateGraph<AgentState>({
channels: {
messages: { value: (x, y) => x.concat(y) }
}
});
workflow.addNode("researcher", researcher);
workflow.addNode("writer", writer);
workflow.addNode("reviewer", reviewer);
// 编译执行
const app = workflow.compile();
const result = await app.invoke({ messages: [] });
这段代码的核心思路是——把每个Agent当成图中的节点,通过状态传递让它们协同工作。研究者收集资料 → 写作者生成初稿 → 审核者给出反馈,一目了然。
五、实践案例:ReadAny的AI阅读Agent设计
ReadAny是一款开源的AI驱动电子书阅读器,用的技术栈是Tauri 2 + React 19 + LangChain.js,支持EPUB、PDF等多种格式。它内置了一套完整的Agent系统,用来实现智能阅读辅助。
5.1 系统架构
graph TD
R[Query Router
意图识别和任务分发]
R --> C[Chat Agent
对话问答]
R --> S[Search Agent
语义搜索]
R --> SU[Summary Agent
内容摘要]
R --> E[Export Agent
笔记导出]
简单说,用户发起一个请求,Query Router先判断意图——是想聊天、查东西、做摘要还是导出笔记?然后把任务分给对应的Agent去处理。每个Agent专注做一件事,还干得漂亮。
5.2 关键技术点
- RAG增强检索:结合向量数据库和BM25,语义搜索精准度上了一个台阶
- 多模态理解:文字、图片、表格都能看懂,不挑食
- 记忆管理:记住用户的阅读历史和偏好,推荐更个性化
- 工具链集成:翻译、TTS、导出这些功能,全部通过工具调用完成
六、未来展望
AI Agent技术还在快速演进,几个方向值得关注:
- 标准化通信协议:比如MCP,让Agent之间能顺畅沟通
- 长期记忆和持续学习:Agent能记住你,还能越用越聪明
- 多模态Agent:视觉、听觉、文本统一处理,真正像人一样感知世界
- 安全与对齐:防止Agent被恶意使用或误操作,这个越来越重要
- 从单点到生态:Manus证明了产品化路径能走通,下一步是平台化
结语
从2022年Google提出ReAct,到2025年Manus引爆通用Agent热潮,AI Agent走过了从学术研究到产品落地的完整路径。技术没有白走的路,每一步都算数。
在ReadAny项目里,我们把这一整套架构理念付诸实践,做出了一款“能干活”的AI阅读助手。如果你也在找一款智能、高效、私密的电子书阅读工具,不妨试试看。
- GitHub: github.com/codedogQBY/…
- 文档: github.com/codedogQBY/…
- 反馈: 提Issue或加入讨论
