AI基础设施全景：Agent框架与调度编排沙箱记忆追踪详解_AI热点日报

2026年，几乎每家公司都在做AI Agent。但一个残酷的事实是：绝大多数Agent项目停留在Demo阶段，无法真正融入生产。不是模型不行，不是算法不行——是Infra不行。构建一个生产级的AI Agent系统，你需要的远不止一个大模型和一个向量库。你需要算力调度、模型网关、数据管道、Prom

2026年，几乎每家公司都在做AI Agent。但一个残酷的事实是：绝大多数Agent项目停留在Demo阶段，无法真正融入生产。

不是模型不行，不是算法不行——是Infra不行。

构建一个生产级的AI Agent系统，你需要的远不止一个大模型和一个向量库。你需要算力调度、模型网关、数据管道、Prompt管理、Agent编排、工具沙箱、记忆系统、评测体系、可观测平台——还要让安全、CI/CD、成本和开发者体验贯穿每一层。

这才是完整的AI Infra。

这篇东西，我们从L0到L8，逐层拆解这9层架构，再加上4个贯穿始终的横切能力。不聊虚的，直接上工具选型和生产级最佳实践。

全景图：9层 + 4横切

先看个全景，心里有个地图，再往下拆。

纵向9层（从底层资源到上层应用）：

层级	名称	核心问题
L0	基础资源层	模型和应用跑在哪儿？
L1	模型与推理层	用哪个模型？怎么调？怎么省钱？
L2	数据与知识层	模型如何安全、准确地使用企业私有知识？
L3	Prompt与上下文层	怎么组织输入，才能让模型可靠执行？
L4	编排与Agent层	复杂任务怎么拆、怎么调、怎么执行？
L5	工具执行层	Agent能做什么？执行边界在哪儿？
L6	状态与记忆层	系统如何记住一切，又不越权？
L7	评测与质量层	改动后，质量是变好了还是变坏了？
L8	可观测与运营层	出问题了，能定位到根因吗？成本能归因到具体任务吗？

横向4个能力（贯穿所有层）：

安全治理
CI/CD与发布治理
FinOps成本治理
开发者体验（DevEx）

一个关键洞察：大多数团队只盯着L4（Agent Framework）和L2（向量库），剩下7层和4个横切能力基本是盲区。但生产级Agent的稳定性，恰恰取决于那些「不起眼」的基础设施。这个坑，踩过的人都懂。

L0：基础资源层——算力、存储、网络

L0是万事万物的底座，物理的和云原生的。

核心组件：

类别	技术	代表工具
计算	GPU / TPU / NPU / CPU	NVIDIA A100/H100、Google TPU v5e
编排	容器调度	Kubernetes、Ray、Slurm、Volcano、Kueue
存储	对象 / 块 / 文件	S3、MinIO、JuiceFS、Alluxio
网络	高速互联	RDMA、InfiniBand、VPC、服务网格
镜像	容器与模型	Harbor、Artifact Registry、HuggingFace Hub
安全	密钥与隔离	Secret Manager、KMS、多租户隔离

这一层回答的问题：模型和AI应用跑在哪儿，资源怎么调度，怎么保证稳定、弹性和成本可控。

生产级实践：

推理用的GPU必须按需弹性伸缩（比如Modal、RunPod Serverless），避免机器空转烧钱。
训练任务用Ray Cluster + Kueue做任务队列，实现多租户公平调度。
模型权重统一存到Artifact Registry，版本化管理，严禁散落在本地磁盘。血的教训。

L1：模型与推理层——模型服务与智能网关

L1管理模型的来源、调用和路由，是AI Infra的“神经中枢”。

核心组件清单：

Model Gateway：统一入口，屏蔽各家供应商API的差异。
Model Router：根据任务类型，智能地为每个请求选择最合适的模型。
Inference Server：vLLM、TGI、TensorRT-LLM这些高性能推理引擎。
Model Registry：模型版本管理、元数据、A/B测试。
Fallback / Rate Limit / Quota：容错、限流、配额控制。
Cache / Batching / Streaming：缓存、批处理、流式输出优化。
Quantization / KV Cache：量化和KV缓存优化，能省不少钱。

主流工具对比：

工具	定位	特点
LiteLLM	开源网关	统一100+模型接口，自动Fallback，好用。
Portkey	商业网关	内置缓存、重试、日志、成本分析，功能很全。
vLLM	推理引擎	PagedAttention技术，高吞吐，生产首选。
OpenRouter	SaaS路由	按量计费，零部署，适合起步阶段。
自建网关	完全控制	可定制路由策略、合规审计，灵活性最高。

生产级最佳实践：

智能路由：简单任务用小模型（降本），复杂任务用大模型（保质量），这是最基本的省钱之道。
自动Fallback：主模型超时或报错，自动切换到备用模型，保证服务不中断。
成本控制：设置每用户或每应用的Token预算，超额自动降级。别让某个不合理的请求把预算打光。
KV Cache复用：相同前缀的请求共享KV Cache，减少重复计算，能显著降低延迟和成本。

L2：数据与知识层——让模型安全使用企业私有知识

L2负责把企业数据变成模型能用的上下文，这是RAG的地基。

完整数据管道：

数据源 → 解析/清洗 → Chunking → Embedding → 向量索引 → 检索 → Rerank → 注入Prompt

每个环节都有技术选型：

环节	技术选项
数据源连接	API、数据库CDC、网页抓取、文件系统
文档解析	OCR、表格解析、PDF解析（PyMuPDF、Marker）
Chunking	固定长度、语义分割、递归分割
Embedding	text-embedding-3-large、BGE-M3、Cohere embed-v3
向量索引	Pinecone、Qdrant、Milvus、Wea viate、pgvector
混合检索	向量 + 全文 + 知识图谱
Rerank	Cohere Rerank、BGE-Reranker、Cross-Encoder
权限继承	ACL、文档级 / 字段级权限控制

向量数据库对比（2026）：

数据库	部署方式	适用场景
Pinecone	全托管SaaS	快速上线，不想管基础设施，省心。
Qdrant	自托管 / Cloud	大规模数据，性能敏感，可控性强。
Milvus	自托管	十亿级向量，企业级分布式，有专门的团队维护。
Wea viate	自托管 / Cloud	多模态RAG，GraphQL API，整合方便。
pgvector	PostgreSQL插件	已有PG，数据量不大，最简单。
ChromaDB	嵌入式	本地开发，原型验证，方便轻量。

从朴素RAG到Agentic RAG：

朴素RAG：Query → 检索Top-K → 拼接Prompt → 生成。简单，但效果波动大。
Advanced RAG：Query Rewrite → 混合检索 → Rerank → Citation → 生成。加入了更多预处理和后处理。
Agentic RAG：Agent主动决定何时检索、检索什么、是否需要二次检索。这已经是智能体思维了。

L3：Prompt与上下文层——PromptOps与上下文工程

L3负责管理进入模型的上下文结构——这是最容易被忽视，但最影响质量的一层。

上下文的组成：

一次LLM调用的输入，是由多个部分拼装而成的“大杂烩”：

System Prompt：角色定义、行为约束，相当于给模型“立规矩”。
Developer Prompt：工具说明、输出格式，教模型“怎么做”。
RAG结果：检索到的知识片段，提供“事实依据”。
Few-shot Examples：示范输入输出，给模型“打样”。
用户画像：用户偏好、历史行为，让回复“更懂你”。
会话记忆：最近N轮对话，保证“连贯性”。
User Prompt：用户当前的问题，任务的核心“输入”。

PromptOps核心能力：

能力	说明
Prompt版本管理	每个Prompt有版本号，可回滚，就像管理代码一样。
Prompt Registry	统一管理所有Prompt模板，一个地方就能找到所有Prompt。
Prompt实验	A/B测试，用数据说话，而不是凭感觉改Prompt。
Prompt审批	修改需Review，不能随意上线，避免“手滑”事故。
上下文压缩	Token超限时自动压缩/截断，防止“信息过载”。
Token Budget	控制每个组件的Token分配，确保关键信息的比重。

主流工具：

工具	核心能力
LangSmith	Prompt Hub + Tracing + Evaluation，全家桶。
LangFuse	开源Prompt版本管理 + 追踪，适合自建。
PromptLayer	Prompt版本管理 + A/B测试，功能专注。
自建（Git + YAML）	最大灵活性，适合有成熟CI/CD流程的团队。

最佳实践：Prompt即代码——把Prompt纳入版本控制、Code Review、灰度发布流程。别小看这一步，能让团队协作效率提升一个档次。

L4：编排与Agent层——Workflow与Agent Runtime

L4是整个AI Infra的核心层，负责将大模型的能力组织成可执行的工作流。

四大主流Agent Framework对比（2025-2026）：

维度	LangGraph	CrewAI	AutoGen (0.4+)	OpenAI Agents SDK
架构模式	有向图状态机	角色扮演 + 任务分工	异步事件驱动	简单链式 + Handoff
多Agent	原生支持	内置角色协作	对话式协作	Handoff模式
状态管理	Checkpoint持久化	内置Memory	异步状态	简单上下文
学习曲线	陡峭	平缓	中等	最平缓
最新版本	0.6 (2025.06)	Flows特性	0.5.3	2025.03

选型建议：

复杂工作流、精细控制 → LangGraph。这是目前最强大的选择，但需要你投入时间去理解。
多角色协作、团队分工 → CrewAI。模拟一个AI团队，任务分配很清晰。
实时对话、事件驱动 → AutoGen 0.4+。适合构建对话式多Agent系统。
快速原型、OpenAI生态 → OpenAI Agents SDK。上手最快，但灵活度受限。

除了Agent Framework，还需要Workflow Engine：

工具	定位
Temporal	持久化工作流，适合长时间运行的Agent任务，失败能恢复。
Airflow / Dagster	数据管道编排，适合批量RAG索引构建这类任务。
Prefect	Python原生工作流，适合ML Pipeline。

LangGraph的核心优势——有向图状态机：

节点（Node）：每个步骤是一个函数。
边（Edge）：定义步骤之间的转移逻辑。
状态（State）：全局共享的可持久化状态。

天然就支持循环、分支、并行、断点恢复（Checkpoint）。这对构建生产级Agent至关重要。

L5：工具执行层——沙箱、集成与执行边界

当Agent需要执行代码、调用API、操作数据库时，你不能让它在生产服务器上直接跑 exec()。这是底线。

工具执行层的完整能力矩阵：

能力	说明
函数调用	Agent调用预定义函数
MCP Server	标准化工具协议，即插即用
API Connector	连接企业SaaS（CRM、ERP、工单系统）
代码解释器	沙箱内执行Python / Node.js
浏览器自动化	Playwright、Puppeteer
RPA	操作传统GUI系统
权限校验	最小权限，按需申请
沙箱隔离	每次执行一个独立环境
输出校验	工具返回结果格式校验
幂等 / 事务	失败可重试，副作用可补偿

沙箱方案对比：

方案	启动速度	隔离级别	适用场景
E2B	< 150ms	VM级	Agent代码执行首选，又快又安全
Modal	< 500ms	容器级	GPU密集型任务
Fly.io Machines	< 300ms	VM级	全球分布式执行
Docker（自建）	1-3s	弱隔离	开发环境，玩玩可以，生产不建议

安全设计三原则（必须刻在脑子里）：

最小权限：Agent只能访问它完成当前任务所必需的资源。别给一个查天气的Agent挂数据库root权限。
网络隔离：默认禁止外网，按需开放白名单。Agent访问的所有外部服务必须明确定义。
资源限制：CPU、内存、磁盘、执行时间全部设上限。防止Agent失控，把服务器搞瘫痪。

L6：状态与记忆层——让Agent记住一切而不越权

L6保存系统运行过程中的各种状态，让Agent既“记性好”又“懂规矩”。

记忆的分层模型：

类型	时间范围	存储方式	典型场景
工作记忆	当前对话	Context Window	对话上下文，临时的
短期记忆	最近N轮	内存 / Redis	多轮对话连贯性
长期记忆	跨会话	向量数据库	用户偏好、历史事实，跨会话可用
情景记忆	特定事件	结构化存储	“上次你说过……”这类特定事件回忆
语义记忆	通用知识	知识图谱 / 向量	“Python是一种编程语言”这类事实

主流记忆管理工具：

工具	特点	适用场景
Mem0	自动提取 + 存储用户记忆	个人助理，需要“认识”用户
LangGraph Memory	Checkpoint + 命名空间读写	LangGraph生态内的Agent
Zep	长期记忆 + 事实提取	客服、对话型Agent

必须管理的能力：

TTL：记忆过期自动清除，别让你的Agent记住太多陈年旧事。
隐私：PII脱敏，用户可要求删除自己的记忆。合规问题的红线。
写入策略：要知道哪些信息值得被长期记忆。不是对话里每句话都得存下来。
召回策略：如何从海量记忆中检索出最相关的那一小部分。检索效率是关键。

L7：评测与质量层——AI系统能否生产化的关键

L7是整个架构中最容易被跳过、但决定项目生死的一层。

没有评测，你就是在“盲飞”——改了Prompt、换了模型、调了RAG参数，你根本不知道质量是变好了还是变坏了。等上线后用户告诉你“你们AI变傻了”，那就晚了。

评测的三个层次：

层次	时机	方法
离线评测	上线前	Golden Set、合成数据、回归测试
在线评测	运行中	实时指标、用户反馈（点赞/踩）、A/B测试
人审抽检	定期	人工标注、安全红队测试

关键评测指标：

指标	衡量什么
RAG Faithfulness	回答是否忠于检索到的上下文，有没有瞎编
Answer Relevance	回答是否与用户问题相关
Context Precision	检索的内容是否精准，有没有把无关信息拿进来
Tool Success Rate	Agent调用工具是否成功
Agent Completion Rate	Agent完成一个复杂任务的完整率
Toxicity / Bias	输出是否有害或有偏见
幻觉检测	是否编造了不存在的事实，这是AI应用的核心问题

评测工具：

工具	核心能力
RAGAS	RAG评测框架，Faithfulness / Relevance / Precision
DeepEval	LLM输出评测，支持自定义指标，灵活度高
LangSmith Evaluation	在线 + 离线评测一体化
自建Golden Set	最高控制力，贴合业务场景，但维护成本高

最佳实践：发布门禁——每次Prompt / 模型 / RAG / 工具改动，必须通过评测门禁才能上线。把评测指标纳入CI/CD流水线，就是这个意思。

L8：可观测与运营层——看见系统里发生了什么

L8是AI Infra的“眼睛”——没有它，你就是在黑灯瞎火中运行Agent。

AI可观测性的三大支柱：

Tracing（追踪）：记录每次调用的完整链路，从用户问题到最终回复，中间发生了什么。
Metrics（指标）：Token用量、成本、延迟、错误率，这些是系统的“生命体征”。
Logs（日志）：中间模型、决策过程、工具调用结果等所有详细记录。

一次完整的Trace应包含：

用户原始问题
实际发送的完整Prompt（包括System Prompt、RAG结果等）
Tool Calls及参数
Tool Results
LLM原始输出
最终回复
Token用量、延迟、成本

主流工具对比：

工具	类型	核心能力
LangSmith	商业	Tracing + Eval + Prompt Hub，非常全
LangFuse	开源	Tracing + Prompt管理，可自建，很灵活
OpenTelemetry	开源标准	通用追踪协议，厂商中立，可以对接各种后端
Arize Phoenix	开源	Tracing + 模型漂移检测，适合关注模型长期表现

OpenTelemetry作为通用基础：

OpenTelemetry（OTel）是CNCF的项目，提供厂商中立的traces、metrics、logs采集标准。很多AI可观测工具（比如LangFuse、Arize）都支持OTel协议。用OTel可以避免被特定供应商锁定，这个思路值得推崇。

四个横切能力：贯穿所有9层

除了纵向9层，还有4个能力必须贯穿每一层：

横切1：安全治理

覆盖所有层的安全能力：

身份认证与权限：谁能调用哪个模型、访问哪个知识库，必须有清晰定义。
租户隔离：多租户场景下，数据和计算资源必须隔离。
PII / DLP：防止敏感数据泄露到模型训练或外部。这是合规红线。
Prompt Injection防护：检测和阻止恶意Prompt，防止Agent被“黑”。
工具调用审批：高风险操作（如转账、删除数据）需人工确认。
审计日志：所有操作可追溯，出了问题能快速定位。
模型供应链安全：模型来源、许可证合规，别用到有风险的开源模型。

横切2：CI/CD与发布治理

不只是代码需要版本化——AI系统的所有组件都需要：

代码：标准CI/CD流程。
Prompt：版本管理 + A/B测试 + 审批，就像管理代码一样。
模型：Model Registry + 灰度发布 + 回滚，模型的版本管理不能忘。
RAG索引：增量更新 + 版本回滚，索引变了要能回溯。
工具Schema：变更审批 + 兼容性检查，工具接口变了要通知所有Agent。
Workflow：版本管理 + 断点续跑，工作流要能恢复执行。

横切3：FinOps成本治理

AI系统的成本构成很复杂，需要全链路计量：

Token消耗（按模型、按应用、按用户）
GPU计算（训练 + 推理）
向量数据库存储和查询
Embedding / Rerank调用
日志和追踪数据留存
带宽和存储

目标：每一笔成本都能归因到具体的应用、用户和任务。这样你才知道钱花在了哪里，哪里可以优化。

横切4：开发者体验（DevEx）

降低AI应用开发门槛：

Playground：在线调试Prompt和Agent，所见即所得。
Trace回放：可视化查看每次调用的完整链路，方便debug。
Prompt调试：对比不同版本的Prompt效果，理解差异。
RAG调试：查看检索结果和注入过程，验证RAG效果。
Eval看板：实时监控质量指标，一眼看清系统健康状况。
SDK / CLI：标准化开发工具，降低上手难度。
模板工程：常见场景的脚手架，让新人能快速上手。

一次完整的Agent调用：穿越9层

看一次真实的Agent调用如何穿越所有层：

场景：用户问Agent “帮我分析这份CSV文件里的销售趋势”

L0：请求到达Kubernetes集群，调度到GPU节点。
L1：LLM网关路由到GPT-4o（复杂分析任务，启用KV Cache）。
L2：Agent从向量数据库检索“CSV分析最佳实践”。
L3：System Prompt + RAG结果 + 用户偏好拼装成完整上下文。
L4：LangGraph启动工作流——Agent决定需要读取文件 + 执行代码。
L5：Agent在E2B沙箱中启动Python环境，执行pandas分析代码。
L6：Agent读取用户偏好（“偏好中文报告”），把分析结果写入长期记忆。
L7：离线评测确认分析质量达标，在线指标监控幻觉率。
L8：LangFuse记录完整Trace——Prompt、Tool Calls、Token消耗、延迟。

每一步都有日志，每一步都可追溯，每一步都有Fallback。

这就是生产级Agent和Demo级Agent的区别。真正的生产系统，是要能应对各种异常情况的。

技术选型路线图

阶段1：验证期（1-2周）

L1：直接OpenAI API
L2：ChromaDB（嵌入式）
L3：Prompt硬编码在代码中
L4：LangChain简单Chain
L5：本地Docker
L6：简单变量存储
L7：人工检查输出
L8：print()日志

阶段2：原型期（1-2月）

L1：LiteLLM（统一接口 + Fallback）
L2：Pinecone / Qdrant Cloud
L3：LangFuse Prompt管理
L4：LangGraph / CrewAI
L5：E2B沙箱
L6：LangGraph Memory
L7：RAGAS + Golden Set
L8：LangFuse（开源部署）

阶段3：生产期（持续迭代）

L0：K8s + GPU弹性伸缩
L1：自建网关 + vLLM + 智能路由
L2：Milvus / Qdrant集群 + Advanced RAG
L3：Prompt Registry + 审批流程
L4：LangGraph + Temporal持久化工作流
L5：E2B + Modal（GPU任务）+ MCP
L6：Mem0 + 自建记忆策略
L7：在线评测 + 发布门禁 + 人审抽检
L8：OpenTelemetry + Grafana + 告警
横切：安全治理、CI/CD、FinOps、DevEx全面落地

总结：一句话定义完整AI Infra

完整的AI Infra不是“模型 + LangChain + 向量库”，而是：

算力资源底座 + 模型服务与网关 + 数据 / RAG管道 + Prompt / Context管理 + Agent / Workflow编排 + 工具执行沙箱 + 状态记忆系统 + 评测质量体系 + 可观测 / SRE + 安全治理 / 合规 + 成本与开发者平台。

9层纵向架构 + 4个横切能力，缺一不可。

Demo只需要L1 + L4。生产需要全部9层 + 4横切。这个认知，希望能帮助你在搭建AI系统的路上少走弯路。

参考资料：

LangGraph官方文档（https://langchain-ai.github.io/langgraph/）
CrewAI官方文档（https://docs.crewai.com/）
Microsoft AutoGen（https://microsoft.github.io/autogen/）
OpenAI Agents SDK（https://platform.openai.com/docs/guides/agents）
E2B沙箱官方文档（https://e2b.dev/docs）
Mem0记忆管理（https://docs.mem0.ai/）
LangFuse开源可观测性（https://langfuse.com/docs）
OpenTelemetry GenAI语义约定（https://opentelemetry.io/blog/2024/genai/）
RAGAS RAG评测框架（https://docs.ragas.io/）
vLLM推理引擎（https://docs.vllm.ai/）
LiteLLM统一网关（https://docs.litellm.ai/）
Pinecone向量数据库（https://docs.pinecone.io/）
Qdrant向量数据库（https://qdrant.tech/documentation/）