企业AI基础设施的四层能力,无论是自上而下还是自下而上规划设计,共同构成了一个完整的治理体系:
L1 统一接入层:让所有AI调用统一经过一个网关,解决“怎么连接”的问题 L2 可观测性层:记录每一次调用的全链路数据,解决“怎么计算、怎么追溯”的问题 L3 资产沉淀层:对Prompt、工作流、知识库进行系统化管理,解决“怎么留存”的问题 L4 安全治理层:在接入和调用的全流程中嵌入安全管控,解决“怎么控制”的问题许多企业在建设AI平台时,问题往往不在于某个单项能力缺失,而是这四层能力未能同步推进到位。缺少L1,后面三层就无法获取数据;缺少L2,L3和L4便缺乏数据支撑决策;缺少L3,L4就只能做基础的拦截和审计。
L1 统一接入:模型网关的设计与实现
核心目标十分明确:业务系统对接一套统一API,由网关负责协议转换、模型路由、限流熔断。当新模型接入时,业务方无需修改任何代码。
不同模型厂商的API格式差异较大——OpenAI采用ChatCompletion格式,Claude使用Messages API,国产模型则各有自己的调用方式。网关层必须做好协议适配工作。
实现思路并不复杂:定义一套内部标准Schema,网关在入口处将外部请求转换为内部标准格式,调用具体模型时再转换为该模型的原生格式。下面是一个配置示例:

协议转换的核心逻辑,用伪代码表示大致如下:

在模型路由方面,支持三种策略:基于场景(scene字段映射到指定模型)、基于优先级(主模型失败自动切换到备选模型)、基于权重(按比例分配流量)。路由配置示例如下:

熔断与降级机制也是必不可少的。当某个模型连续失败次数超过设定的阈值,会自动触发熔断,并将流量切换到备选模型。核心配置包括:错误率阈值50%(滑动窗口60秒内)、熔断持续时间30秒、半开探测间隔10秒、尝试恢复。配置示例:

L2 可观测性:全链路数据采集与成本归因
核心目标:记录每一笔AI调用的完整信息,支持按部门、场景、模型、用户四个维度进行成本归因和问题追溯。
调用日志的数据模型如下:

trace_id如何在调用链中传递?业务系统发起请求时生成trace_id,网关层透传,模型调用时记录,从而确保全链路可追踪。这一点至关重要。
在指标聚合与报表方面,按月或按部门聚合查询的方式可以这样实现:

告警规则需要配置三类:错误率突增(5分钟内错误率>5%)、延迟超阈值(P99延迟>3秒持续5分钟)、成本超预算(日累计成本超过预算日限额)。告警规则示例(YAML格式)如下:

L3 资产沉淀:Prompt、工作流、知识库的工程化管理
核心目标:将AI能力从个人资产升级为组织资产。Prompt具备版本管理,工作流拥有模板库,知识库提供版本快照。借助这套机制,优秀的经验才能真正沉淀在组织内部。
Prompt版本管理的数据模型:


工作流模板库方面,工作流定义的JSON结构示例:

模板库支持按分类检索(合同审查、简历筛选、客服分流),用户可以一键复制到自己的工作空间,同时系统会记录使用次数和满意度。
L4 安全治理:数据边界与合规审计
核心目标:在接入和调用的全流程中嵌入安全控制,覆盖数据安全、权限隔离、合规审计三个维度。安全应当是前置设计,而非事后补救。
在敏感数据识别与脱敏方面,当请求进入网关层之前,对用户输入进行敏感字段检测,识别规则如下:

支持两种处理动作:mask(脱敏后放行)或block(直接拦截并告警)。具体选择哪种方式,取决于实际业务场景。
租户级数据隔离:所有数据表均带有tenant_id,查询时自动追加租户过滤,确保租户A无法访问租户B的数据。这是多租户场景下的基本要求。
审计日志与L2调用日志独立存储,满足合规审计要求,保留周期≥180天,支持按trace_id或user_id进行检索。
技术方案选型对比
能力层 | 开源方案 | 商业方案 | 选型建议 |
|---|---|---|---|
统一接入 | Kong / APISIX 自定义插件 | 云厂商API网关 | 小规模用开源,大规模用商业 |
可观测性 | Prometheus + Grafana + ClickHouse | Datadog / 云厂商 | 有运维能力用开源,否则商业 |
资产沉淀 | 自研(数据模型 + 前端) | 商业AI平台 | 核心差异点,建议自研 |
安全治理 | OpenPolicyAgent + 自研 | 商业安全产品 | 视合规要求决定 |
落地路径与优先级
第一阶段:接入+观测(2-4周) 优先部署L1和L2,确保所有调用都经过网关、所有调用都有记录。这是后续所有优化的数据基础,缺少这一步,资产沉淀和安全治理就如同空中楼阁。
第二阶段:资产沉淀(持续) 当L1和L2稳定运行后,利用观测数据识别高频场景和高价值Prompt,优先沉淀到L3。先制作10-20个高质量模板,验证复用效果。这一阶段不必急于求成,边实施边优化。
第三阶段:安全加固(贯穿全程) 在L1部署时同步配置基础安全策略(敏感词过滤、权限校验),L2运行后逐步接入审计日志,L3建设时完善租户隔离。安全并非独立项目,而是贯穿始终的持续过程。
在具体实现上,有企业采用 ZGI 作为AI基础设施底座,四层能力均有对应模块支撑,可覆盖上述全部技术方案,大幅降低自研成本。
写在最后
企业AI基础设施的四层能力,是让AI从“试点”走向“规模化”的重要前提。 L1解决“能不能接进来”,L2解决“用了多少、效果如何”,L3解决“好的经验怎么留存”,L4解决“安不安全、合不合规”。 四层缺一不可,顺序也值得讲究。先打通L1,再建设L2,接着沉淀L3,同步推进L4——这是从实践中总结出的务实路径。
本文基于企业AI基础设施建设实践整理。
