SGLang Model Gateway 0.2 企业级AI原生编排平台发布

时间：2026-06-24 11:45

SGLangModelGateway0 2发布，提供企业级一体化AI原生编排方案。核心升级包括多模型推理网关模式、RustgRPC驱动绕过Python与HTTP瓶颈、可插拔存储保护隐私、内置重试与断路器等可靠性功能，采用控制数据存储三层架构，支持灵活部署与Kubernetes集成。

市面上的 GPU 内核与推理引擎优化项目并不少见，传统云原生方向也有 AI 网关的身影，但真正一体化、AI 原生的编排解决方案几乎处于空白状态。在实际生产环境中，大多数人仍在拼凑“缝合怪”——手动组合各种组件，边调试边头疼。Oracle 与 SGLang 团队显然洞察到了这一缺口，直接推出了生产就绪的 SGLang Model Gateway 0.2。

SGLang Model Gateway 架构图

版本号从 0.1 跃升至 0.2，名字则从 SGL-Router 彻底重构而来——这不是小修小补，而是一次架构层面的全面升级。

核心升级：多模型推理网关模式（IGW）

一个网关统一管理多个模型，每个模型可各自独立配置路由策略、健康检查与负载均衡。想象一下：在同一屋檐下同时运行多个路由器，共享一套可靠性机制和监控能力，省去重复造轮子的烦恼。

Rust gRPC 驱动：彻底绕过 Python 和 HTTP 瓶颈

流式处理要想快，依赖 Python 运行时显然不够。SGLang Model Gateway 直接用 Rust 实现 gRPC 路由层，分词器、推理解析器、工具解析器全部在进程内完成，不再受慢速的 HTTP 和 Python 层拖累。同时支持 OpenAI 兼容 API 与缓存分词功能。

可插拔存储与隐私保护

对话历史与响应历史可以存放在路由器层——可选内存、无存储或 Oracle ATP。这意味着同一份历史记录可为多个模型或 MCP 循环提供服务，数据不会泄露给上游厂商。所有对话历史、/v1/responses 状态和 MCP 会话都牢牢留在路由器内部，用户隐私更有保障。

可靠性 & 监控：该有的全都有

内置重试机制，支持指数退避与抖动；每个工作节点配有断路器；令牌桶限流搭配 FIFO 排队。监控方面提供 Prometheus 指标、结构化追踪、请求 ID 传播，以及详细的任务队列统计。生产环境所需的一切，一个都不少。

三层架构

整个体系清晰划分为三层：

控制平面：负责工作节点管理——服务发现、负载追踪、节点注册与移除。
数据平面：包含 HTTP 路由器（常规与 PD 两种）、gRPC 路由器以及 OpenAI 路由器。
存储层：集中管理历史记录，防止数据外泄。

部署方式：灵活，不止一种

联合启动模式适合单节点或快速验证：

python3 -m sglang_router.launch_server --host 0.0.0.0 --port 8080 --model meta-llama/Llama-3.1-8B-Instruct --tp-size 1 --dp-size 8 --grpc-mode --log-level debug --router-prometheus-port 10001 --router-tool-call-parser llama --router-health-success-threshold 2 --router-health-check-timeout-secs 6000 --router-health-check-interval-secs 60 --router-model-path meta-llama/Llama-3.1-8B-Instruct --router-policy round_robin --router-log-level debug

也可以分离启动，工作节点独立运行：

# Worker nodes
python -m sglang.launch_server --model meta-llama/Meta-Llama-3.1-8B-Instruct --port 8000
python -m sglang.launch_server --model meta-llama/Meta-Llama-3.1-8B-Instruct --port 8001

# Router node
python -m sglang_router.launch_router --worker-urls https://worker1:8000 https://worker2:8001 --policy cache_aware --host 0.0.0.0 --port 30000

想要极限吞吐量？可直接使用 SRT gRPC 工作节点。还支持预填充/解码分离，以及 OpenAI 后端袋里。Kubernetes 集成通过 pod 选择器自动发现工作节点，省心不少。

向后兼容方面，所有 0.1.x 版本的 CLI 标志和 API 都能继续使用——重命名并没有破坏已有生态。对于正在将 SGLang 作为推理后端的团队来说，这次升级值得密切关注。

来源：https://cloud.tencent.com.cn/developer/article/2695649

Model

上一篇OpenAI Codex手机版发布无需写代码只做决策 下一篇本地大模型消除重复推理的缓存优化方法

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

AI教程 · 2026-06-29

Windows Docker Desktop RabbitMQ生产级部署完整指南

前言在 Windows 本地开发环境中，直接安装 RabbitMQ 确实颇为周折：需要单独配置 Erlang 运行环境、手动管理环境变量、服务启停全凭手工操作。更令人困扰的是，版本兼容冲突、端口占用、环境不一致等问题层出不穷。笔者见过不少开发者为搭建环境就得耗费整整半天时间。相比之下，借助 Do

AI教程 · 2026-06-29

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践

先分享一个切实感受。过去两年，我们与福建制造企业合作较为频繁，发现一个非常突出的现象：超过80%的企业官网，产品参数仍然存放在PDF或图片中。AI爬虫？根本无法抓取。这些企业技术实力不弱、资质证照齐全、应用案例也丰富，但在AI搜索这一全新战场上，它们几乎处于隐身状态。一、一个正在发生的行业变化 A

AI教程 · 2026-06-29

阿里云Token Plan团队版功能价格与省钱购买指南

阿里云百炼近期推出了名为“Token Plan 团队版”的全新服务，这一服务专为企业与开发者量身打造，定位为AI大模型订阅平台。通过引入Credits作为统一计量单位，将文本生成、图像生成等多模态AI能力纳入单一计费体系，同时无缝兼容主流AI编程工具及智能体（Agent）生态系统。其核心亮点包括：全

AI教程 · 2026-06-29

阿里云物联网.NET Core客户端位置信息上报

阿里云物联网平台的位置服务并非一个完全独立的功能模块。位置信息可包含二维坐标与三维坐标，而位置数据的来源本质上是借助设备属性进行上传。换言之，若要让设备上报位置，您需先将其视为一个普通属性进行处理。 1）添加二维位置数据操作过程十分简洁。进入数据分析 → 空间数据可视化 → 二维数据，点击添加，将

AI教程 · 2026-06-29

年阿里云服务器选型配置与网站部署全攻略

2026年，阿里云服务器生态已高度成熟，形成了清晰的轻量应用服务器与ECS云服务器两大产品阵营。无论你是计划搭建个人博客、企业官网，还是运营电商平台、进行应用开发，基本都能找到理想的解决方案。本指南将从服务器选型、配置选择、部署流程到安全运维，系统梳理2026年最实用的操作要点，帮助你少走弯路，让网