游乐游手机版
首页/AI教程/文章详情

SGLang Model Gateway 0.2 企业级AI原生编排平台发布

时间:2026-06-24 11:45
SGLangModelGateway0 2发布,提供企业级一体化AI原生编排方案。核心升级包括多模型推理网关模式、RustgRPC驱动绕过Python与HTTP瓶颈、可插拔存储保护隐私、内置重试与断路器等可靠性功能,采用控制 数据 存储三层架构,支持灵活部署与Kubernetes集成。

市面上的 GPU 内核与推理引擎优化项目并不少见,传统云原生方向也有 AI 网关的身影,但真正一体化、AI 原生的编排解决方案几乎处于空白状态。在实际生产环境中,大多数人仍在拼凑“缝合怪”——手动组合各种组件,边调试边头疼。Oracle 与 SGLang 团队显然洞察到了这一缺口,直接推出了生产就绪的 SGLang Model Gateway 0.2

SGLang Model Gateway 架构图SGLang Model Gateway 架构图

版本号从 0.1 跃升至 0.2,名字则从 SGL-Router 彻底重构而来——这不是小修小补,而是一次架构层面的全面升级。

核心升级:多模型推理网关模式(IGW)

一个网关统一管理多个模型,每个模型可各自独立配置路由策略、健康检查与负载均衡。想象一下:在同一屋檐下同时运行多个路由器,共享一套可靠性机制和监控能力,省去重复造轮子的烦恼。

Rust gRPC 驱动:彻底绕过 Python 和 HTTP 瓶颈

流式处理要想快,依赖 Python 运行时显然不够。SGLang Model Gateway 直接用 Rust 实现 gRPC 路由层,分词器、推理解析器、工具解析器全部在进程内完成,不再受慢速的 HTTP 和 Python 层拖累。同时支持 OpenAI 兼容 API 与缓存分词功能。

可插拔存储与隐私保护

对话历史与响应历史可以存放在路由器层——可选内存、无存储或 Oracle ATP。这意味着同一份历史记录可为多个模型或 MCP 循环提供服务,数据不会泄露给上游厂商。所有对话历史、/v1/responses 状态和 MCP 会话都牢牢留在路由器内部,用户隐私更有保障。

可靠性 & 监控:该有的全都有

内置重试机制,支持指数退避与抖动;每个工作节点配有断路器;令牌桶限流搭配 FIFO 排队。监控方面提供 Prometheus 指标、结构化追踪、请求 ID 传播,以及详细的任务队列统计。生产环境所需的一切,一个都不少。

三层架构

整个体系清晰划分为三层:

  • 控制平面:负责工作节点管理——服务发现、负载追踪、节点注册与移除。
  • 数据平面:包含 HTTP 路由器(常规与 PD 两种)、gRPC 路由器以及 OpenAI 路由器。
  • 存储层:集中管理历史记录,防止数据外泄。

部署方式:灵活,不止一种

联合启动模式适合单节点或快速验证:

python3 -m sglang_router.launch_server --host 0.0.0.0 --port 8080 --model meta-llama/Llama-3.1-8B-Instruct --tp-size 1 --dp-size 8 --grpc-mode --log-level debug --router-prometheus-port 10001 --router-tool-call-parser llama --router-health-success-threshold 2 --router-health-check-timeout-secs 6000 --router-health-check-interval-secs 60 --router-model-path meta-llama/Llama-3.1-8B-Instruct --router-policy round_robin --router-log-level debug

也可以分离启动,工作节点独立运行:

# Worker nodes
python -m sglang.launch_server --model meta-llama/Meta-Llama-3.1-8B-Instruct --port 8000
python -m sglang.launch_server --model meta-llama/Meta-Llama-3.1-8B-Instruct --port 8001

# Router node
python -m sglang_router.launch_router --worker-urls https://worker1:8000 https://worker2:8001 --policy cache_aware --host 0.0.0.0 --port 30000

想要极限吞吐量?可直接使用 SRT gRPC 工作节点。还支持预填充/解码分离,以及 OpenAI 后端袋里。Kubernetes 集成通过 pod 选择器自动发现工作节点,省心不少。

向后兼容方面,所有 0.1.x 版本的 CLI 标志和 API 都能继续使用——重命名并没有破坏已有生态。对于正在将 SGLang 作为推理后端的团队来说,这次升级值得密切关注。

来源:https://cloud.tencent.com.cn/developer/article/2695649
上一篇OpenAI Codex手机版发布无需写代码只做决策 下一篇本地大模型消除重复推理的缓存优化方法
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
Windows Docker Desktop RabbitMQ生产级部署完整指南
AI教程 · 2026-06-29

Windows Docker Desktop RabbitMQ生产级部署完整指南

前言 在 Windows 本地开发环境中,直接安装 RabbitMQ 确实颇为周折:需要单独配置 Erlang 运行环境、手动管理环境变量、服务启停全凭手工操作。更令人困扰的是,版本兼容冲突、端口占用、环境不一致等问题层出不穷。笔者见过不少开发者为搭建环境就得耗费整整半天时间。 相比之下,借助 Do

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践
AI教程 · 2026-06-29

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践

先分享一个切实感受。过去两年,我们与福建制造企业合作较为频繁,发现一个非常突出的现象:超过80%的企业官网,产品参数仍然存放在PDF或图片中。AI爬虫?根本无法抓取。这些企业技术实力不弱、资质证照齐全、应用案例也丰富,但在AI搜索这一全新战场上,它们几乎处于隐身状态。 一、一个正在发生的行业变化 A

阿里云Token Plan团队版功能价格与省钱购买指南
AI教程 · 2026-06-29

阿里云Token Plan团队版功能价格与省钱购买指南

阿里云百炼近期推出了名为“Token Plan 团队版”的全新服务,这一服务专为企业与开发者量身打造,定位为AI大模型订阅平台。通过引入Credits作为统一计量单位,将文本生成、图像生成等多模态AI能力纳入单一计费体系,同时无缝兼容主流AI编程工具及智能体(Agent)生态系统。其核心亮点包括:全

阿里云物联网.NET Core客户端位置信息上报
AI教程 · 2026-06-29

阿里云物联网.NET Core客户端位置信息上报

阿里云物联网平台的位置服务并非一个完全独立的功能模块。位置信息可包含二维坐标与三维坐标,而位置数据的来源本质上是借助设备属性进行上传。换言之,若要让设备上报位置,您需先将其视为一个普通属性进行处理。 1)添加二维位置数据 操作过程十分简洁。进入数据分析 → 空间数据可视化 → 二维数据,点击添加,将

年阿里云服务器选型配置与网站部署全攻略
AI教程 · 2026-06-29

年阿里云服务器选型配置与网站部署全攻略

2026年,阿里云服务器生态已高度成熟,形成了清晰的轻量应用服务器与ECS云服务器两大产品阵营。无论你是计划搭建个人博客、企业官网,还是运营电商平台、进行应用开发,基本都能找到理想的解决方案。本指南将从服务器选型、配置选择、部署流程到安全运维,系统梳理2026年最实用的操作要点,帮助你少走弯路,让网