当高性能推理引擎遇上国产算力,技术落地的边界究竟能拓展多远?这个周六(6月6日),北京·融科资讯中心即将迎来一场硬核技术聚会——由沐曦股份、龙蜥社区、SGLang社区等生态伙伴联合推出的“沐‘蜥’芯生,开源共创——SGLang技术交流Meetup”。活动聚焦SGLang开源生态、国产GPU深度适配、Mooncake推理架构、AI性能分析工具等前沿议题,通过技术分享和圆桌对话,真正把国产算力与开源系统的协同演进推到台前。
当然,干货之外,龙蜥社区也为参会者准备了实用四件套、定制双包、环保帆布袋和精美本笔套装。期待大家带着前沿技术碰撞的火花,满载社区的心意而归。
本次MeetUp的演讲亮点抢先看——
1、演讲主题:SGLang Roadmap:面向大模型与多模态模型的高性能开源推理系统
嘉宾:童心源,SGLang Core Maintainer
简介:SGLang作为面向大语言模型与多模态模型的高性能开源推理框架,支持从单卡到大规模分布式集群的低延迟、高吞吐部署。这次分享将带来最新进展和未来发展路线图,涉及高效运行时、模型与硬件支持、工业界应用、开源社区协作,以及它在RL/post-training rollout后端中的实践。一句话概括:看看SGLang如何撑起下一代开放、可扩展的大模型服务生态。
2、演讲主题:从全链路可观测到智能分析:AI性能分析范式的演进与实践
嘉宾:苏峰,龙蜥社区SGLang项目开发者;常怀鑫,龙蜥社区智算联盟委员
简介:AI Agent加速落地的背景下,性能分析正在从“人工专家驱动”转向“Agent自主智能”。过去靠SGLang Tracing深入Runtime底层,可视化追踪精准捕获调度、KV Cache及GPU执行指标,让推理黑盒透明化。现在结合Agent与LLM,不仅能延续底层指标的洞察,还能自动瓶颈定位和根因分析。本分享将回顾SGLang可观测性建设历程,并探讨如何用新一代AI技术重构性能分析工作流——为构建高效稳定的AI服务保驾护航。
3、演讲主题:记忆感知驱动——基于Mooncake的多智能体推理架构优化
嘉宾:马腾,阿里云高级技术专家
简介:核心思路是将大模型推理引擎中的KVCache视为智能体系统最关键的“物理工作记忆”。通过打破传统计算与存储的强耦合,Mooncake实现了Prefill与Decode的分离式架构,并构建全局共享的KVCache池。这样一来,多智能体在频繁交互协同工作时,就能通过跨节点的底层张量零拷贝与高效复用,达到“一次计算、全局共享”的效果。
4、演讲主题:SGLang HiCache + Mooncake的深度优化与企业级落地
嘉宾:陈凯悦,腾讯云高级工程师
简介:腾讯云异构计算团队基于SGLang HiCache + Mooncake的生产落地实践——与SGLang、Mooncake社区紧密协作,针对大规模并发启动、MTP投机推理兼容、跨实例缓存共享、RadixTree节点分裂导致缓存失效等真实场景的边界问题,共同完成了多项稳定性和性能优化,并向上游贡献了多个PR。落地效果:Prefill命中率从61.9%提升到89.1%,TTFT加速2.6倍,端到端延迟加速4倍,长上下文Input吞吐提升152%,并在客户环境中稳定运行。数据很能说明问题。
5、演讲主题:沐曦GPU对SGLang的深度适配与工程实践
嘉宾:杨鑫,沐曦股份SGL推理引擎核心开发者
简介:本分享将介绍SGLang在Metax GPU上的适配流程、最新模型支持情况、性能优化实践,以及2026年的Roadmap。国产GPU与开源推理框架的结合,正在走向更深的工程化阶段。
6、圆桌会议:异构算力下的推理效能革命——SGLang前沿优化与企业落地实践
主持人:李兆石,沐曦股份AI研究院院长
嘉宾:童心源(SGLang Core Maintainer)、常怀鑫(龙蜥社区SGLang项目开发者)、马腾(阿里云高级技术专家)、王志鹏(沐曦股份SGL推理引擎核心开发者)、陈凯悦(腾讯云高级工程师)
更多详细议程见下方海报:


