2025年6月6日,一场聚焦SGLang推理技术生态的线下Meetup在北京圆满落幕。本次活动由沐曦股份联合龙蜥社区、SGLang社区共同主办,吸引了线上超过65万人次观看,现场更有百余位技术专家与高校学子深度参与。简而言之,这是一场不设虚浮噱头的“硬核”技术聚会——与会者围绕大模型推理的实际落地难题与性能瓶颈展开了务实探讨。

今年OpenClaw发布的“龙虾”Agent智能体令整个行业为之振奋,随之而来的PD分离、长上下文KV Cache显存利用、多智能体推理等话题迅速成为热点。本次大会设置了五场主题演讲及一场圆桌对话,内容从底层可观测性延伸至上层多智能体架构,系统勾勒出SGLang推理生态的全景技术版图。
首位登台的是SGLang Core Maintainer童心源。他系统梳理了开源推理框架SGLang的发展脉络,重点剖析了PD分离、多模态模型支持、强化学习/后训练部署等关键技术节点的突破进展。从分享中可以看出,社区在该方向的推进速度远超外界预期。

(图:童心源)
龙蜥社区的苏峰与常怀鑫搭档登场,聚焦可观测性主题。他们回顾了SGLang Tracing的建设历程,并结合实际案例展示了如何利用AI Agent反向助力推理框架的性能优化——堪称“用魔法打败魔法”的典型实践。

下半场首个演讲来自阿里云高级技术专家马腾。他分享了基于Mooncake的多智能体推理架构优化方案,核心逻辑清晰:将KV Cache显存视为“物理工作记忆”,通过PD分离与全局共享显存池,实现“一次计算、全局复用”的记忆共享机制。

(图:马腾)
腾讯云高级工程师陈凯悦则将视角转向企业级落地。他详细拆解了HiCache与Mooncake如何从社区组件演变为内部推理集群的标准配置,并分享了在实际客户环境中踩过的坑与填过的坑,干货满满。

(图:陈凯悦)
压轴出场的是沐曦股份的杨鑫,他带来了沐曦GPU深度适配SGLang的全栈工程实践。从适配流程、自研MXMACA软件栈,到最新的模型兼容性与性能优化成果,信息密度极高,也让与会者清晰感受到国产算力在推理生态中的加速融入。

(图:杨鑫)
五场分享结束后,现场提问环节火花四溅。与会者关注的均为实际部署中遭遇的真实挑战,无任何空洞之谈。

圆桌对话:异构算力下的推理效能革命
圆桌环节由沐曦AI研究院院长李兆石主持,与童心源、常怀鑫、马腾、陈凯悦及沐曦SGLang核心开发者王志鹏围坐畅谈。话题自然聚焦“百万长上下文场景下的KV Cache管理”“AI存储需求演进方向”“云端与本地部署如何权衡”等硬核议题。几位嘉宾的观点碰撞精彩纷呈,每人均有一线实战积淀。

整场活动给人最深的感受是:SGLang生态正从“可用”加速迈向“好用”。龙蜥社区与沐曦等生态伙伴,正围绕推理性能优化、模型适配广度、开发者工具链等维度,一步一个脚印地将开源推理蓝图转化为切实可落地的工程方案。
最后,诚挚感谢所有参与分享的嘉宾,感谢沐曦与龙蜥社区的工作人员——范佳璐、陈韵霏、蒙秋红、刘瑞刚、李彪、章津楠、杨仰、蔡佳丽、金美琴、倪俊雄、袁艳桃等同事的全程组织与支持。同时特别鸣谢InfoQ、51CTO、阿里云AI生产力Live等媒体伙伴的助力,让这场技术盛会得以触达更广泛的受众。
附上本场活动的PPT与视频回放链接,方便各位复盘学习:
PPT下载链接:https://docs.openanolis.cn/document/detail/rpzigrnb
视频回放:https://openanolis.cn/video/#1644020499070544368
现场精彩集锦:

—— 完 ——
