游乐游手机版
首页/科技数码/文章详情

国产GPU开源生态进入原生支持 SGLang与MUSA Meetup落幕

时间:2026-06-20 14:17
5月10日,SGLang与摩尔线程联合举办MUSA开源技术沙龙,宣布MUSA后端正式合入SGLang主线,国产GPU实现原生支持,开发者可直接调用摩尔线程全功能GPU运行推理任务。技术分享聚焦框架优化、算子编译与生态共建,推动国产算力与主流开源框架深度融合。

5月10日,这场备受瞩目的技术沙龙终于在京城拉开序幕。由摩尔线程与SGLang社区联合主办的“MUSA开源技术沙龙|SGLang × MUSA Meetup”在北京正式启幕,吸引了大批开发者的目光。



现场氛围远超预期,热度空前。不仅SGLang的核心开发团队悉数亮相,TileLang、Triton、Mooncake等开源社区的技术大咖也齐聚一堂。近百位前沿开发者将会场挤得满满当当,围绕大模型推理引擎、算子编译、工程优化与生态共建等硬核议题,展开了一场真正高密度、深层次的思想碰撞。



这不仅是MUSA后端正式合入SGLang主线以来的首次线下聚会,更是一次里程碑式的成果展示。依托最新的支持体系,开发者在利用SGLang运行大语言模型或多模态推理任务时,可直接调用摩尔线程的全功能GPU,无需依赖任何第三方适配层。国产算力与国际主流推理框架的协同,从此迈入“原生支持”的全新阶段。

立足通用计算,以MUSA开放架构拥抱开源生态

摩尔线程CTO张钰勃的开场致辞信息量十足。他深入剖析了MUSA(Meta-computing Unified System Architecture)统一系统架构的核心设计理念,反复强调摩尔线程自创立之初便坚守“通用计算”初心——底层计算平台必须真正通用且高度统一,才能支撑从物理世界仿真、数字孪生到具身智能的未来演进,不为创新设限。同时,通过全产品线统一的指令集与架构标准,确保软件生态得以持续积累。



面对开发者最为关心的生态迁移问题,张钰勃的回应也十分明确:“MUSA在接口设计上最大程度复用了开发者熟悉的GPU编程习惯。我们不愿创造封闭生态,而是以零学习成本全面融入现有繁荣生态。”这种开放姿态,直接解释了MUSA为何能获得SGLang的最新支持。未来,摩尔线程还将在框架底层创新上持续贡献。

技术分享:从推理框架到算子内核,共探国产GPU落地路径

技术分享环节信息密度极高。SGLang、Triton、TileLang及Mooncake社区的核心专家围绕推理框架、算子编译与训推系统等议题,带来了五场深度技术分享。



解析演进路线,SGLang以创新架构挑战大模型推理极限

SGLang核心开发成员Xiaoyu Zhang(BBuf)重点解析了框架的关键演进:支撑DeepSeek-V4等模型的Prefill-Decode分离架构与分层缓存机制,以及Zero-overhead Speculative Decoding带来的推测解码效率跃升。在算子层面,原有的sgl-kernel包因体积膨胀(超过1.5GB)已逐步迁移至全新的Jit-kernel体系,基于TVM-FFI实现按需编译,大幅提升开发与发版效率。同时,SGLang积极引入Vibe Coding实践,利用AI Agent自动完成超60项性能分析与调优任务。发布2026年Q2 Roadmap时,他明确表示摩尔线程MUSA已正式纳入SGLang硬件适配核心阵列,未来双方将深化原生算子支持,推动顶级推理框架与国产算力底座的“原生”级融合。



打通原生生态,MUSA释放主流模型“开箱即用”算力

摩尔线程Contributor ROCKSTAR分享了SGLang在MUSA平台上的优化与工程落地实践。他重点介绍了实现快速兼容的关键——torchada适配层。通过一次import torchada,开发者现有CUDA代码即可无缝运行在摩尔线程GPU上,大幅降低适配与维护成本。在算子层面,摩尔线程开源的MATE(MUSA AI Tensor Engine)算子库提供了高性能Attention与GEMM算子,已对接FlashAttention、FlashMLA、DeepGEMM等主流接口。目前,基于MUSA的SGLang已支持DeepSeek、Qwen、GLM等主流大模型及Wan、LTX等视频生成模型,在MTT S5000等硬件上真正实现了“开箱即用”与无缝加速。截至5月12日,摩尔线程在SGLang主线累计提交47个PR,其中41个已合入,从环境构建到分布式推理的全链路已全面打通。



攻克关键算子优化,Triton助力构建跨芯片统一软件栈

北京智源人工智能研究院AI编译器研究员肖航的演讲,聚焦于大模型Triton关键算子的优化及其在MUSA平台上的深度适配。他介绍了旨在打通多种AI芯片的统一开源软件栈FlagOS,其FlagGEMs算子库已涵盖超过497个算子,并依托FlagTree编译器与Triton-TLE语言扩展,实现跨芯片的高性能算子生成。通过融合、量化等方式加速Fused MoE和FP8 GEMM等算子性能4倍以上。在DeepSeek-V4的Day0适配中,通过摩尔线程专用的张量加速引擎与FlagOS调优方案,TTFT时延降低56.7%,吞吐量提升65.7%。这种跨芯片的统一抽象与优化机制,正为摩尔线程等国产GPU构建起更丰富、高效的算力应用生态。



破解硬件依赖,TileLang以极简抽象重塑算子开发范式

TileLang Maintainer唐正举深入探讨了TileLang在化解算子硬件依赖与性能调优上的核心优势。作为一款Tile级领域特定编程语言(DSL),通过对计算与数据搬运基本单元(Tile)的显式控制,开发者可用极简代码实现极致性能——例如仅用约50行代码写出比肩FlashAttention专家库的kernel,在Attention-Sinks等算子上更获得20倍以上加速。TileLang提供Beginner、Developer、Expert三种编程模式,兼顾上手简易与深度调优;DeepSeek-V4已在训练中原生采用其编写核心kernel,达到硬件峰值性能。作为开源近一年即斩获超6000星的热门社区,TileLang正与MUSA生态深度联调,共同构建适配摩尔线程全功能GPU的高性能算子库。



践行极致解耦,Mooncake训推一体系统在国产GPU的高效实践

Mooncake Contributor马腾分享了Mooncake与SGLang深度结合的技术演进。其核心传输引擎(Transfer Engine)充分利用零拷贝RDMA与多协议支持,实现高吞吐与超低延迟;KV Cache Store将GPU显存、DRAM、SSD等异构存储统一池化,显著降低长上下文推理成本。在弹性EP架构中,Mooncake支持故障节点动态摘除与Expert映射调整,大幅提升集群容错能力;在RL权重更新场景中,通过P2P传输将同步时间从53秒压缩至7.2秒。目前,摩尔线程已作为Mooncake项目的核心Maintainer之一,深度参与多节点通信协议等关键特性的共建。

圆桌讨论:SGLang+MUSA 生态共建与工程化破局

圆桌对话环节由摩尔线程软件副总裁杨上山主持,与Xiaoyu Zhang(BBuf)、ROCKSTAR、肖航、唐正举及马腾五位技术专家同台,围绕“SGLang + MUSA生态共建与工程化破局”展开深度探讨。



面对开源技术创新提速与国产多硬件生态复杂度加剧的双重挑战,嘉宾们从框架、算子、通信到系统架构逐一破题:BBuf呼吁框架层建立更干净的硬件抽象,避免侵入式修改;ROCKSTAR分享了MUSA在兼容CUDA生态过程中“接口兼容、底层创新”的关键路径;肖航结合Triton及TLE扩展,探讨了可编程性与极致性能之间的再平衡策略;唐正举强调TileLang的Tile抽象可作为连接模型、算子和硬件的统一纽带,助力国产芯片全链路形成合力;马腾则从系统视角指出,最佳实践的沉淀与端到端场景验证是生态繁荣的关键。嘉宾们一致认为,未来12个月应优先建立跨层级的统一抽象边界、标准化适配接口与共享的基准测试体系,用开放协作替代重复适配,共同推动国产AI软硬件生态的协同突破。

结语

本次“SGLang × MUSA Meetup”的成功举办,标志着MUSA后端合入SGLang主线后,国产GPU与全球顶级推理框架的协同从“代码共建”迈向“生态共聚”。





通过与SGLang、TileLang、Triton、Mooncake等开源社区的紧密协作,摩尔线程不仅推动了MUSA平台与主流AI框架的深度适配,更以实际行动赋能开发者,持续助力国产算力与全球开源生态的深度融合。从一行行代码的提交合入,到如今线下社区的深度共聚,这条路走得坚实而长远。摩尔线程正携手顶尖开源力量,夯实国产GPU软件栈底座,与广大开发者一起,加速AI应用的创新与落地。

来源:https://www.163.com/dy/article/KVQMIHKL0511RIVP.html
上一篇摩尔线程亮相2026移动云大会全栈自主算力赋能Token生态与智算 下一篇香港中文大学研究:AI造游戏最强模型仅答对四成
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
年国家能源局充换电服务业用电量增速48.8%
科技数码 · 2026-06-29

年国家能源局充换电服务业用电量增速48.8%

2025年全社会用电量达103682亿千瓦时,同比增长5 0%。充换电服务业用电增速高达48 8%,信息传输与软件服务业增速17 0%。第三产业和居民用电对增长贡献率合计占一半。中国成为全球首个年度用电量超10 4万亿千瓦时的国家。

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元
科技数码 · 2026-06-29

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元

追风者冰川360S25液冷散热器售价429元,三联一体风扇便捷安装,冷头小体积纯铜底座噪音18dB,风扇转速300-2000RPM、风量75CFM、静压2 96mmAq,五年质保漏液包赔。

三星Galaxy Watch8用户反馈谷歌后台组件异常
科技数码 · 2026-06-29

三星Galaxy Watch8用户反馈谷歌后台组件异常

三星GalaxyWatch8、Watch5Pro、Watch6及Watch7用户反映,GooglePlayServices后台耗电异常,电量占比最高达99 97%,远超正常水平,严重影响续航。目前故障原因不明,谷歌尚未发布官方声明。

罗永浩批苹果iOS 27创新不足 盼新CEO改进
科技数码 · 2026-06-29

罗永浩批苹果iOS 27创新不足 盼新CEO改进

罗永浩批评苹果iOS27创新不足,称仅有双iPhone同号、音量分离等数十项细节改进,认为库克时代缺乏突破性创新,股市虽好但消费者只能被迫接受挤牙膏式升级。

年国产车出口710万辆,两家车企销量破百万
科技数码 · 2026-06-29

年国产车出口710万辆,两家车企销量破百万

2025年国产汽车出口总量达710万辆,同比增长21%。奇瑞以134万辆居首,比亚迪105万辆次之,上汽乘用车出口占比60%最高,长城出口51万辆。吉利、长安等主流品牌同步增长,小鹏、零跑等新兴品牌海外拓展加速。