中国科学院计算技术研究所团队在NeurIPS 2025会议上展示了一项重要突破——SpaceServe架构,首次将大语言模型推理中的并行-解码分离技术成功拓展到多模态领域。这项创新通过"空分复用"机制,从根本上解决了多模态大语言模型推理过程中的行头阻塞难题。
随着多模态大语言模型在图像识别、视频解析等高分辨率任务中的应用日益广泛,其推理流程中的多模态编码环节逐渐暴露出性能瓶颈。vLLM等传统系统采用"时间复用"策略,要求GPU必须先完成视觉或音频编码后才能转向文本解码。这种机制在同时处理大量请求时会产生明显问题:一张高分辨率图像的编码可能需要数百毫秒,使得等待生成文本的所有解码请求都被迫暂停,导致解码器处于"饥饿"状态。随着请求数量增加,输出token所需时间急剧上升,系统整体处理能力大幅降低。
SpaceServe架构的创新设计
研究团队开发的SpaceServe架构采用"空分复用"技术,将传统的时间串行执行模式转变为空间并行运行模式。分析数据显示,视觉编码器具有计算密集、内存带宽需求低的特点,而文本解码器则需要大量内存、高度依赖HBM带宽存储KV缓存。虽然两者的资源需求具有互补性,但在时间复用架构下却不得不依次执行,造成GPU资源利用率低下。SpaceServe的关键创新在于将编码器与解码器分离开来,利用现代GPU的流式多处理器细分能力,实现两者在同一GPU上同时运行。
该架构包含三个核心技术要素:首先,通过EPD三阶段逻辑分离与物理共存设计,将多模态编码器从共享文本解码器中完全独立出来,支持分别调度;其次,采用基于时间窗口的最短剩余工作优先编码器调度策略,按照剩余工作量从小到大的顺序批处理编码请求,防止大尺寸图像阻塞小图像处理,确保解码器获得平稳的输入数据流;最后,开发了基于资源利用曲线的动态分配运行环境,通过离线构建资源-效用曲线,在线根据请求特征动态分配流式多处理器计算单元,最大限度缩短端到端延迟。
实测性能表现
在Qwen2-VL系列模型上的测试结果表明,SpaceServe显著超越了传统vLLMv1系统。当请求频率提高时,vLLM的输出token耗时从101ms恶化到365ms,而SpaceServe仅从8.85ms微增至12.62ms。核心原因在于,vLLM中编码器独占用GPU期间解码器完全停滞,而SpaceServe通过空分复用技术让解码器在编码器运行时持续生成token,实现了执行流程的彻底分离。
与英伟达多进程服务方案的对比进一步证明了SpaceServe的优越性。在每秒10个请求的条件下,多进程服务版本的输出token耗时为132ms,而SpaceServe通过细粒度流式多处理器分区将延迟降低到40.68ms,速度提升达3.3倍。这是因为多进程服务仅在进程层面隔离资源,编码器与解码器仍然会争夺同一流式多处理器内的寄存器、L1缓存等资源,导致缓存污染和执行效率下降。SpaceServe则通过流式多处理器级别的物理分区实现了真正的资源隔离,最大化提升了各自执行效率。
这项研究成果无需改动现有模型结构,即可兼容Qwen2-VL、Kimi-VL等主流多模态大语言模型,且代码已经开放源码,有望集成到vLLM、SGLang等框架中,推动多模态服务的高效应用。需要说明的是,SpaceServe主要优化持续处理能力,对首个token生成时间的影响有限,这与设计初衷一致——重点提升解码器的持续高吞吐能力,而非单次编码加速。
项目地址:https://github.com/gofreelee/SpaceServe
