SpaceServe创新突破：中科院空分复用技术破解MLLM推理瓶颈

时间：2025-12-08 12:29

中国科学院计算技术研究所的研究团队在NeurIPS 2025会议上发布了一项突破性成果——SpaceServe架构，该架构首次将大语言模型（LLM）推理中的并行-解码（P D）分离技术扩展至多模态场

中国科学院计算技术研究所团队在NeurIPS 2025会议上展示了一项重要突破——SpaceServe架构，首次将大语言模型推理中的并行-解码分离技术成功拓展到多模态领域。这项创新通过"空分复用"机制，从根本上解决了多模态大语言模型推理过程中的行头阻塞难题。

随着多模态大语言模型在图像识别、视频解析等高分辨率任务中的应用日益广泛，其推理流程中的多模态编码环节逐渐暴露出性能瓶颈。vLLM等传统系统采用"时间复用"策略，要求GPU必须先完成视觉或音频编码后才能转向文本解码。这种机制在同时处理大量请求时会产生明显问题：一张高分辨率图像的编码可能需要数百毫秒，使得等待生成文本的所有解码请求都被迫暂停，导致解码器处于"饥饿"状态。随着请求数量增加，输出token所需时间急剧上升，系统整体处理能力大幅降低。

SpaceServe架构的创新设计

研究团队开发的SpaceServe架构采用"空分复用"技术，将传统的时间串行执行模式转变为空间并行运行模式。分析数据显示，视觉编码器具有计算密集、内存带宽需求低的特点，而文本解码器则需要大量内存、高度依赖HBM带宽存储KV缓存。虽然两者的资源需求具有互补性，但在时间复用架构下却不得不依次执行，造成GPU资源利用率低下。SpaceServe的关键创新在于将编码器与解码器分离开来，利用现代GPU的流式多处理器细分能力，实现两者在同一GPU上同时运行。

该架构包含三个核心技术要素：首先，通过EPD三阶段逻辑分离与物理共存设计，将多模态编码器从共享文本解码器中完全独立出来，支持分别调度；其次，采用基于时间窗口的最短剩余工作优先编码器调度策略，按照剩余工作量从小到大的顺序批处理编码请求，防止大尺寸图像阻塞小图像处理，确保解码器获得平稳的输入数据流；最后，开发了基于资源利用曲线的动态分配运行环境，通过离线构建资源-效用曲线，在线根据请求特征动态分配流式多处理器计算单元，最大限度缩短端到端延迟。

实测性能表现

在Qwen2-VL系列模型上的测试结果表明，SpaceServe显著超越了传统vLLMv1系统。当请求频率提高时，vLLM的输出token耗时从101ms恶化到365ms，而SpaceServe仅从8.85ms微增至12.62ms。核心原因在于，vLLM中编码器独占用GPU期间解码器完全停滞，而SpaceServe通过空分复用技术让解码器在编码器运行时持续生成token，实现了执行流程的彻底分离。

与英伟达多进程服务方案的对比进一步证明了SpaceServe的优越性。在每秒10个请求的条件下，多进程服务版本的输出token耗时为132ms，而SpaceServe通过细粒度流式多处理器分区将延迟降低到40.68ms，速度提升达3.3倍。这是因为多进程服务仅在进程层面隔离资源，编码器与解码器仍然会争夺同一流式多处理器内的寄存器、L1缓存等资源，导致缓存污染和执行效率下降。SpaceServe则通过流式多处理器级别的物理分区实现了真正的资源隔离，最大化提升了各自执行效率。

这项研究成果无需改动现有模型结构，即可兼容Qwen2-VL、Kimi-VL等主流多模态大语言模型，且代码已经开放源码，有望集成到vLLM、SGLang等框架中，推动多模态服务的高效应用。需要说明的是，SpaceServe主要优化持续处理能力，对首个token生成时间的影响有限，这与设计初衷一致——重点提升解码器的持续高吞吐能力，而非单次编码加速。

项目地址：https://github.com/gofreelee/SpaceServe

来源：https://www.itbear.com.cn/html/2025-10/984528.html

上一篇vivo端侧AI开启个人智能新时代，从云端到端侧全面进化 下一篇固态电池爆发前夜：2025-2030产业链全景与投资策略

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-01

酷态科电能仓600开启预约同时充7台设备首发1299元

酷态科在户外电源市场又带来了一款重磅新品——电能仓600，今天（7月1日）上午官方微博正式宣布开启预约，7月7日上午10点开售。这款产品的定价相当有竞争力：日常价1399元，首发直接优惠至1299元。先聊聊它的核心参数：额定功率600W，但支持升维驱动至1000W。这是什么意思呢？像热水壶、养生壶

科技数码 · 2026-07-01

倍思四款旗舰降噪耳机搭载中科蓝讯BT8972H上市

近年来，主动降噪（ANC）与AI通话降噪（ENC）已成为TWS耳机的核心功能，消费者对耳机的期待也在持续攀升——既要通勤时的安静沉浸，又要通话时的清晰无扰。不过，真正将这两项性能打磨至行业顶尖水准的，往往取决于底层芯片的实力。中科蓝讯最新推出的BT8972H音频平台芯片，在ANC主动降噪和ENC通话

科技数码 · 2026-07-01

中科蓝讯BT8972H助力倍思四款旗舰降噪耳机上市

如今，主动降噪与AI通话降噪已成为TWS耳机市场的核心竞争领域。消费者对半入耳式和入耳式耳机在降噪、通透模式及高清通话方面的需求持续攀升，这对芯片方案的性能提出了更高要求。在此背景下，中科蓝讯推出全新一代BT8972H音频平台芯片，在ANC主动降噪与ENC环境降噪两大核心功能上实现了突破性升级。凭借

科技数码 · 2026-07-01

三星Galaxy Glasses功能曝光手势控制多设备联动

三星的下一代智能穿戴设备——Galaxy Glasses，近期因配套应用及演示内容曝光，再度向外界揭示了大量硬核细节。此次泄露的信息显示，这款智能眼镜并非孤立硬件，而是三星联手谷歌、Warby Parker以及Gentle Monster共同打造的成果，搭载Android XR平台，并运行三星自家的

科技数码 · 2026-07-01

AI助推网络攻击工具苹果提前发布iOS安全更新

据路透社今日凌晨报道，苹果公司在安全策略上做出了一项关键调整：为应对由AI加速开发的网络攻击工具所引发的安全风险，苹果决定将部分原本计划随新版iOS系统一同推送的更新，提前向所有用户开放。苹果官方给出的解释是，当前人工智能技术已能够显著提升恶意攻击工具的开发效率，因此安全更新从发布到抵达用户设备的