游乐游手机版
首页/科技数码/文章详情

SpaceServe创新突破:中科院空分复用技术破解MLLM推理瓶颈

时间:2025-12-08 12:29
中国科学院计算技术研究所的研究团队在NeurIPS 2025会议上发布了一项突破性成果——SpaceServe架构,该架构首次将大语言模型(LLM)推理中的并行-解码(P D)分离技术扩展至多模态场

中国科学院计算技术研究所团队在NeurIPS 2025会议上展示了一项重要突破——SpaceServe架构,首次将大语言模型推理中的并行-解码分离技术成功拓展到多模态领域。这项创新通过"空分复用"机制,从根本上解决了多模态大语言模型推理过程中的行头阻塞难题。

随着多模态大语言模型在图像识别、视频解析等高分辨率任务中的应用日益广泛,其推理流程中的多模态编码环节逐渐暴露出性能瓶颈。vLLM等传统系统采用"时间复用"策略,要求GPU必须先完成视觉或音频编码后才能转向文本解码。这种机制在同时处理大量请求时会产生明显问题:一张高分辨率图像的编码可能需要数百毫秒,使得等待生成文本的所有解码请求都被迫暂停,导致解码器处于"饥饿"状态。随着请求数量增加,输出token所需时间急剧上升,系统整体处理能力大幅降低。

SpaceServe架构的创新设计

研究团队开发的SpaceServe架构采用"空分复用"技术,将传统的时间串行执行模式转变为空间并行运行模式。分析数据显示,视觉编码器具有计算密集、内存带宽需求低的特点,而文本解码器则需要大量内存、高度依赖HBM带宽存储KV缓存。虽然两者的资源需求具有互补性,但在时间复用架构下却不得不依次执行,造成GPU资源利用率低下。SpaceServe的关键创新在于将编码器与解码器分离开来,利用现代GPU的流式多处理器细分能力,实现两者在同一GPU上同时运行。

该架构包含三个核心技术要素:首先,通过EPD三阶段逻辑分离与物理共存设计,将多模态编码器从共享文本解码器中完全独立出来,支持分别调度;其次,采用基于时间窗口的最短剩余工作优先编码器调度策略,按照剩余工作量从小到大的顺序批处理编码请求,防止大尺寸图像阻塞小图像处理,确保解码器获得平稳的输入数据流;最后,开发了基于资源利用曲线的动态分配运行环境,通过离线构建资源-效用曲线,在线根据请求特征动态分配流式多处理器计算单元,最大限度缩短端到端延迟。

实测性能表现

在Qwen2-VL系列模型上的测试结果表明,SpaceServe显著超越了传统vLLMv1系统。当请求频率提高时,vLLM的输出token耗时从101ms恶化到365ms,而SpaceServe仅从8.85ms微增至12.62ms。核心原因在于,vLLM中编码器独占用GPU期间解码器完全停滞,而SpaceServe通过空分复用技术让解码器在编码器运行时持续生成token,实现了执行流程的彻底分离。

与英伟达多进程服务方案的对比进一步证明了SpaceServe的优越性。在每秒10个请求的条件下,多进程服务版本的输出token耗时为132ms,而SpaceServe通过细粒度流式多处理器分区将延迟降低到40.68ms,速度提升达3.3倍。这是因为多进程服务仅在进程层面隔离资源,编码器与解码器仍然会争夺同一流式多处理器内的寄存器、L1缓存等资源,导致缓存污染和执行效率下降。SpaceServe则通过流式多处理器级别的物理分区实现了真正的资源隔离,最大化提升了各自执行效率。

这项研究成果无需改动现有模型结构,即可兼容Qwen2-VL、Kimi-VL等主流多模态大语言模型,且代码已经开放源码,有望集成到vLLM、SGLang等框架中,推动多模态服务的高效应用。需要说明的是,SpaceServe主要优化持续处理能力,对首个token生成时间的影响有限,这与设计初衷一致——重点提升解码器的持续高吞吐能力,而非单次编码加速。

项目地址:https://github.com/gofreelee/SpaceServe

来源:https://www.itbear.com.cn/html/2025-10/984528.html
上一篇vivo端侧AI开启个人智能新时代,从云端到端侧全面进化 下一篇固态电池爆发前夜:2025-2030产业链全景与投资策略
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
酷态科电能仓600开启预约同时充7台设备首发1299元
科技数码 · 2026-07-01

酷态科电能仓600开启预约同时充7台设备首发1299元

酷态科在户外电源市场又带来了一款重磅新品——电能仓600,今天(7月1日)上午官方微博正式宣布开启预约,7月7日上午10点开售。这款产品的定价相当有竞争力:日常价1399元,首发直接优惠至1299元。 先聊聊它的核心参数:额定功率600W,但支持升维驱动至1000W。这是什么意思呢?像热水壶、养生壶

倍思四款旗舰降噪耳机搭载中科蓝讯BT8972H上市
科技数码 · 2026-07-01

倍思四款旗舰降噪耳机搭载中科蓝讯BT8972H上市

近年来,主动降噪(ANC)与AI通话降噪(ENC)已成为TWS耳机的核心功能,消费者对耳机的期待也在持续攀升——既要通勤时的安静沉浸,又要通话时的清晰无扰。不过,真正将这两项性能打磨至行业顶尖水准的,往往取决于底层芯片的实力。中科蓝讯最新推出的BT8972H音频平台芯片,在ANC主动降噪和ENC通话

中科蓝讯BT8972H助力倍思四款旗舰降噪耳机上市
科技数码 · 2026-07-01

中科蓝讯BT8972H助力倍思四款旗舰降噪耳机上市

如今,主动降噪与AI通话降噪已成为TWS耳机市场的核心竞争领域。消费者对半入耳式和入耳式耳机在降噪、通透模式及高清通话方面的需求持续攀升,这对芯片方案的性能提出了更高要求。在此背景下,中科蓝讯推出全新一代BT8972H音频平台芯片,在ANC主动降噪与ENC环境降噪两大核心功能上实现了突破性升级。凭借

三星Galaxy Glasses功能曝光 手势控制多设备联动
科技数码 · 2026-07-01

三星Galaxy Glasses功能曝光 手势控制多设备联动

三星的下一代智能穿戴设备——Galaxy Glasses,近期因配套应用及演示内容曝光,再度向外界揭示了大量硬核细节。此次泄露的信息显示,这款智能眼镜并非孤立硬件,而是三星联手谷歌、Warby Parker以及Gentle Monster共同打造的成果,搭载Android XR平台,并运行三星自家的

AI助推网络攻击工具 苹果提前发布iOS安全更新
科技数码 · 2026-07-01

AI助推网络攻击工具 苹果提前发布iOS安全更新

据路透社今日凌晨报道,苹果公司在安全策略上做出了一项关键调整:为应对由AI加速开发的网络攻击工具所引发的安全风险,苹果决定将部分原本计划随新版iOS系统一同推送的更新,提前向所有用户开放。 苹果官方给出的解释是,当前人工智能技术已能够显著提升恶意攻击工具的开发效率,因此安全更新从发布到抵达用户设备的