游乐游手机版
首页/科技数码/文章详情

SpaceServe创新突破:中科院空分复用技术破解MLLM推理瓶颈

时间:2025-12-08 12:29
中国科学院计算技术研究所的研究团队在NeurIPS 2025会议上发布了一项突破性成果——SpaceServe架构,该架构首次将大语言模型(LLM)推理中的并行-解码(P D)分离技术扩展至多模态场

中国科学院计算技术研究所团队在NeurIPS 2025会议上展示了一项重要突破——SpaceServe架构,首次将大语言模型推理中的并行-解码分离技术成功拓展到多模态领域。这项创新通过"空分复用"机制,从根本上解决了多模态大语言模型推理过程中的行头阻塞难题。

随着多模态大语言模型在图像识别、视频解析等高分辨率任务中的应用日益广泛,其推理流程中的多模态编码环节逐渐暴露出性能瓶颈。vLLM等传统系统采用"时间复用"策略,要求GPU必须先完成视觉或音频编码后才能转向文本解码。这种机制在同时处理大量请求时会产生明显问题:一张高分辨率图像的编码可能需要数百毫秒,使得等待生成文本的所有解码请求都被迫暂停,导致解码器处于"饥饿"状态。随着请求数量增加,输出token所需时间急剧上升,系统整体处理能力大幅降低。

SpaceServe架构的创新设计

研究团队开发的SpaceServe架构采用"空分复用"技术,将传统的时间串行执行模式转变为空间并行运行模式。分析数据显示,视觉编码器具有计算密集、内存带宽需求低的特点,而文本解码器则需要大量内存、高度依赖HBM带宽存储KV缓存。虽然两者的资源需求具有互补性,但在时间复用架构下却不得不依次执行,造成GPU资源利用率低下。SpaceServe的关键创新在于将编码器与解码器分离开来,利用现代GPU的流式多处理器细分能力,实现两者在同一GPU上同时运行。

该架构包含三个核心技术要素:首先,通过EPD三阶段逻辑分离与物理共存设计,将多模态编码器从共享文本解码器中完全独立出来,支持分别调度;其次,采用基于时间窗口的最短剩余工作优先编码器调度策略,按照剩余工作量从小到大的顺序批处理编码请求,防止大尺寸图像阻塞小图像处理,确保解码器获得平稳的输入数据流;最后,开发了基于资源利用曲线的动态分配运行环境,通过离线构建资源-效用曲线,在线根据请求特征动态分配流式多处理器计算单元,最大限度缩短端到端延迟。

实测性能表现

在Qwen2-VL系列模型上的测试结果表明,SpaceServe显著超越了传统vLLMv1系统。当请求频率提高时,vLLM的输出token耗时从101ms恶化到365ms,而SpaceServe仅从8.85ms微增至12.62ms。核心原因在于,vLLM中编码器独占用GPU期间解码器完全停滞,而SpaceServe通过空分复用技术让解码器在编码器运行时持续生成token,实现了执行流程的彻底分离。

与英伟达多进程服务方案的对比进一步证明了SpaceServe的优越性。在每秒10个请求的条件下,多进程服务版本的输出token耗时为132ms,而SpaceServe通过细粒度流式多处理器分区将延迟降低到40.68ms,速度提升达3.3倍。这是因为多进程服务仅在进程层面隔离资源,编码器与解码器仍然会争夺同一流式多处理器内的寄存器、L1缓存等资源,导致缓存污染和执行效率下降。SpaceServe则通过流式多处理器级别的物理分区实现了真正的资源隔离,最大化提升了各自执行效率。

这项研究成果无需改动现有模型结构,即可兼容Qwen2-VL、Kimi-VL等主流多模态大语言模型,且代码已经开放源码,有望集成到vLLM、SGLang等框架中,推动多模态服务的高效应用。需要说明的是,SpaceServe主要优化持续处理能力,对首个token生成时间的影响有限,这与设计初衷一致——重点提升解码器的持续高吞吐能力,而非单次编码加速。

项目地址:https://github.com/gofreelee/SpaceServe

来源:https://www.itbear.com.cn/html/2025-10/984528.html
上一篇vivo端侧AI开启个人智能新时代,从云端到端侧全面进化 下一篇固态电池爆发前夜:2025-2030产业链全景与投资策略
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
宫本茂亲签3DS XL拍卖价破两万美元
科技数码 · 2026-05-29

宫本茂亲签3DS XL拍卖价破两万美元

今天来说一件挺有意思的事:2015年任天堂世界锦标赛冠军约翰·戈德堡,近日将他当年夺冠时赢得的宫本茂亲笔签名版3DS XL掌机放上了拍卖平台。截至2026年5月29日,这台签名掌机的竞拍价已突破两万美元,并且价格还在持续攀升。戈德堡在社交媒体上发布声明表示,经过相当长时间的慎重考虑,他决定将这台对自

七彩虹隐星P16 Pro游戏本新配置仅售7799元
科技数码 · 2026-05-29

七彩虹隐星P16 Pro游戏本新配置仅售7799元

七彩虹近期推出隐星P16Pro游戏本新配置,售价7799元。其搭载酷睿i9-13900HX处理器与RTX5060显卡,配备16英寸2 5K高刷电竞屏及高效散热系统。存储组合为16GB内存与1TB固态硬盘,支持后续扩展。该配置主打高性能性价比,适合预算有限但追求强劲性能的游戏玩家与轻度创作者。

苹果iPhone Hikawa握把支架448元重新上架
科技数码 · 2026-05-29

苹果iPhone Hikawa握把支架448元重新上架

苹果公司重新上架了与艺术家贝利·桧川及PopSockets合作设计的iPhone专用握把支架。该配件采用磁吸设计,兼具握持与支架功能,旨在通过人性化设计降低握持负担,并提供三种配色可选,售价448元。

苹果体育应用扩展至170市场 为2026世界杯引入对阵图
科技数码 · 2026-05-29

苹果体育应用扩展至170市场 为2026世界杯引入对阵图

苹果体育应用新增覆盖90多个国家和地区,全球可用市场总数超过170个。为迎接2026年世界杯,应用加入了完整的赛程对阵图和可视化阵型卡片,方便用户追踪赛事与战术。同时,应用支持实时活动功能,可将比分固定在锁屏或表盘,并新增一键跳转至新闻的入口。目前该应用仍仅限iPhone用户使用。

小米史上最强国产巅峰芯片玄戒O3 6月台积电3nm投产
科技数码 · 2026-05-29

小米史上最强国产巅峰芯片玄戒O3 6月台积电3nm投产

据博主爆料,小米下一代自研玄戒芯片计划于今年6月正式进入量产阶段,此次将采用台积电3nm工艺。初代玄戒O1累计出货量已突破100万颗,量产验证十分扎实。新一代芯片的产能将显著提升,这意味着供货问题基本得到解决。 根据现有曝光信息,这颗迭代芯片极有可能命名为玄戒O3,首发搭载机型预计为小米MIX Fo