开源社区是推动 AI 创新的核心引擎。全球开发者汇聚智慧、共享代码,我们才有机会更高效地突破技术瓶颈,携手迈向通用人工智能的未来。
近期,百度百舸与 SGLang 社区展开深度合作,正式开源一套已在生产系统中经过严格验证的 MTP 高性能推理代码。
这套代码在性能上表现卓越,更在百度内部大规模服务中验证了其优异的稳定性与可靠性。SGLang 社区的实际测试表明,该代码让最新的 DeepSeek-V3.2 模型实现了解码吞吐量提升超过 2 倍的显著性能改进,从而帮助开发者直接在生产环境中部署这套优化方案。


代码地址:https://github.com/sgl-project/sglang/pull/11652
本次开源的核心是一个为 DeepSeek-V3.2 全新的 DSA 架构专门定制的 MTP 实现。由于 DSA 架构的引入,原先适用于旧版 DeepSeek 模型的 MTP 代码无法直接复用。同时,架构的升级在带来新的优化机遇的同时,也为推理性能突破带来了全新的挑战。
MTP 技术让模型在单次前向传播中一次性预测多个未来 token,再统一进行验证,这显著减少了生成完整序列所需的总步数。其核心价值在于通过改变传统的解码方式突破效率瓶颈:
○ 传统方式(自回归解码):模型每次只生成一个 token,必须等待上一个 token 生成完毕后才能继续生成下一个。这种方式虽然稳定,但在速度方面存在明显限制。
○ MTP 方式(批量生成,集中验证):模型能够智能地一次性推理出多个候选后续 token,再统一进行验证。这好比从逐个打字提升为智能联想输入,一次性能给出多个候选词组,从而大幅降低了生成轮次,打破了序列化处理的瓶颈。
百度智能云的核心工作,正是为全新的 DSA 架构实现了这套高效的 MTP 方案。生产级别的代码贡献使得 SGLang 社区的开发者无需重复底层探索与试错,便能直接获得性能倍增且稳定可靠的推理能力。
未来,百度百舸 AI 计算平台的研发团队将持续向 SGLang 社区开源更多生产级别的核心代码,与全球开发者携手推动大模型技术的创新发展与普惠应用。
