百度百舸X SGLang开源MTP代码,DeepSeek-V3.2推理性能提升2倍
开源社区是推动 AI 创新的核心引擎。全球开发者汇聚智慧、共享代码,我们才有机会更高效地突破技术瓶颈,携手迈向通用人工智能的未来。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
近期,百度百舸与 SGLang 社区展开深度合作,正式开源一套已在生产系统中经过严格验证的 MTP 高性能推理代码。
这套代码在性能上表现卓越,更在百度内部大规模服务中验证了其优异的稳定性与可靠性。SGLang 社区的实际测试表明,该代码让最新的 DeepSeek-V3.2 模型实现了解码吞吐量提升超过 2 倍的显著性能改进,从而帮助开发者直接在生产环境中部署这套优化方案。


代码地址:https://github.com/sgl-project/sglang/pull/11652
本次开源的核心是一个为 DeepSeek-V3.2 全新的 DSA 架构专门定制的 MTP 实现。由于 DSA 架构的引入,原先适用于旧版 DeepSeek 模型的 MTP 代码无法直接复用。同时,架构的升级在带来新的优化机遇的同时,也为推理性能突破带来了全新的挑战。
MTP 技术让模型在单次前向传播中一次性预测多个未来 token,再统一进行验证,这显著减少了生成完整序列所需的总步数。其核心价值在于通过改变传统的解码方式突破效率瓶颈:
○ 传统方式(自回归解码):模型每次只生成一个 token,必须等待上一个 token 生成完毕后才能继续生成下一个。这种方式虽然稳定,但在速度方面存在明显限制。
○ MTP 方式(批量生成,集中验证):模型能够智能地一次性推理出多个候选后续 token,再统一进行验证。这好比从逐个打字提升为智能联想输入,一次性能给出多个候选词组,从而大幅降低了生成轮次,打破了序列化处理的瓶颈。
百度智能云的核心工作,正是为全新的 DSA 架构实现了这套高效的 MTP 方案。生产级别的代码贡献使得 SGLang 社区的开发者无需重复底层探索与试错,便能直接获得性能倍增且稳定可靠的推理能力。
未来,百度百舸 AI 计算平台的研发团队将持续向 SGLang 社区开源更多生产级别的核心代码,与全球开发者携手推动大模型技术的创新发展与普惠应用。
热门专题
热门推荐
清明节假期期间,A 股和港股休市,但比特币行情永不停歇。 4月6日,当多数市场还在假期中沉睡时,比特币已经悄然启动。价格从亚洲早盘的低点67400美元出发,一路向上试探,盘中最高涨破70300美元,不仅刷新了3月26日以来的高位,较日内低点的涨幅也超过了4%。以太坊的表现同样不俗,从2050美元附近
4月5日消息,日前,REDMI K90至尊版通过3C认证,预计将于本月发布。今日,小米中国区市场部总经理魏思琪用小米新机发布微博,不出意外,这正是即将登场的REDMI K90至尊版,这将是小米首款配
WPS演示中图表不随数据更新时,可通过四种方法实现自动同步:一、用OFFSET+COUNTA定义动态名称绑定图表;二、用组合框控件联动VLOOKUP提取数据;三、用数据透视图配合切
聚焦数字技术,释放创新动能。为集中展示静安区区块链技术从“实验室”走向“应用场”的丰硕成果,挖掘一批可复制、可推广的行业解决方案,加速构建区块链产业生态闭环,静安区数据局特推出“静安区区块链创新应用
太空中的马桶堵了,边飞边修还能勉强用。但中东被点燃的火药桶,美国怎么来扑灭?靠一再延期的“最后通牒”?还是靠无底线的轰炸?2300万美元的马桶美国航空航天局4名宇航员1日搭乘“猎户座”飞船升空,执行





