去年12月,腾讯云公开了一个秘密。评论区里有人留言分享道:

时间过去了小半年,我们一直在思考和实践,如何让荣耀推理平台的性能和效率更高、推理速度更快——
基于腾讯云TencentOS Server AI底座,我们为荣耀部署大模型提供了TACO-LLM加速模块,显著提升了推理效率和系统稳定性。

具体来说,我们主要做了两件事:
第一,提升推理平台的整体性能和稳定性。
荣耀的AI功能日益丰富,后台往往需要同时运行多个任务,大模型调用频繁、并发量高,这对AI底座的要求也越来越苛刻。
TACO-LLM加速模块采用了“投机采样”技术,简单来说,就是让大模型先“大胆预测一波,再快速修正”,跳过了“一个字一个字计算推理”的低效流程,大幅提升了推理速度,同时也更充分地利用了GPU算力。
看看实际效果——
在DeepSeek-R1 满血版场景下,相对于荣耀原始线上业务性能,TTFT(首Token延迟)P95的响应时间最高降低6.25倍,吞吐提升2倍,端到端延迟降低 100%。在社区最新版本 sglang 场景下,TTFT P95 的响应时间最高降低 12.5 倍。模型运行更平稳,系统调度更顺畅。
第二,优化意图识别场景的响应速度。
这类交互功能,对“即时反馈”的要求特别高。
TACO-LLM加速模块针对这类高频调用场景进行了定向优化,在高性能GPU平台上,最大限度压缩了推理耗时。
在荣耀,TACO-LLM 让DeepSeek的推理速度:在 A 平台上提升 70%,在 B 平台上提升 20%。
