腾讯云x荣耀联合打造高效AI底座，性能飙升2倍

去年12月，腾讯云公开了一个秘密。在评论区，有留言说：小半年过去了，如何让荣耀推理平台性能效率更高、推理速度更快，我们一直在努力——基于腾讯云TencentOS Server AI底座，我们为荣耀部

去年12月，腾讯云公开了一个秘密。评论区里有人留言分享道：

腾讯云X荣耀：打造高性能AI底座，吞吐最高提升2倍

时间过去了小半年，我们一直在思考和实践，如何让荣耀推理平台的性能和效率更高、推理速度更快——
基于腾讯云TencentOS Server AI底座，我们为荣耀部署大模型提供了TACO-LLM加速模块，显著提升了推理效率和系统稳定性。

腾讯云X荣耀：打造高性能AI底座，吞吐最高提升2倍

具体来说，我们主要做了两件事：

第一，提升推理平台的整体性能和稳定性。

荣耀的AI功能日益丰富，后台往往需要同时运行多个任务，大模型调用频繁、并发量高，这对AI底座的要求也越来越苛刻。

TACO-LLM加速模块采用了“投机采样”技术，简单来说，就是让大模型先“大胆预测一波，再快速修正”，跳过了“一个字一个字计算推理”的低效流程，大幅提升了推理速度，同时也更充分地利用了GPU算力。

看看实际效果——

在DeepSeek-R1 满血版场景下，相对于荣耀原始线上业务性能，TTFT（首Token延迟）P95的响应时间最高降低6.25倍，吞吐提升2倍，端到端延迟降低 100%。在社区最新版本 sglang 场景下，TTFT P95 的响应时间最高降低 12.5 倍。模型运行更平稳，系统调度更顺畅。

第二，优化意图识别场景的响应速度。

这类交互功能，对“即时反馈”的要求特别高。

TACO-LLM加速模块针对这类高频调用场景进行了定向优化，在高性能GPU平台上，最大限度压缩了推理耗时。

在荣耀，TACO-LLM 让DeepSeek的推理速度：在 A 平台上提升 70%，在 B 平台上提升 20%。