小红书RedKnot推理引擎开源长上下文处理效率翻倍

类型：热点整理2026-07-01

小红书团队开源自研RedKnot推理引擎，通过将KVCache沿注意力头维度拆解并引入头分类稀疏等机制，实现长文本处理效率显著提升。在8卡H800环境下，首字生成时间加速1 6至3 54倍，单卡并发能力提升4 7至7 8倍，预填充计算消耗削减67%至79 5%，推理精度保持在稠密模型性能95%以上。

开源新方案！小红书团队RedKnot推理引擎，让长文本处理既快又省

在生成式AI的应用场景里，如何让模型在处理超长文本时，既反赌又吃得少，一直是工程师们头疼的“硬骨头”。最近，小红书技术团队开源了他们自研的RedKnot推理引擎，给长上下文任务带来了一套“降本增效”的新思路。

RedKnot的核心创新，说白了，就是打破了传统的KV Cache（键值缓存）处理模式。以往，大模型在推理过程中，缓存是按token（词元）维度存储的。这导致一个问题：处理长文本时，内存开销跟着线性增长，推理速度和并发能力都被拖累得够呛。RedKnot是怎么解决的呢？它另辟蹊径，把KV Cache沿注意力头（Attention Head）维度进行拆解，并引入“头分类稀疏”、“稀疏FFN”以及“SegPagedAttention”三大机制，实现了算法逻辑与存储粒度的统一。这背后的工程思路，可以说是相当巧妙。

架构调整带来的性能提升，数据说了算。在8卡H800的高性能计算环境下，实测结果显示：RedKnot能将首字生成时间（TTFT）加速1.6倍到3.54倍，单卡并发能力更是提升了4.7倍到7.8倍。预填充阶段，计算资源消耗（FLOPs）被削减了67%到79.5%。拿DeepSeek-V4-Flash模型在128K超长上下文任务上的表现来说，首字生成速度提升了5.16倍，KV数据传输效率也优化了6.3倍，而推理精度依然稳健，稳稳保持在稠密模型性能的95%以上。这组数据，确实够亮眼。

从行业角度看，RedKnot的开源为推理引擎的工程优化提供了一个重要参考。在算力资源越来越金贵的今天，这种通过底层架构精细化拆解来缓解长文本推理负担的思路，无疑为构建更轻量、更高效的AI推理系统开辟了一条新路径。目前，相关代码已经正式开源，期待它能推动长文本AI应用的普及与落地。

来源：https://news.aibase.com/zh/news/29262

推理引擎

延伸阅读

补充最近整理过的热点入口。

小红书RedKnot推理引擎开源 长上下文处理效率翻倍

开源新方案！小红书团队RedKnot推理引擎，让长文本处理既快又省

相关热点

延伸阅读

小红书RedKnot推理引擎开源长上下文处理效率翻倍