小红书RedKnot推理引擎开源，长上下文处理效率翻倍_AI热点日报

小红书RedKnot推理引擎开源，长上下文处理效率翻倍

类型：热点整理2026-07-02

在生成式AI落地过程中，模型处理超长文本时容易出现性能瓶颈——既要确保推理速率的稳定，又要严格控制资源开销，这已成为众多工程团队必须攻克的难题。近期，小红书技术团队正式开源了自研推理引擎RedKnot，为长上下文场景提供了一套兼具高性能与高性价比的解决方案。 RedKnot的核心突破在于对传统KV

在生成式AI落地过程中，模型处理超长文本时容易出现性能瓶颈——既要确保推理速率的稳定，又要严格控制资源开销，这已成为众多工程团队必须攻克的难题。近期，小红书技术团队正式开源了自研推理引擎RedKnot，为长上下文场景提供了一套兼具高性能与高性价比的解决方案。

RedKnot的核心突破在于对传统KV Cache（键值缓存）组织方式进行了彻底重构。以往主流做法以token为单位缓存注意力状态，直接导致一个明显问题：文本长度增加时，内存占用呈线性攀升，吞吐量与响应速度双双受损。RedKnot则另辟蹊径，将注意力头（Attention Head）作为基本单元来划分缓存，同时融合“头分类稀疏化”、“稀疏前馈网络（FFN）”及“SegPagedAttention”三项关键技术，实现了算法设计与内存管理粒度的深度协同。

这一架构改造带来的性能提升极为显著。实测数据证实：在8张H800 GPU组成的集群上，RedKnot能够将首字生成延迟（TTFT）压缩至原方案的1/1.6到1/3.54，单卡并发请求处理能力提升4.7至7.8倍；预填充阶段的计算量（FLOPs）更是大幅削减67%至79.5%。以DeepSeek-V4-Flash模型处理128K上下文任务为例，首字响应速度提升了5.16倍，KV缓存数据传输效率提高了6.3倍，同时推理精度依然保持在稠密模型基准的95%以上。

行业普遍认为，RedKnot的开源不仅带来了前沿的推理优化思路，更在当前算力日益紧张的背景下，验证了一条通过底层缓存结构精细化重构来突破长文本瓶颈的可行路径。这一进展有望加速轻量化、高效率AI推理系统的规模化部署落地。目前，全部代码已面向社区开放——长文本大模型应用迈向实用化与普及化，又向前迈进了一大步。

来源：https://www.php.cn/faq/2749657.html?uid=1246273

推理引擎

延伸阅读

补充最近整理过的热点入口。

小红书RedKnot推理引擎开源，长上下文处理效率翻倍

相关热点

延伸阅读