腾讯混元推Stem稀疏注意力算法首字延迟降低3.6倍_AI热点日报

腾讯混元推Stem稀疏注意力算法首字延迟降低3.6倍

类型：热点整理2026-06-06

腾讯混元提出Stem稀疏注意力算法，被ICML-2026收录。该算法通过Token位置衰减和输出感知度量，仅用25%计算预算保持近无损精度，配合开源Stem+BSA算子，在128K上下文下将首字延迟降低3 7倍。

先说一个值得关注的消息：腾讯混元近期提出了一种名为Stem的稀疏注意力算法，该成果已被顶级学术会议ICML-26（即2026年那届）正式接收。这项工作的核心，是通过一套“算法+算子”全栈优化方案，有效降低大模型推理的首字延迟——官方数据显示：在128K上下文长度下，首字延迟降低了3.7倍。

从算法层面拆解，Stem主要做了两件关键的事。一是Token位置衰减（TPD），简单来说就是让距离当前位置较远的Token对注意力计算的影响逐渐减弱，有点类似“距离产生美”但更侧重于“距离带来计算节省”。二是输出感知度量（OAM），它可以动态评估哪些注意力计算对最终输出更有价值，从而优先保留那些“高贡献”的注意力路径。这两项机制相结合，使得模型在仅使用25%计算预算的情况下，依然能保持接近无损的精度——这并非勉强可用的水平，而是真正能投入生产环境的“节能模式”。

算法再出色，落地才有实际意义。因此另一个亮点隐藏在算子层：HPC开源的Stem+BSA算子，将稀疏注意力在理论上的收益，切实转化为硬件加速效果。换句话说，关键不是理论上节省了多少计算，而是显卡上实际运行后快了多少。从最终结果来看，这种协同优化确实奏效——3.7倍的首字延迟降低，就是最直接的印证。

对于需要处理超长上下文（例如128K）的实际应用场景来说，这一提升意味着对话响应更快、文档分析更流畅。当然，算法的通用性以及在不同硬件上的适配效果还有待更多验证，但至少大方向是正确的。

腾讯混元提出Stem稀疏注意力算法首字延迟降低3.6倍

来源：https://www.cls.cn/detail/2392246

人工智能

延伸阅读

补充最近整理过的热点入口。

腾讯混元推Stem稀疏注意力算法 首字延迟降低3.6倍

相关热点

延伸阅读

腾讯混元推Stem稀疏注意力算法首字延迟降低3.6倍