游乐游手机版
首页/AI热点日报/热点详情

腾讯混元推Stem稀疏注意力算法 首字延迟降低3.6倍

类型:热点整理2026-06-06
腾讯混元提出Stem稀疏注意力算法,被ICML-2026收录。该算法通过Token位置衰减和输出感知度量,仅用25%计算预算保持近无损精度,配合开源Stem+BSA算子,在128K上下文下将首字延迟降低3 7倍。

先说一个值得关注的消息:腾讯混元近期提出了一种名为Stem的稀疏注意力算法,该成果已被顶级学术会议ICML-26(即2026年那届)正式接收。这项工作的核心,是通过一套“算法+算子”全栈优化方案,有效降低大模型推理的首字延迟——官方数据显示:在128K上下文长度下,首字延迟降低了3.7倍。

从算法层面拆解,Stem主要做了两件关键的事。一是Token位置衰减(TPD),简单来说就是让距离当前位置较远的Token对注意力计算的影响逐渐减弱,有点类似“距离产生美”但更侧重于“距离带来计算节省”。二是输出感知度量(OAM),它可以动态评估哪些注意力计算对最终输出更有价值,从而优先保留那些“高贡献”的注意力路径。这两项机制相结合,使得模型在仅使用25%计算预算的情况下,依然能保持接近无损的精度——这并非勉强可用的水平,而是真正能投入生产环境的“节能模式”。

算法再出色,落地才有实际意义。因此另一个亮点隐藏在算子层:HPC开源的Stem+BSA算子,将稀疏注意力在理论上的收益,切实转化为硬件加速效果。换句话说,关键不是理论上节省了多少计算,而是显卡上实际运行后快了多少。从最终结果来看,这种协同优化确实奏效——3.7倍的首字延迟降低,就是最直接的印证。

对于需要处理超长上下文(例如128K)的实际应用场景来说,这一提升意味着对话响应更快、文档分析更流畅。当然,算法的通用性以及在不同硬件上的适配效果还有待更多验证,但至少大方向是正确的。

腾讯混元提出Stem稀疏注意力算法 首字延迟降低3.6倍

来源:https://www.cls.cn/detail/2392246

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。