腾讯混元Stem稀疏注意力算法首字延迟降低3.6倍_AI热点日报

腾讯混元Stem稀疏注意力算法首字延迟降低3.6倍

类型：热点整理2026-06-06

腾讯混元提出Stem稀疏注意力算法，被机器学习顶会ICML-26接收。通过Token位置衰减与输出感知度量，仅用25%算力实现近无损精度。结合高效HPC算子库，在128K上下文场景下首字延迟降低3 6倍。

近日，腾讯混元团队在注意力机制优化方面取得重要突破——他们提出的 Stem 稀疏注意力算法，已被机器学习顶级会议 ICML-26 正式接收。简单而言，这是一种从“因果信息流”视角重新定义块级稀疏的方法，核心目标明确：以更低的计算开销，实现接近稠密注意力的精度水平。

腾讯混元提出 Stem 稀疏注意力算法，首字延迟降低 3.6 倍

官方披露的两大核心创新点分别是：Token 位置衰减（TPD）与输出感知度量（OAM）。这两项技术听起来偏学术，但实际效果非常显著——仅需 25% 的计算资源，即可达到与稠密注意力几乎一致的精度。这意味着什么？意味着大规模语言模型在推理阶段的成本有望大幅缩减，同时模型效果几乎不受影响。

▲ Stem 在 Hy3 preview（W8A8-FP8）上更贴近生产环境的真实落地数据

更进一步，理论上的加速比要真正落地，离不开扎实的工程实现。混元团队同步开发了高性能 HPC 算子库，将稀疏策略带来的收益切实转化为硬件层面的实测性能。根据 Stem 算法与 HPC 算子构成的全栈加速方案：在算法侧，TPD 与 OAM 在 25% 预算下实现了近乎无损的精度；在算子侧，开源的 Stem+BSA 算子将稀疏优势转化为真实的硬件加速——在 128K 上下文长度下，首字延迟降低了 3.6 倍。这个数字放到生产环境中，用户体验的提升是立竿见影的。

▲ 模型精度

来源：https://www.ithome.com/0/960/712.htm

腾讯混元

延伸阅读

补充最近整理过的热点入口。

腾讯混元Stem稀疏注意力算法首字延迟降低3.6倍

相关热点

延伸阅读