近日,腾讯混元团队在注意力机制优化方面取得重要突破——他们提出的 Stem 稀疏注意力算法,已被机器学习顶级会议 ICML-26 正式接收。简单而言,这是一种从“因果信息流”视角重新定义块级稀疏的方法,核心目标明确:以更低的计算开销,实现接近稠密注意力的精度水平。

官方披露的两大核心创新点分别是:Token 位置衰减(TPD)与输出感知度量(OAM)。这两项技术听起来偏学术,但实际效果非常显著——仅需 25% 的计算资源,即可达到与稠密注意力几乎一致的精度。这意味着什么?意味着大规模语言模型在推理阶段的成本有望大幅缩减,同时模型效果几乎不受影响。
更进一步,理论上的加速比要真正落地,离不开扎实的工程实现。混元团队同步开发了高性能 HPC 算子库,将稀疏策略带来的收益切实转化为硬件层面的实测性能。根据 Stem 算法与 HPC 算子构成的全栈加速方案:在算法侧,TPD 与 OAM 在 25% 预算下实现了近乎无损的精度;在算子侧,开源的 Stem+BSA 算子将稀疏优势转化为真实的硬件加速——在 128K 上下文长度下,首字延迟降低了 3.6 倍。这个数字放到生产环境中,用户体验的提升是立竿见影的。
