游乐游手机版
首页/AI热点日报/热点详情

腾讯混元Stem稀疏注意力算法首字延迟降低3.6倍

类型:热点整理2026-06-06
腾讯混元提出Stem稀疏注意力算法,被机器学习顶会ICML-26接收。通过Token位置衰减与输出感知度量,仅用25%算力实现近无损精度。结合高效HPC算子库,在128K上下文场景下首字延迟降低3 6倍。

近日,腾讯混元团队在注意力机制优化方面取得重要突破——他们提出的 Stem 稀疏注意力算法,已被机器学习顶级会议 ICML-26 正式接收。简单而言,这是一种从“因果信息流”视角重新定义块级稀疏的方法,核心目标明确:以更低的计算开销,实现接近稠密注意力的精度水平。

腾讯混元提出 Stem 稀疏注意力算法,首字延迟降低 3.6 倍

官方披露的两大核心创新点分别是:Token 位置衰减(TPD)与输出感知度量(OAM)。这两项技术听起来偏学术,但实际效果非常显著——仅需 25% 的计算资源,即可达到与稠密注意力几乎一致的精度。这意味着什么?意味着大规模语言模型在推理阶段的成本有望大幅缩减,同时模型效果几乎不受影响。

▲ Stem 在 Hy3 preview(W8A8-FP8)上更贴近生产环境的真实落地数据

更进一步,理论上的加速比要真正落地,离不开扎实的工程实现。混元团队同步开发了高性能 HPC 算子库,将稀疏策略带来的收益切实转化为硬件层面的实测性能。根据 Stem 算法与 HPC 算子构成的全栈加速方案:在算法侧,TPD 与 OAM 在 25% 预算下实现了近乎无损的精度;在算子侧,开源的 Stem+BSA 算子将稀疏优势转化为真实的硬件加速——在 128K 上下文长度下,首字延迟降低了 3.6 倍。这个数字放到生产环境中,用户体验的提升是立竿见影的。

▲ 模型精度
来源:https://www.ithome.com/0/960/712.htm

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。