腾讯混元提出Stem稀疏注意力算法,成功被ICML-2026顶会收录
6月5日,腾讯混元公布了一项重大进展——其自主研发的Stem稀疏注意力算法,已被机器学习顶级会议ICML-2026正式收录。这意味着什么?简而言之,这是在大模型推理效率方面的一次关键性突破。
从整体方案来看,这是一套“算法×算子”的双重优化组合拳。先聚焦算法层面的创新:Stem通过两大核心机制——Token位置衰减(TPD)和输出感知度量(OAM)——成功在仅消耗25%计算预算的情况下,实现了近乎无损的精度表现。换言之,只用四分之一的算力就能获得接近完整计算的效果,这正是突破的关键所在。
当然,仅有算法创新还不够,必须将理论上的稀疏优势转化为实际的加速效果。为此,腾讯混元在高性能计算(HPC)算子层面开源了Stem+BSA算子,这一举措至关重要。它将算法层面的稀疏性成功转变为真实的硬件加速能力。具体数据表明,在128K长上下文场景下,首字延迟直接降低了3.7倍。这个数字不容小觑——在长序列推理中,它能显著提升用户体验,切实缓解了用户等待回复的焦虑感。
值得关注的是,这项工作获得ICML等顶级学术会议的认可,彰显了学术界对高效稀疏注意力方向的持续重视。从产业视角来看,此类研究正为大规模语言模型在实际部署中面临的成本与效率难题,提供日益成熟的解决方案。
