北大团队优化DeepSeek注意力机制 速度提升四倍精度无损
就在整个AI社区热切期待DeepSeek-V4正式发布的关键时刻,一项突破性的研究成果横空出世,迅速成为技术圈热议的焦点。这项研究提出了一种名为HISA(分层索引稀疏注意力)的全新机制,精准地瞄准了当前大型语言模型在处理长上下文任务时面临的核心效率瓶颈——索引计算开销过大。根据论文公布的实验数据,在处理高达64K长度的上下文时,HISA相比DeepSeek当前采用的DSA(DeepSeek稀疏注意力)索引机制,能够实现最高2至4倍的显著速度提升。

更为关键的是,这种性能的飞跃并非以牺牲模型精度为代价。实验验证表明,HISA在几乎完全保持模型原有精度的前提下,实现了“即插即用”的便捷部署,无需对预训练模型进行任何额外的重新训练或微调。

研究团队直接在DeepSeek-V3.2和GLM-5这类主流大语言模型上,替换了原有的注意力索引模块,跳过了复杂的微调步骤。在关键信息检索、长文档问答、多轮对话理解等一系列核心评测任务中,模型的精度表现均与原方法基本持平,甚至在某些场景下略有提升。

两步走策略,彻底解决长上下文索引瓶颈
这篇论文的目标非常明确:为当前大模型广泛采用的稀疏注意力机制,设计一个更高效、更智能的“检索引擎”。
以DSA为代表的token级稀疏注意力机制,其核心原理是通过只计算与少数关键token相关的注意力权重,从而大幅降低模型的计算复杂度。然而,这一设计背后隐藏着一个效率陷阱:为了精准筛选出这些关键token,模型需要一个“索引器”来为当前查询的每一个token,与历史上下文中所有token逐一计算相关性得分,再从中选出得分最高的部分。
问题的症结正在于此。当输入文本长度L急剧增加时,这个逐对打分的计算量会呈平方级(O(L²))增长。这意味着文本长度翻倍,索引计算的开销可能激增至四倍。在处理128K甚至1M级别的超长文本时,索引器的计算成本甚至会反超核心的注意力计算本身,成为制约模型推理速度的主要性能瓶颈。
因此,研究团队提出了一个核心问题:能否在不改变最终稀疏注意力结果质量的前提下,大幅降低索引器的搜索成本?
HISA的诞生正是基于这一思路,其核心逻辑清晰而高效:既然对每个token进行全局搜索过于耗时,那么就采用“先粗筛,后精查”的两步走策略。首先按“块”快速过滤掉大量无关内容,再在缩小的候选范围内进行精细的token级筛选。

这种方法在功能上实现了对原有索引模块的完全等价替换,无需改动后续的注意力计算流程。可以将其形象地理解为“更换了一个效率更高的筛网,但筛选出的精华颗粒几乎完全相同”。
具体操作流程分为两个步骤,全程复用原模型的打分函数,无需引入任何新的可学习参数:
第一步,块级粗过滤。 将超长文本序列切割成固定大小的“token块”(例如每块包含128个token),并为每个块计算一个具有代表性的“整体特征向量”(相当于为每块内容生成一个摘要标签)。接着,使用原索引器的打分规则,仅对这些块级别的特征向量进行快速打分。然后,筛选出分数最高的m个候选块(例如64个),其余低分块则被直接排除。由于块的数量远少于token总数,这一步能高效过滤掉绝大部分不相关的内容,节省大量计算资源。
第二步,块内精挑token。 仅在第一步选出的m个高相关性块内部,使用原索引器的规则对单个token进行精细化的二次打分,并最终选出全局最相关的k个关键token。
此外,研究团队还引入了一个巧妙的工程优化:强制保留输入文本的第一个块和最后一个块。这一设计确保了开头的背景设定信息和结尾的最新上下文内容不会被误筛,同时也更好地处理了文档拼接或对话延续时的边界连贯性问题。

HISA的核心优势主要体现在两个方面:计算复杂度的显著降低,以及卓越的工程部署友好性。
从计算复杂度分析,HISA成功将原索引器每层O(L²)的计算成本,降低到了O(L²/B + L×m×B)(其中B是块大小,m是选取的块数)。上下文长度越长,块级粗过滤的效果越精准,其带来的加速比也就越显著。
从工程落地角度看,它的优势更为突出:首先,其输出格式与原索引器完全一致,下游的注意力计算模块无需进行任何适配性改动;其次,无需对预训练模型进行重新训练,也无需调整复杂的KV缓存结构,可直接替换原有索引器;最后,它具有智能自适应性,在处理短文本时会自动“退化”为原生的逐token索引方法,仅在处理超长上下文时才动态激活分层筛选机制,实现效率与精度的最佳平衡。
实测性能:速度飞跃,精度无损
论文在DeepSeek-V3.2和GLM-5两大主流开源模型上进行了全面而严格的测试,结果表现卓越。
在推理速度方面,在64K标准文本长度下,HISA相比原版DSA索引器最高实现了3.75倍的惊人提速,在常规参数设置下也能稳定达到2倍以上的加速效果。

值得关注的是,输入上下文长度越长,HISA的提速优势越明显。这一特性完美契合了当前大模型向128K、1M乃至更长上下文窗口发展的实际应用趋势,为超长文本处理提供了可行的效率解决方案。
在模型精度方面,HISA也几乎完全保留了原DSA方法的精度水准,并且显著优于简单的块稀疏注意力方法。研究团队进行了经典的“大海捞针”测试,用于评估模型在超长无关文本中精准定位并提取关键信息的能力。结果显示,HISA与DSA的检索精度曲线几乎完全重合,在各种文本长度和关键信息插入深度下,其检索准确率都接近DSA的近乎满分水平。

在更全面的长文本理解任务(基于LongBench基准)上,HISA的综合得分也与DSA基本持平。甚至在部分对token级筛选精度要求极高的场景,如合成信息检索、少样本学习等任务中,HISA的表现出现了小幅反超,展现了其潜在的优势。

在超参数鲁棒性测试中,无论块大小(B)和选取块数量(m)如何变化,HISA的性能表现都相当稳定,其评测分数始终与DSA基线高度接近,未出现显著的性能波动或下降。

这充分说明HISA对超参数的选择并不敏感,具有极强的鲁棒性,在实际工程部署时无需进行精细且耗时的参数调优,降低了使用门槛。
当然,目前HISA也存在一些可以继续探索的优化方向,作者在论文中也展望了后续的改进思路:首先,当前采用固定大小的文本块,若一个块内同时包含高度相关与完全无关的内容,其“整体特征向量”的准确性会受到影响。未来可探索自适应块大小、重叠块或更先进的块特征聚合计算方式。其次,目前HISA仅在推理阶段直接应用,未来可以考虑将块筛选机制与模型预训练过程相结合进行联合优化,以进一步提升筛选的精准度。最后,当前测试主要聚焦于索引器模块本身的加速比,未来需要将其整合到完整的大模型服务框架中,测试端到端的请求吞吐量和响应延迟等实际业务指标。
团队背景
这篇重磅论文来自北京大学的张牧涵研究团队。张牧涵博士是北京大学人工智能研究院的Tenure-track助理教授和博士生导师。在回国加入北大之前,他曾在Facebook AI Research(现Meta AI)担任研究员,长期致力于大规模图学习系统、图神经网络及其相关核心算法的前沿研究。

根据Google Scholar最新数据,其发表的学术论文总引用量已超过13000次,其中两篇一作文章的引用量分别达到3100+和2400+次,并连续多年入选Elsevier发布的全球前2%顶尖科学家(生涯影响力榜单),在人工智能领域享有较高的学术声誉。本论文的共同第一作者是Yufei Xu(徐宇飞)和Fanxu Meng(孟繁续)。
相关攻略
就在整个AI社区热切期待DeepSeek-V4正式发布的关键时刻,一项突破性的研究成果横空出世,迅速成为技术圈热议的焦点。这项研究提出了一种名为HISA(分层索引稀疏注意力)的全新机制,精准地瞄准了当前大型语言模型在处理长上下文任务时面临的核心效率瓶颈——索引计算开销过大。根据论文公布的实验数据,在
正则表达式作为文本处理的强大工具,在AI时代获得了新的助力。像DeepSeek这样的先进模型,能够根据自然语言描述生成看似可用的正则代码。但请注意——生成结果的准确性与可靠性,完全取决于您提供的“指令”是否足够明确、细致且带有严格约束。这并非简单的问答,而是一场需要精准策略的技术协作。 首要关键:原
谷歌将停用Gemini3Pro预览版,开发者需迁移。DeepSeekV4多模态模型即将发布。微软计划推出高价AI软件组合以提升生产力。爱奇艺利润下滑,转向AI与去中心化战略。面壁智能获中国电信投资,深化端侧AI应用。英伟达将发布集成Groq技术的定制芯片,OpenAI为主要客户。联想展示模块化AIPC概念机。我国发布人工智能治理指导文件。
DeepSeek-V4未集成Engram模块。该模块由DeepSeek与北京大学联合研发,旨在通过原生知识查表机制分离静态查询与深度推理,以提升效率。相关理念已应用于CXL内存池化以突破存储瓶颈,并经实证检验后成功迁移至视觉模态,为下一代模型发展提供了重要探索路径。
DeepSeek在个人知识管理中的应用,关键在于精准调用用户自有信息。这需要手动将私人文档导入并向量化,以实现语义检索,从而关联概念相近内容。处理图像或文档时需注意格式兼容与预处理。知识库更新默认采用追加模式,需妥善设置文档ID以避免重复。
热门专题
热门推荐
为庆祝成立50周年,苹果在全球多地门店举办系列庆祝活动。最盛大的庆典在其总部ApplePark举行,员工齐聚草坪,传奇音乐人保罗·麦卡特尼登台献唱,首席执行官蒂姆·库克也参与其中。这场科技与艺术交融的盛会,既是对过往传奇的致敬,也寓意着新篇章的开启。
苹果公司成立五十周年之际,首席执行官蒂姆·库克发布内部信回顾历程。信中指出,公司从车库中的一台原型机起步,如今全球活跃设备已达25亿台。库克强调,未来需主动创造而非等待,并鼓励员工铭记创新精神,共同把握机遇,开创下一个五十年。
苹果CEO库克在专访中回顾了iPod的诞生历程。该产品以口袋装千首歌的能力革新了音乐消费方式。其爆红要求苹果在三个月内生产约1500万台,这极大考验了供应链。此次极限压力测试为苹果锻造出世界级供应链能力奠定了基础。库克还透露,首台原型机播放的第一首歌是《HeyJude》。
知名投资人段永平家族办公室持仓市值升至约200亿美元。本季度清仓阿里,减持苹果、台积电;重仓AI与电动车赛道,大幅增持英伟达并新建仓特斯拉,拼多多获增持。其首次跨足Web3领域,建仓稳定币发行商Circle,显示对合规区块链基础设施的关注。
Mac内置的“缩放”辅助功能可放大屏幕细节。通过系统设置开启该功能后,可选择画中画或全屏模式。用户可使用修饰键配合触控板手势、快捷键组合、双击Control+Option或鼠标智能缩放等多种方式灵活操作,满足不同场景下的查看需求。





