阿里、Kimi应用DeltaNet破解长文本难题：注意力机制新突破

时间：2025-12-01 19:57

在大型语言模型（LLM）的发展中，注意力机制始终是核心组件。传统全注意力机制虽能高效处理信息，但其计算复杂度随文本长度呈平方级增长，成为处理长文档的瓶颈。近年来，研究者们开始探索“稀疏注意力”和“线

在大语言模型（LLM）的发展进程中，注意力机制始终扮演着核心角色。传统的全注意力机制虽能高效处理信息，但其计算复杂度随文本长度呈平方级增长，成为处理长文档的瓶颈。近年来，研究者们开始探索“稀疏注意力”和“线性注意力”两大改进路径，试图在效率与性能之间找到平衡点。

线性注意力通过移除全注意力中的Softmax函数，将复杂度从平方级降至线性级。这一思路最早可追溯至2020年的研究，其核心是将自注意力机制转化为循环神经网络（RNN）的递推形式。然而，早期线性注意力在信息检索能力上存在局限，难以在长文本中保持稳定表现。直到2024年，研究者引入Delta+Rule更新规则，通过更高效的权重调整机制，显著提升了线性注意力的上下文建模能力。

2024年，线性注意力领域迎来重要突破。阿里巴巴与月之暗面分别开源了采用线性注意力与全注意力混合架构的Qwen3-Next和Kimi+Linear模型。其中，线性注意力部分基于DeltaNet的改进版本Gated DeltaNet，通过引入门控机制和动态衰减策略，进一步优化了记忆控制与信息检索效率。这种混合设计既保留了全注意力在短文本中的优势，又利用线性注意力降低了长文本推理的计算成本。

DeltaNet的核心贡献者杨松岭指出，线性注意力的理论缺陷在于其状态空间固定，导致长文本处理能力受限。然而，这一特性也使其在推理阶段具有显著优势：混合架构中75%的层替换为线性注意力后，模型的KV Cache规模可减少3/4，从而支持更大批量的推理请求。这种效率提升在需要同时服务大量用户的场景中尤为重要。

尽管线性注意力在效率上表现突出，但其效果仍存在争议。MiniMax公司在2024年初发布的M1模型中尝试了线性注意力与全注意力的混合架构，但在同年10月发布的M2模型中又回归全注意力。研究者分析认为，线性注意力在多跳推理任务中表现较弱，其模糊化的信息处理方式难以满足Agentic AI对精准状态追踪的需求。相比之下，全注意力通过直接建模点对点关系，在复杂推理任务中更具优势。

数据制约成为线性注意力发展的新契机。研究表明，在数据量较小的后训练和强化学习阶段，线性注意力因其归纳偏置特性可能表现更优。其邻近token关注倾向在数据稀缺时能提供更稳定的先验知识，而全注意力则可能因数据不足导致过拟合。线性注意力在计算理论上属于NC¹-complete架构，具备超越TC⁰类架构（如全注意力）的状态追踪能力，这在需要持续维护变量状态的代码生成或网页操作任务中具有潜在优势。

当前，线性注意力的研究正聚焦于更新规则的优化。研究者尝试将梯度下降、动态扩容等机制引入权重更新过程，例如通过多次梯度下降替代单次更新，或在记忆状态中引入混合专家（MoE）结构。同时，滑动窗口机制与线性注意力的结合也成为新方向，邻近token采用滑动窗口处理，远距离信息则通过线性注意力压缩，以平衡计算效率与信息完整性。

稀疏注意力作为另一主要改进方向，正朝着动态稀疏化发展。静态稀疏化因信息遗漏风险已被逐步淘汰，而动态稀疏化通过block级或token级的选择机制，在硬件实现效率与信息完整性间寻求平衡。例如，DeepSeek的动态稀疏注意力（DSA）采用轻量级全注意力作为“indexer”，生成全局注意力矩阵后进行Top-K选择，既保证了精度又降低了计算成本。然而，稀疏注意力仍面临KV Cache规模瓶颈，多数实现仍需保留全部缓存，限制了其在长文本场景中的应用。

线性注意力开源社区FLA的兴起为技术普及提供了新动力。该社区由杨松岭发起，旨在通过标准化算子库和模块化设计降低线性注意力的使用门槛。核心贡献者张宇开发的变长训练模块，解决了线性注意力在动态序列处理中的关键难题。Kimi团队正是通过FLA社区注意到张宇的工作，并邀请其加入研究团队，进一步推动了线性注意力的工业应用。

尽管混合架构已成为当前主流，但研究者普遍认为，完全替代全注意力仍需突破。理想的长文本处理方案可能需要结合稀疏注意力的信息选择能力与线性注意力的计算效率。例如，通过动态混合DSA与Gated DeltaNet，在全局层面用稀疏注意力筛选关键信息，在局部层面用线性注意力压缩冗余内容，从而构建更高效的长文本处理架构。这一方向的研究或将为大语言模型的规模化应用开辟新路径。

来源：https://www.itbear.com.cn/html/2025-12/1035450.html

上一篇小米汽车月交付首破4万辆，50万台下线刷新全球纪录 下一篇启境合作华为首测智能底盘：猎装轿跑第一阶段测试收官

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-01

OpenClaw手机App上线，结果翻车了

OpenClaw 官方宣布，已正式推出 iOS 和 Android 原生移动 App，用户如今可以在手机上使用这款主打“能真正帮你做事”的个人 AI 助手。官方在 X 上给出的定位也很直接：把 Agent 放进口袋里，让用户可以在移动端处理频道消息、任务和回复。从功能上看，OpenClaw 移动端并

科技数码 · 2026-07-01

优必选CEO周剑：家庭机器人生态核心投入过半精力

先说几个核心判断：优必选正在布局一盘长远战略。创始人兼CEO周剑在近期一场媒体沟通会上，直接亮出了公司未来的发展路线——工业、商用、家庭陪伴机器人三条业务主赛道并行推进，现阶段每条线各占约一半精力。一边是已经能够稳定创造收入的工业场景，另一边则是他眼中“最具想象力与未来空间”的家庭陪伴领域。工业人形

科技数码 · 2026-07-01

CPO/NPO/OIO开启封装级光连接价值空间，技术路线尚未收敛

6月30日，申银万国在光连接系列研报中重点指出，MPO光连接器领域的投资机会值得高度关注。通俗来说，随着AI算力集群持续扩张，光互联升级带来的连锁效应——数据中心光纤通道数量、前面板端口密度、机柜内光纤管理复杂度——均在同步攀升。光连接器的角色早已超越传统的低价值标准件，如今它直接决定着链路插损、可

科技数码 · 2026-07-01

龙岗AR实景剧本游内测体验短板有效破解之道

在今年龙岗区第二届人工智能与机器人发展大会上，区级部门一次性推出了7个AI“龙搭子”。其中，名为“龙导游”的成果成为文商旅融合领域的核心亮点。据南都N视频记者了解，依托“龙导游”打造的全区全域AR实景剧本游“龙岗大陆”，已在今年五一假期发布了内测版本。经过一个月市场验证后，该项目正式启动面向全社会的

科技数码 · 2026-07-01

南下资金6月30日净买入中芯国际与建滔积层板

6月30日，南下资金持续大举买入港股，单日净流入金额高达58 95亿港元。接下来，我们直接盘点哪些个股获得资金青睐、哪些遭到减持：净买入方面，中芯国际领跑全场，单日吸金19 33亿港元；建滔积层板紧随其后，净买入10 59亿港元；腾讯控股获得7 65亿港元净流入；智谱（02513 HK）也有6 5