首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
阿里、Kimi应用DeltaNet破解长文本难题:注意力机制新突破

阿里、Kimi应用DeltaNet破解长文本难题:注意力机制新突破

热心网友
89
转载
2025-12-01

在大语言模型(LLM)的发展进程中,注意力机制始终扮演着核心角色。传统的全注意力机制虽能高效处理信息,但其计算复杂度随文本长度呈平方级增长,成为处理长文档的瓶颈。近年来,研究者们开始探索“稀疏注意力”和“线性注意力”两大改进路径,试图在效率与性能之间找到平衡点。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

线性注意力通过移除全注意力中的Softmax函数,将复杂度从平方级降至线性级。这一思路最早可追溯至2020年的研究,其核心是将自注意力机制转化为循环神经网络(RNN)的递推形式。然而,早期线性注意力在信息检索能力上存在局限,难以在长文本中保持稳定表现。直到2024年,研究者引入Delta+Rule更新规则,通过更高效的权重调整机制,显著提升了线性注意力的上下文建模能力。

2024年,线性注意力领域迎来重要突破。阿里巴巴与月之暗面分别开源了采用线性注意力与全注意力混合架构的Qwen3-Next和Kimi+Linear模型。其中,线性注意力部分基于DeltaNet的改进版本Gated DeltaNet,通过引入门控机制和动态衰减策略,进一步优化了记忆控制与信息检索效率。这种混合设计既保留了全注意力在短文本中的优势,又利用线性注意力降低了长文本推理的计算成本。

DeltaNet的核心贡献者杨松岭指出,线性注意力的理论缺陷在于其状态空间固定,导致长文本处理能力受限。然而,这一特性也使其在推理阶段具有显著优势:混合架构中75%的层替换为线性注意力后,模型的KV Cache规模可减少3/4,从而支持更大批量的推理请求。这种效率提升在需要同时服务大量用户的场景中尤为重要。

尽管线性注意力在效率上表现突出,但其效果仍存在争议。MiniMax公司在2024年初发布的M1模型中尝试了线性注意力与全注意力的混合架构,但在同年10月发布的M2模型中又回归全注意力。研究者分析认为,线性注意力在多跳推理任务中表现较弱,其模糊化的信息处理方式难以满足Agentic AI对精准状态追踪的需求。相比之下,全注意力通过直接建模点对点关系,在复杂推理任务中更具优势。

数据制约成为线性注意力发展的新契机。研究表明,在数据量较小的后训练和强化学习阶段,线性注意力因其归纳偏置特性可能表现更优。其邻近token关注倾向在数据稀缺时能提供更稳定的先验知识,而全注意力则可能因数据不足导致过拟合。线性注意力在计算理论上属于NC¹-complete架构,具备超越TC⁰类架构(如全注意力)的状态追踪能力,这在需要持续维护变量状态的代码生成或网页操作任务中具有潜在优势。

当前,线性注意力的研究正聚焦于更新规则的优化。研究者尝试将梯度下降、动态扩容等机制引入权重更新过程,例如通过多次梯度下降替代单次更新,或在记忆状态中引入混合专家(MoE)结构。同时,滑动窗口机制与线性注意力的结合也成为新方向,邻近token采用滑动窗口处理,远距离信息则通过线性注意力压缩,以平衡计算效率与信息完整性。

稀疏注意力作为另一主要改进方向,正朝着动态稀疏化发展。静态稀疏化因信息遗漏风险已被逐步淘汰,而动态稀疏化通过block级或token级的选择机制,在硬件实现效率与信息完整性间寻求平衡。例如,DeepSeek的动态稀疏注意力(DSA)采用轻量级全注意力作为“indexer”,生成全局注意力矩阵后进行Top-K选择,既保证了精度又降低了计算成本。然而,稀疏注意力仍面临KV Cache规模瓶颈,多数实现仍需保留全部缓存,限制了其在长文本场景中的应用。

线性注意力开源社区FLA的兴起为技术普及提供了新动力。该社区由杨松岭发起,旨在通过标准化算子库和模块化设计降低线性注意力的使用门槛。核心贡献者张宇开发的变长训练模块,解决了线性注意力在动态序列处理中的关键难题。Kimi团队正是通过FLA社区注意到张宇的工作,并邀请其加入研究团队,进一步推动了线性注意力的工业应用。

尽管混合架构已成为当前主流,但研究者普遍认为,完全替代全注意力仍需突破。理想的长文本处理方案可能需要结合稀疏注意力的信息选择能力与线性注意力的计算效率。例如,通过动态混合DSA与Gated DeltaNet,在全局层面用稀疏注意力筛选关键信息,在局部层面用线性注意力压缩冗余内容,从而构建更高效的长文本处理架构。这一方向的研究或将为大语言模型的规模化应用开辟新路径。

来源:https://www.itbear.com.cn/html/2025-12/1035450.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

豆包上线视频通话功能:支持实时互动 融合视觉语言输入能力
AI
豆包上线视频通话功能:支持实时互动 融合视觉语言输入能力

豆包上线视频通话功能:支持实时视频问答 最近,豆包官方放出了一个大消息:App正式上线了实时视频通话功能。这可不是简单的功能叠加,它实实在在地将用户交互体验,带进了一个全新的维度。 那么,这个新功能具体能做什么?简单来说,当你在豆包的电话界面开启视频画面,你面前的就不再是一个冷冰冰的聊天窗口了。豆包

热心网友
04.14
苹果即将向开发者开放其 AI 引擎,提升应用开发能力
AI
苹果即将向开发者开放其 AI 引擎,提升应用开发能力

苹果的AI新棋局:向开发者敞开设备端智能的大门 科技圈最近有个消息传得挺热:苹果正计划在2025年的全球开发者大会(WWDC)上,向第三方开发者开放其设备端AI模型。这步棋的目的很明确,就是要激发一波应用创新,并扩展其智能生态的边界。具体来说,苹果正在开发一个软件开发工具包(SDK),这个工具包将允

热心网友
04.14
OpenAI联合创始人:AI智能体十年内难堪大用,“智能体之年”言过其实
AI
OpenAI联合创始人:AI智能体十年内难堪大用,“智能体之年”言过其实

OpenAI联合创始人:AI智能体十年内难堪大用,“智能体之年”言过其实 最近,OpenAI的联合创始人安德烈·卡帕西(Andrej Karpathy)给出了一个颇为清醒的判断。他公开表示,我们今天谈论的AI智能体,距离真正意义上的“功能完善”,还有很长一段路要走。 话说回来,他的观点非常直接:眼下

热心网友
04.14
王者荣耀世界充值比例详解王者荣耀世界氪金机制与性价比分析
游戏攻略
王者荣耀世界充值比例详解王者荣耀世界氪金机制与性价比分析

《王者荣耀世界》:付费机制革新,从“数值碾压”到“个性表达” 随着《王者荣耀世界》正式上线,其独特的付费设计理念引发了广泛关注。一个明确的趋势是,这款游戏并未延续传统网游依赖数值付费的陈旧模式。其核心设计逻辑,旨在构建一个以深度叙事与自由探索为核心的开放世界。在此框架下,付费机制的角色发生了本质性转

热心网友
04.14
win10如何安装Redis数据库_win10Redis数据库的6种方式
系统平台
win10如何安装Redis数据库_win10Redis数据库的6种方式

Windows 10 安装 Redis 的六种方法详解 在 Windows 10 操作系统上安装 Redis 数据库,许多开发者会遇到官方不再提供原生 Windows 版本支持的难题。常见问题包括命令无法识别、Windows 服务注册失败或配置文件加载错误。这些问题通常源于版本兼容性、系统环境变量配

热心网友
04.14