Kimi+Linear开源性能超越全注意力,模型效率提升新突破
大语言模型技术迎来重要突破,月之暗面公司正式开源其自主研发的混合线性注意力架构Kimi+Linear。该架构通过创新设计,在短文本理解、长文档处理与强化学习扩展等多个应用场景中,首次实现了对传统Transformer架构中全局注意力机制的整体超越。实验数据表明,新架构在保持模型生成质量的同时,将KV缓存使用量减少75%,并在百万级token长文本理解任务中实现6倍的吞吐量提升。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
核心创新在于名为Kimi+Delta+Attention(KDA)的线性注意力模块。研发团队在门控DeltaNet基础上引入通道级门控机制,使每个特征维度具备独立遗忘率。这种细粒度控制方式显著优化了有限状态RNN的内存管理,配合对角-低秩混合矩阵的定制化分块并行算法,在保持经典delta规则一致性的前提下大幅压缩计算量。实验表明,该算子效率较传统DPLR公式提升约100%。
架构设计采用3:1的混合比例,即每3层KDA模块搭配1层全局注意力层。这种交错排列方式在生成长序列时,既能通过全局注意力层维持完整信息流,又将内存占用降低75%。预训练模型采用300亿激活参数和4800亿总参数的规模,在1.4万亿token训练数据上验证了其优越性。评估覆盖通用知识、数学推理、编程能力及中文理解四大领域,结果显示新架构在BBH、MMLU、HellaSwag等基准测试中全面领先,在数学竞赛题AIME+2025和编程基准LiveCodeBench等高难度任务中同样表现卓越。
效率优势随序列长度增加愈发显著。在4k-16k短文本场景下,性能与标准注意力机制持平;当序列延伸至128k时,处理速度开始明显超越;处理512k长序列时性能达到基准的2.3倍,百万级序列处理速度更提升至6倍。这种特性使其在强化学习场景中表现突出,特别是在需要处理扩展轨迹、工具交互和复杂决策空间的测试任务中,展现出传统架构难以企及的优势。
技术实现层面,研究团队通过多组件协同提升模型表达能力。输出层采用低秩参数化设计,在保持性能的同时缓解注意力陷阱问题;混合架构中3:1的层间比例经过大量实验验证为最优解;在对所有MLA层移除位置编码后,长文本处理能力依然保持竞争力。综合任务测试显示,新架构在需要精确记忆和逻辑推理的场景中,错误率较基线模型降低40%以上。
热门专题
热门推荐
红色沙漠星之塔怎么进入 好消息是,星之塔的进入方式非常直接,它会在主线流程中自动解锁,你完全不需要提前满世界探索或者寻找隐藏入口。 当你跟随主线指引,到达星之塔所在的那片区域后,抬头就能看到它矗立在山顶。接下来要做的很简单:沿着图中这条醒目的红色路线所示的楼梯,一路向上攀登,就能直达山顶的星之塔正门
《王者荣耀世界》即将正式与玩家见面 备受期待的开放世界RPG手游《王者荣耀世界》,已经进入了上线前的最后阶段。官方释放的大量前瞻信息中,地图设计与剧情体验无疑是两大核心亮点。而作为游戏首赛季(S1)的重头戏,全新区域“姑射山”的登场,显然不仅仅是添一张新地图那么简单。它被深度植入了原创剧情,旨在为玩
红色沙漠动力核心怎么获得 想拿到动力核心,目标很明确:找到那些固定刷新的阿比斯守卫。它们常在一些特定地点徘徊,比如坍塌城门区域的悬崖边上,就是不错的狩猎场。 找到目标后先别急着动手,这里有个关键步骤能省下大量时间:在开打前,务必手动保存一下游戏。这相当于给自己买了一份“保险”,万一守卫没掉你想要的东
《王者荣耀世界》已正式官宣将于2026年4月上线 千呼万唤始出来,腾讯天美工作室的开放世界MMOARPG《王者荣耀世界》,终于敲定了2026年4月的上线日期。消息一出,玩家社区的讨论热度再次被点燃。在众多引人注目的首发角色里,“元流之子”以其鲜明的定位和独特的技能设计,成为焦点中的焦点。最近,不少玩
《王者荣耀世界》英雄获取全指南:三种核心方式,快速组建强力阵容 在《王者荣耀世界》的开放世界中开启冒险之旅,作为“元流之子”的你,最令人期待的体验莫过于招募那些熟悉与全新的英雄伙伴。无论是伽罗、东方曜等经典角色,还是“冷春”这样的原创人物,他们的独特故事与强大技能,共同构成了这个东方幻想世界的核心吸





