首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
9B端侧开源模型实战:百万上下文与全新线性混合注意力机制

9B端侧开源模型实战:百万上下文与全新线性混合注意力机制

热心网友
78
转载
2026-02-11

henry 发自 凹非寺
量子位 | 公众号 QbitAI

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

最强的大模型,已经把scaling卷到了一个新维度:百万级上下文

几天前,Claude Opus 4.6发布,让人第一次真切感受到了百万上下文的涌现能力——

单次吃进50万字中文内容、实现跨文档法律分析、多轮Agent规划……

此情此景,用户火速用脚投票,华尔街更是直接给出K线回应。



而这股scaling的风,也很快吹到了端侧。

刚刚,面壁智能带着首次大规模训练的稀疏与线性混合注意力模型,小年交卷——

这套新注意力架构,不仅解决了传统Transformer的计算冗余,还第一次在性能无损的前提下,让9B端侧模型能够在5090显卡上处理百万长文本

与此同时,基于SALA注意力架构的模型MiniCPM-SALA也将一并开源。

除此之外,面壁还以OpenBMB社区名义,联合SGLang与NVIDIA发起2026稀疏算子加速大奖赛(SOAR),将这套scaling能力直接交到开发者手中,推动端侧Agent部署的性能突破。

Linear-Sparse混合注意力架构

太长不看,咱直接说重点——

面壁这次全新的线性与稀疏注意力混合架构SALA(Sparse Attention-Linear Attention,SALA),究竟是怎么个混合法呢?

简单来说,这套架构将75%线性注意力(Lightning Attention)25%稀疏注意力(InfLLM v2)结合,并通过混合位置编码HyPE(Hybrid Position Encoding)实现两者的高效协同与超强的长度外推。



线性注意力模块,Linear-Sparse选用Lightning Attention作为核心算子,负责快速、稳定地建模长文本的全局信息



Lightning Attention的计算方式与传统全注意力接近,方便现有全注意力模型直接迁移到混合架构,无需从零开始预训练。

同时,借助QK-normalization输出门控机制,使线性层在百万级上下文训练下保持数值稳定,避免梯度爆炸或下溢。

稀疏注意力模块,Linear-Sparse采用InfLLMv2来精准捕捉长序列中的关键局部信息



InfLLM v2可按需选择关键KV,让每个Query只计算必要部分,从而大幅提高长文本处理效率。

值得一提的是,InfLLM v2还能在长文本中自动启用稀疏模式,在标准长度下回退为稠密计算,实现长短文本的无缝切换。

最后,混合位置编码HyPE(Hybrid Position Encoding)的引入,则保证了线性和稀疏两种注意力机制的充分协同。

一方面,线性层保留RoPE以维持与原全注意力模型在参数分布和特征空间上的一致性,保证中短文本性能稳健。

另一方面,稀疏层采用NoPE(无位置编码),让KV-Cache与位置信息解耦,规避长距离衰减问题,使模型在百万长度上下文中仍能高效检索极远信息。

训练上,MiniCPM-SALA采用Transformer-to-Hybrid低成本构建方法(HALO)



具体而言,模型通过HALO方法将75%的全注意力层转换为线性注意力层,整个过程包括参数转换、隐状态对齐、层选择以及知识蒸馏四个步骤。

最终,这套Linear-Sparse设计让MiniCPM-SALA在端侧处理超长文本时,不仅显存占用极低、计算高效,而且语义精度依然保持领先水平。

为什么百万上下文,必须是“混合注意力”?

要回答这个问题,得先回到传统的Full Attention



在经典Transformer里,每生成一个新token,都要和之前所有token做两两计算,其计算复杂度是典型的O(N²)。

这意味着,把上下文从1万拉到100万,计算量不是涨100倍,而是直接飙升1万倍。与此同时,为了让模型“记住”所有历史信息,还得把KV对全攒在显存里。

随着上下文长度增加,KV Cache迅速膨胀,很快就会爆显存。

由此可见,想解决长上下文问题,注意力机制是核心瓶颈

过去几年,业界围绕这一瓶颈探索了多条路线,本质上都是在精度、效率与可部署性之间寻找平衡点

第一类是线性注意力,通常为线性和全注意力结合的混合设计。

它用记忆状态替代传统两两打分,能将计算复杂度从O(N²)降到O(N)。

优点是可以吃下百万级上下文,但底层采用有损压缩,序列越长,早期信息越容易被稀释,导致上下文遗忘和模型能力下降。

第二类是原生稀疏注意力

只计算关键位置,精度接近全注意力,但为了支持长程历史回顾,仍需全量保存KV Cache,导致端侧部署成本高。

第三类是放弃显式注意力的状态空间模型,如Mamba。

这类方法推理效率高、几乎不需要KV Cache,但在精确指令遵循和长距离精确检索上,仍不够稳定。

综上,我们不难看出注意力机制改动是长上下文scaling的主战场

但真正能同时兼顾百万级上下文能力、推理效率和端侧可落地性的方案,仍然稀缺。

这也是为什么面壁提出Linear-Sparse混合注意力架构的出发点。

用线性机制承担大规模上下文的承载,用稀疏机制补足关键位置的精确建模能力。

在这一架构下,模型不再需要对所有token做完整的两两计算,也不必无条件保存全量KV Cache。

新的混合注意力架构可以在显著降低推理开销和显存占用的同时,避免纯线性注意力在长程信息召回上的精度损失,以及稀疏注意力在端侧设备要求上的局限。

基于这一设计,面壁还开源了MiniCPM-SALA,用来验证该架构在真实长上下文场景下的潜力。

在效果层面,得益于显著更低的显存占用和更高的推理效率,MiniCPM-SALA首次在5090这样的消费级显卡上,将1M上下文完整跑通,为长上下文从云端走向端侧提供了一条现实可行的路径。

与此同时,在不依赖投机推理等额外加速算法的前提下,相比同尺寸开源模型,MiniCPM-SALA在256K序列上实现了2倍以上的速度提升。

当序列长度进一步提升至512K甚至1M时,部分同尺寸模型已经遭遇显存瓶颈,而MiniCPM-SALA依然能够稳定运行。

(详细测评结果可参考MiniCPM-SALA的GitHub或Hugging Face README)

从这些结果来看,未来的大模型,并不一定需要Full Attention才能具备完整能力。

当上下文成为第一性资源时,像Linear-Sparse混合注意力这样的新型注意力设计,正在成为影响模型能否真正落地的重要变量。

2026稀疏算子加速大奖赛

如果说MiniCPM-SALA让Linear-Sparse混合架构的能力有了实证,那么今年的SOAR(稀疏算子加速大奖赛)就是让这套技术“落地跑起来”的舞台。

这场比赛由面壁智能、OpenBMB联合SGLang社区和NVIDIA共同发起。

旨在通过全球极客的深度协作,共同探索MiniCPM-SALA这一全球首创“稀疏+线性”混合架构模型在1M长文本推理上的性能极限。

具体来说,大赛聚焦于稀疏算子融合与编译优化等底层技术挑战,尝试在消费级GPU上实现百万Token推理且KV Cache<6GB的极致效率。

比赛时间从2月11日持续到5月29日,设有总奖池超过70万人民币的奖励。

参赛者不仅能测试混合架构在真实硬件上的极限,还能探索端侧高效长文本处理的新方法。

比赛链接:https://soar.openbmb.cn/



面壁为什么执着于用SALA重构长上下文?

这并不是为了“卷长上下文指标”。

面壁的一大目标是从Densing Law(密度法则)的第一性原理出发,将通用能力强的模型落到智能终端如手机、汽车、机器人等上,而SALA架构的创新是通往罗马的关键:

正是基于对注意力机制的创新,MiniCPM-SALA模型才能足够高效、显存占用足够低,面壁才能首次在5090这样的消费级GPU 上,把一兆级长文本端侧推理真正跑通。

这一步一旦成立,长上下文就不再只是云端模型的特权,而成为端侧智能可以依赖的基础能力。

如果把面壁今年的动作放在一起看,其实不难理解其在端侧智能上的整体思路:

从模型底层直通端侧生态,核心就是上下文

无论是模型架构的迭代,还是长文本的竞技,本质上都是一次针对端侧落地的“两步走”战略。

而这,并非偶然。

放眼整个行业,Agent的核心瓶颈已从单纯的参数量转向上下文能力——

从模型层的Claude Opus 4.6,到应用层的Claude Cowork、Clawdbot(现OpenClaw),再到评估层的CL-Bench,行业共识已经非常明确:

能否一次吸收、理解并持续利用大量上下文,是决定Agent可用性的关键。

与此同时,基于注意力机制优化上下文处理,也已成为学界到产业公认的主战场。

去年NeurIPS 2025最佳论文给到门控注意力;产业侧,Kimi的KDA、DeepSeek的NSA、MiniMax的Lightning相继推出新方案——

几乎所有核心玩家,都在attention这条线上持续加码。

因为这不是一个“工程调优”问题,而是架构级问题。

只有真正具备AGI野心和技术纵深的公司,才有能力从底层架构一路改到上层算法。

也只有真正想把模型能力推到边界的团队,才有魄力去挑战已经被奉为主流、但显然仍有优化空间的Transformer传统范式。

而面壁选择这条路,更是因为其与端侧部署的目标高度契合:

首先,端侧Agent要处理的包括通讯录、位置信息、聊天记录。

出于隐私保护,这些数据无法走向云端。只有让模型本身具备超长上下文能力,个人助理才能在本地真正“懂你”。

其次,通用榜单已进入红海,端侧开发者关心的问题也已从特定的benchmark,转向真实世界环境的上下文应用。

这正如DeepSeek研究员苟志斌所言:

预训练能scaling,RL也能scaling,上下文也能scaling,模型仍在继续scaling。



换句话说,参数规模已经不再是唯一指标,真正的竞争力在于模型/Agent在复杂上下文中持续推理和行动的能力,这将直接决定模型从demo走向仓库级代码助手、行业知识库Agent。

最后也是最本质的,不解决长文本推理部署成本,端侧智能也就无法真正落地。

所以面壁不只做模型,更在做生态:从开源MiniCPM-SALA,到举办端侧长文本比赛降低部署成本,再到深耕开发者社区,面壁正在拼出一条剑指“百万上下文时代个人智能体”的主线。

比赛链接:

https://soar.openbmb.cn/

技术报告:

https://github.com/OpenBMB/MiniCPM/blob/main/docs/MiniCPM SALA.pdf

Github:

https://github.com/openbmb/minicpm

HuggingFace:

https://huggingface.co/openbmb/MiniCPM-SALA

ModelScope:

https://www.modelscope.cn/models/OpenBMB/MiniCPM-SALA

来源:https://www.163.com/dy/article/KLH1A2DP0511DSSR.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

具身智能研发框架Dexbotic重塑机器人开发流程
AI
具身智能研发框架Dexbotic重塑机器人开发流程

近日,开源具身智能原生框架Dexbotic宣布正式支持以RLinf作为其分布式强化学习后端。对具身智能开发者而言,这不仅是一次普通的工程适配,更意味着VLA模型研发中长期存在的「SFT与RL割裂」问题,正在被真正打通。 这是一种典型的「乐高式协作」:双方不强行Fork、不粗暴揉合代码,而是保持清晰边

热心网友
05.13
RMS-MoE模型通过检索记忆优化专家路由调度效率
AI
RMS-MoE模型通过检索记忆优化专家路由调度效率

随着大模型参数规模不断增长,混合专家(Mixture-of-Experts, MoE)架构因其稀疏激活特性,成为平衡模型性能与计算开销的主流方案。然而,在实际的Web级应用部署中,一个关键挑战日益凸显:传统MoE的路由机制通常是“无记忆”的。 试想,在搜索引擎、智能问答或多轮对话等高并发场景下,用户

热心网友
05.12
编程入门指南从零基础到理解核心概念
编程语言
编程入门指南从零基础到理解核心概念

编程十年的一点分享 在软件开发的路上走过十几年,从一个爱好者到以此为业,有些体会或许值得聊聊,就当是抛砖引玉吧。 最早接触编程,是从BASIC和C语言开始的。工作后,随着需要,陆续学习了dBase、Access这类桌面数据库的开发。真正以开发为职业,可以说始于FoxPro 5 0,之后技术栈随着项目

热心网友
05.07
编程初学者入门指南与核心思维解析
编程语言
编程初学者入门指南与核心思维解析

引言 编程,是一门实践科学。这意味着,学习它的最佳方式就是动手去敲代码。但这是否意味着,我们可以因此轻视理论的学习呢? 入门编程 如果你去各大技术社区提问“该如何入门编程”,五花八门的答案会瞬间涌来。 不过,仔细梳理一下,无外乎以下几种流派: 学院派 他们推荐从C语言入手,并辅以数据结构、操作系统等

热心网友
05.07
Agent 需要“油表”和“刹车”:一篇论文,扒光了 Agent 的“糊涂账”
科技数码
Agent 需要“油表”和“刹车”:一篇论文,扒光了 Agent 的“糊涂账”

想象一下这个场景: 你让 AI Agent 帮你修一个代码 Bug。它打开项目,读了 20 个文件,改了改,跑了一下测试,没过,又改,又跑,还是没过……来回折腾了十几轮,终于——还是没修好。 你关掉电脑,松了口气。然后收到了 API 账单。 上面的数字可能让你倒吸一口凉气——AI Agent 自主修

热心网友
05.06

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

2026年USDT交易软件排行榜:安全可靠的平台推荐与选择指南
web3.0
2026年USDT交易软件排行榜:安全可靠的平台推荐与选择指南

本文介绍了2026年主流的USDT交易软件,重点分析了币安、欧易和火币三大平台的特点与优势。内容涵盖平台安全性、交易功能、用户体验及费用结构,旨在为不同需求的用户提供选择参考。文中强调选择平台时应综合考虑资产安全、操作便捷性和交易成本,并提醒注意风险管理与合规操作。

热心网友
05.14
2026年USDT交易软件推荐:十大安全靠谱平台深度评测
web3.0
2026年USDT交易软件推荐:十大安全靠谱平台深度评测

本文介绍了USDT交易的基本概念与主流平台选择。USDT作为稳定币,其交易主要通过加密货币交易所进行。选择平台时需综合考虑安全性、流动性、手续费和用户体验。文中列举了当前市场认可度较高的几类交易平台,并提醒用户注意资产安全与合规操作,建议根据自身需求谨慎选择。

热心网友
05.14
哥本哈根大学新研究探索AI推荐系统如何消除偏见实现公平
AI
哥本哈根大学新研究探索AI推荐系统如何消除偏见实现公平

哥本哈根大学计算机科学系于2026年3月发布了一项具有里程碑意义的研究(论文编号arXiv:2603 12935v1),揭示了当前主流AI推荐系统可能潜藏的社会偏见风险。这项研究同时指出,一种高效且低成本的解决方案——提示工程,或许能成为破解这一难题的关键。 当您使用求职平台或新闻资讯应用时,背后的

热心网友
05.14
港科大团队创新图像修复技术:仅需千张训练图,视频生成模型效果媲美百万数据
AI
港科大团队创新图像修复技术:仅需千张训练图,视频生成模型效果媲美百万数据

照片模糊了、雨滴遮挡了画面、夜晚拍摄噪点过多……这些常见的图像质量问题,往往让人束手无策。传统的解决方案,就像请来一群专科医生:去模糊、去噪点、去雨滴,各有各的专长,但每个“医生”都需要海量的“临床经验”——动辄数百万张训练图片,才能达到可用的修复水平。 然而,一项由香港科技大学、哈尔滨工业大学深圳

热心网友
05.14
UBC与Vector研究院攻克AI资源管理难题 机器人低成本高效运行指南
AI
UBC与Vector研究院攻克AI资源管理难题 机器人低成本高效运行指南

这项由英属哥伦比亚大学(UBC)与Vector人工智能研究院联合主导的前沿研究,于2026年3月以预印本论文(arXiv:2603 12634v1)形式发布。研究团队创新性地提出了“预算感知价值树搜索”(Budget-Aware Value Tree Search,简称BA VT)框架,旨在攻克一个

热心网友
05.14