千问正式开源FlashQLA 可减少训推过程注意力层的计算开销
千问开源FlashQLA:为线性注意力算子注入“硬核”效率
近日,AI开源社区迎来一则重磅消息。4月29日,千问大模型团队正式开源了FlashQLA——一个基于TileLang实现的高性能线性注意力算子库。这可不是一个简单的代码发布,其背后指向一个明确的行业痛点:随着模型参数规模与序列长度的不断攀升,注意力机制的计算开销,正日益成为制约训练与推理效率的关键瓶颈。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

那么,FlashQLA究竟意在解决什么问题?这得从千问模型自身的演进说起。自Qwen3-Next发布以来,其采用的Gated Delta Network(GDN)架构,已成为千问全系列模型的主力注意力层。从最初的Qwen3-Next-80B-A3B,到后续推出的Qwen3.5乃至Qwen3.6系列,GDN都扮演着核心角色。然而,当模型规模一路扩展至397A17B、122A10B乃至35B、27B等不同配置时,一个现实挑战浮出水面:GDN在端到端训练与推理过程中所产生的计算开销,已经变得不容忽视。
技术内核:当“门控”遇见“并行”
面对这一挑战,FlashQLA的发布给出了颇具巧思的答案。其核心亮点主要集中在两大创新上。
首先,是**Gate驱动的自动化卡内序列并行**。传统方法在处理长序列或特定张量并行(TP)配置时,常常面临计算资源利用率不足的问题。FlashQLA巧妙地利用了GDN中Gate门控所具备的指数衰减特性,实现了智能化的并行策略。简单来说,系统能在TP、长序列、注意力头数较少等场景下,自动开启卡内序列并行。这一机制如同为GPU的流多处理器(SM)安装了智能调度器,显著提升了硬件资源的利用效率。
其次,在于**硬件友好的代数改写**。FlashQLA并非简单封装,而是对GDN Chunked Prefill的前向传播与反向传播流程,进行了深度的算子融合与性能优化。通过对计算过程进行代数层面的重构,它在确保数值精度毫发无损的前提下,有效降低了Tensor Core、CUDA Core及特殊函数单元(SFU)的计算开销。这种“从算法层面为硬件量身定制”的思路,正是实现性能突破的关键。
性能表现:效率提升肉眼可见
经过这番“内外兼修”的改造,FlashQLA交出的成绩单相当亮眼。根据官方数据,在NVIDIA Hopper架构GPU上,该算子库在多种应用场景下,相较于原有的FLA triton Kernel,实现了**2至3倍的前向传播加速**,以及**约2倍的反向传播加速**。
这意味着什么?对于需要海量数据迭代的预训练场景,计算时间的缩短直接等同于研发成本的降低与迭代速度的飞跃。而对于时延敏感的端侧智能体(Agentic)推理任务,更高的推理效率则直接转化为更流畅的用户体验和更低的部署成本。可以说,FlashQLA的推出,正是瞄准了AI工业化进程中“降本增效”的核心诉求。
开源这一高性能算子库,也体现了千问团队推动技术普惠的一向思路。将经过实战验证的底层优化成果共享给社区,无疑将助力整个行业更高效地探索更大规模的模型架构与应用边界。接下来,业界可以期待基于FlashQLA的更多模型实现与性能基准测试,其生态价值将在实际应用中逐步显现。
相关攻略
千问开源FlashQLA:为线性注意力算子注入“硬核”效率 近日,AI开源社区迎来一则重磅消息。4月29日,千问大模型团队正式开源了FlashQLA——一个基于TileLang实现的高性能线性注意力算子库。这可不是一个简单的代码发布,其背后指向一个明确的行业痛点:随着模型参数规模与序列长度的不断攀升
商汤科技刚刚正式发布并开源日日新SenseNova U1 系列原生理解生成统一模型 商汤科技这次的动作,可以说是为多模态AI领域投下了一枚“深水冲击波”。他们正式开源了日日新SenseNova U1系列模型,而它的核心,在于一个根本性的架构革新。 这个模型基于商汤今年三月自主研发的NEO-unify
DeepSeek 深夜再放大招:7B 参数人人可用的视觉多模态模型 Janus-Pro-7B 开源 北京时间今日凌晨,AI领域又迎来一个重磅消息。DeepSeek正式开源了其全新的视觉多模态模型 Janus-Pro-7B。这可不是普通的更新,从已披露的测试结果看,它在GenEval和DPG-Benc
一、 主流开源RPA框架:它们各自擅长什么? 当下,许多企业正面临一个相似的困局:虽然部署了专业的ERP、CRM等系统,但大量重复、跨系统的操作仍依赖人工“搬运”。这不仅严重拖慢了业务速度,也让运营成本居高不下。业内普遍共识是,RPA技术与AI、云计算的深度融合,正推动流程自动化走向更智能的下一个阶
月之暗面Kimi开源Moonlight:30亿 160亿参数混合专家模型 技术圈传来新动静。2月24日消息,月之暗面Kimi团队在昨日发布了一份关于“Muon优化器可扩展用于大语言模型训练”的技术报告,同时揭晓了基于此技术训练的模型产品“Moonlight”——一个包含30亿和160亿参数版本的混合
热门专题
热门推荐
小米Note 3铃声管理全攻略:从定位到自定义,一步到位 手里拿着小米Note 3,想换个铃声却找不到地方?别急,这事儿其实比想象中简单。系统预置的铃声,都规规矩矩地躺在内部存储的一个特定文件夹里:SDcard MIUI ringtone 。这个目录就像MIUI系统的“声音仓库”,里面分门别类地存放
小米电饭煲重置网络提示失败怎么回事? 遇到小米电饭煲重置网络总是失败,先别急着怀疑是硬件坏了。这事儿本质上,是设备在配网流程中没能和路由器成功“握手”,建立通信授权。背后的原因,往往出在几个容易被忽略的细节上:比如Wi-Fi频段没选对、密码格式太复杂、App里还残留着旧配置,或者是路由器那边设置了“
按摩椅力度调小后依然有效,关键在于匹配个体身体状态与使用需求 现代中高端按摩椅普遍配备多级力度调节系统,但很多人心里犯嘀咕:力度调小了,是不是就变成隔靴搔痒,没什么实际作用了? 事实恰恰相反。实测数据显示,轻柔档位(比如30%—50%的输出强度)在缓解日常肩颈僵硬、改善浅层血液循环方面,有着明确的生
米家扫地机器人怎么用手机远程控制 想随时随地指挥家里的扫地机器人干活?这事儿其实很简单。米家APP就是你的万能遥控器,只要几步设置,无论你是在公司、在出差,还是躺在沙发上,都能稳定、便捷地通过手机远程掌控全局。操作逻辑很清晰:在手机上安装好官方米家APP并登录你的小米账号,让扫地机器人连上家里的Wi
PoE交换机好坏,普通测线仪说了不算 想用普通网线测线仪来判断一台PoE交换机的好坏?这个想法很危险。原因很简单:普通测线仪只能干些基础活儿,比如看看网线通不通、线序对不对、有没有短路断路。但对于PoE交换机的核心能力——供电电压是否达标、输出功率稳不稳定、是否兼容最新的IEEE标准、带载后电压会不





