游乐游手机版
首页/科技数码/文章详情

千问正式开源FlashQLA 可减少训推过程注意力层的计算开销

时间:2026-04-29 21:07
千问开源FlashQLA:为线性注意力算子注入“硬核”效率 近日,AI开源社区迎来一则重磅消息。4月29日,千问大模型团队正式开源了FlashQLA——一个基于TileLang实现的高性能线性注意力算子库。这可不是一个简单的代码发布,其背后指向一个明确的行业痛点:随着模型参数规模与序列长度的不断攀升

千问开源FlashQLA:为线性注意力算子注入“硬核”效率

近日,AI开源社区迎来一则重磅消息。4月29日,千问大模型团队正式开源了FlashQLA——一个基于TileLang实现的高性能线性注意力算子库。这可不是一个简单的代码发布,其背后指向一个明确的行业痛点:随着模型参数规模与序列长度的不断攀升,注意力机制的计算开销,正日益成为制约训练与推理效率的关键瓶颈。

千问正式开源FlashQLA 可减少训推过程注意力层的计算开销

那么,FlashQLA究竟意在解决什么问题?这得从千问模型自身的演进说起。自Qwen3-Next发布以来,其采用的Gated Delta Network(GDN)架构,已成为千问全系列模型的主力注意力层。从最初的Qwen3-Next-80B-A3B,到后续推出的Qwen3.5乃至Qwen3.6系列,GDN都扮演着核心角色。然而,当模型规模一路扩展至397A17B、122A10B乃至35B、27B等不同配置时,一个现实挑战浮出水面:GDN在端到端训练与推理过程中所产生的计算开销,已经变得不容忽视。

技术内核:当“门控”遇见“并行”

面对这一挑战,FlashQLA的发布给出了颇具巧思的答案。其核心亮点主要集中在两大创新上。

首先,是**Gate驱动的自动化卡内序列并行**。传统方法在处理长序列或特定张量并行(TP)配置时,常常面临计算资源利用率不足的问题。FlashQLA巧妙地利用了GDN中Gate门控所具备的指数衰减特性,实现了智能化的并行策略。简单来说,系统能在TP、长序列、注意力头数较少等场景下,自动开启卡内序列并行。这一机制如同为GPU的流多处理器(SM)安装了智能调度器,显著提升了硬件资源的利用效率。

其次,在于**硬件友好的代数改写**。FlashQLA并非简单封装,而是对GDN Chunked Prefill的前向传播与反向传播流程,进行了深度的算子融合与性能优化。通过对计算过程进行代数层面的重构,它在确保数值精度毫发无损的前提下,有效降低了Tensor Core、CUDA Core及特殊函数单元(SFU)的计算开销。这种“从算法层面为硬件量身定制”的思路,正是实现性能突破的关键。

性能表现:效率提升肉眼可见

经过这番“内外兼修”的改造,FlashQLA交出的成绩单相当亮眼。根据官方数据,在NVIDIA Hopper架构GPU上,该算子库在多种应用场景下,相较于原有的FLA triton Kernel,实现了**2至3倍的前向传播加速**,以及**约2倍的反向传播加速**。

这意味着什么?对于需要海量数据迭代的预训练场景,计算时间的缩短直接等同于研发成本的降低与迭代速度的飞跃。而对于时延敏感的端侧智能体(Agentic)推理任务,更高的推理效率则直接转化为更流畅的用户体验和更低的部署成本。可以说,FlashQLA的推出,正是瞄准了AI工业化进程中“降本增效”的核心诉求。

开源这一高性能算子库,也体现了千问团队推动技术普惠的一向思路。将经过实战验证的底层优化成果共享给社区,无疑将助力整个行业更高效地探索更大规模的模型架构与应用边界。接下来,业界可以期待基于FlashQLA的更多模型实现与性能基准测试,其生态价值将在实际应用中逐步显现。

来源:https://www.163.com/dy/article/KRN55RIG05198UNI.html
上一篇机构预计今年全球折叠屏手机面板出货量同比增长51% 下一篇21对话|陪小米智驾长到十八岁
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
宫本茂亲签3DS XL拍卖价破两万美元
科技数码 · 2026-05-29

宫本茂亲签3DS XL拍卖价破两万美元

今天来说一件挺有意思的事:2015年任天堂世界锦标赛冠军约翰·戈德堡,近日将他当年夺冠时赢得的宫本茂亲笔签名版3DS XL掌机放上了拍卖平台。截至2026年5月29日,这台签名掌机的竞拍价已突破两万美元,并且价格还在持续攀升。戈德堡在社交媒体上发布声明表示,经过相当长时间的慎重考虑,他决定将这台对自

七彩虹隐星P16 Pro游戏本新配置仅售7799元
科技数码 · 2026-05-29

七彩虹隐星P16 Pro游戏本新配置仅售7799元

七彩虹近期推出隐星P16Pro游戏本新配置,售价7799元。其搭载酷睿i9-13900HX处理器与RTX5060显卡,配备16英寸2 5K高刷电竞屏及高效散热系统。存储组合为16GB内存与1TB固态硬盘,支持后续扩展。该配置主打高性能性价比,适合预算有限但追求强劲性能的游戏玩家与轻度创作者。

苹果iPhone Hikawa握把支架448元重新上架
科技数码 · 2026-05-29

苹果iPhone Hikawa握把支架448元重新上架

苹果公司重新上架了与艺术家贝利·桧川及PopSockets合作设计的iPhone专用握把支架。该配件采用磁吸设计,兼具握持与支架功能,旨在通过人性化设计降低握持负担,并提供三种配色可选,售价448元。

苹果体育应用扩展至170市场 为2026世界杯引入对阵图
科技数码 · 2026-05-29

苹果体育应用扩展至170市场 为2026世界杯引入对阵图

苹果体育应用新增覆盖90多个国家和地区,全球可用市场总数超过170个。为迎接2026年世界杯,应用加入了完整的赛程对阵图和可视化阵型卡片,方便用户追踪赛事与战术。同时,应用支持实时活动功能,可将比分固定在锁屏或表盘,并新增一键跳转至新闻的入口。目前该应用仍仅限iPhone用户使用。

小米史上最强国产巅峰芯片玄戒O3 6月台积电3nm投产
科技数码 · 2026-05-29

小米史上最强国产巅峰芯片玄戒O3 6月台积电3nm投产

据博主爆料,小米下一代自研玄戒芯片计划于今年6月正式进入量产阶段,此次将采用台积电3nm工艺。初代玄戒O1累计出货量已突破100万颗,量产验证十分扎实。新一代芯片的产能将显著提升,这意味着供货问题基本得到解决。 根据现有曝光信息,这颗迭代芯片极有可能命名为玄戒O3,首发搭载机型预计为小米MIX Fo