游乐游手机版
首页/科技数码/文章详情

昇腾加持TransMLA架构:免重训破解大模型适配壁垒

时间:2026-01-13 16:37
MLA(Multi-head Latent Attention多头潜在注意力架构)凭借低秩压缩KV缓存设计,实现长上下文推理的显存与带宽双重优化,其有效性已在 DeepSeek-V2 等模型中得到了

MLA(Multi-head Latent Attention,多头发潜注意力)架构凭借其低秩压缩的KV缓存设计,在实现长上下文推理时,有效优化了显存占用与带宽效率。这一设计的高效性已在DeepSeek-V2等模型中得到了验证。然而,当前主流的预训练模型如LLaMA、Qwen等大多基于GQA架构构建,业界已投入大量工程优化成本。若想复用MLA架构往往需要重新训练,成本极高。为此,在北京大学与鹏城实验室科教创新卓越中心的算力支持下,北京大学人工智能研究院助理教授张牧涵团队提出了TransMLA转化框架,实现了无需重训即可将主流模型向MLA架构迁移的目标。

\

TransMLA精准针对从GQA向MLA迁移的核心痛点,通过四大技术模块的创新实现了精准破局:其一,是GQA→MLA结构映射,解决了分组KV头与MLA单头潜在表示不兼容的问题。通过特定的线性变换,将GQA分组后的K、V向量投影/融合为单一的低秩潜在表示,并配备上投影矩阵以确保KV信息精准恢复,为架构迁移筑牢了基础。其二,是RoRoPE技术方案,通过创新性的适配设计,让位置编码能顺畅融入低秩压缩流程,解决了直接对RoPE应用PCA等通用降维方法可能导致的位置信息损失或模型性能下降问题。其三,是通过对RoPE中相邻频率的旋转维度进行折叠与融合,在降低参数量的同时,更高效地集中和保留关键的位置信息,从而维持模型在长序列下的语义理解能力。其四,是通过平衡Key和Value矩阵在压缩前的范数分布,提升联合压缩的数值稳定性,有效减少信息损失。

在技术落地过程中,升腾计算平台发挥了关键支撑作用。其高效并行计算架构满足了结构映射模块的多任务协同处理需求,保障了架构迁移的效率;其优化的存储与缓存体系,为FreqFold的频率信息处理、BKV-PCA的范数平衡提供了稳定的硬件基础,有效提升了KV压缩的稳定性与资源利用效率,助力TransMLA核心技术平稳落地。

实验结果显示,TransMLA的转换过程性能优势显著。在裁剪LLaMA-2-7B模型68.75%的KV缓存后,无需额外训练,核心性能仅轻微损失。在32K序列长度、FP16精度下,基于升腾平台的推理速度相较于业界主流GPU平台有显著提升。依托开放的生态资源,升腾已推动TransMLA稳定支持主流模型部署,并将集成至vLLM/SGLang等高性能推理框架生态,便于用户直接部署,大幅降低企业落地适配成本。

TransMLA与升腾的协同创新,打通了主流模型与MLA架构间的鸿沟,充分发挥了升腾生态优势。升腾全链路支持实现了TransMLA“零重训、低损失”的目标,保留了模型参数优势,降低了企业基于升腾平台进行技术升级的门槛。这一软硬件协同典范,为长上下文推理提供了来自升腾生态的解决方案,推动自主计算与前沿AI融合,彰显升腾核心引领作用,为大规模模型产业依托自主硬件实现降本增效提供了可行路径。

来源:https://www.itbear.com.cn/html/2026-01/1090699.html
上一篇问界M7增程长续航版实测:327km纯电续航,29.98万起 下一篇2026武汉新能源车展:全产业链技术齐聚,共绘出行新蓝图
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
宫本茂亲签3DS XL拍卖价破两万美元
科技数码 · 2026-05-29

宫本茂亲签3DS XL拍卖价破两万美元

今天来说一件挺有意思的事:2015年任天堂世界锦标赛冠军约翰·戈德堡,近日将他当年夺冠时赢得的宫本茂亲笔签名版3DS XL掌机放上了拍卖平台。截至2026年5月29日,这台签名掌机的竞拍价已突破两万美元,并且价格还在持续攀升。戈德堡在社交媒体上发布声明表示,经过相当长时间的慎重考虑,他决定将这台对自

七彩虹隐星P16 Pro游戏本新配置仅售7799元
科技数码 · 2026-05-29

七彩虹隐星P16 Pro游戏本新配置仅售7799元

七彩虹近期推出隐星P16Pro游戏本新配置,售价7799元。其搭载酷睿i9-13900HX处理器与RTX5060显卡,配备16英寸2 5K高刷电竞屏及高效散热系统。存储组合为16GB内存与1TB固态硬盘,支持后续扩展。该配置主打高性能性价比,适合预算有限但追求强劲性能的游戏玩家与轻度创作者。

苹果iPhone Hikawa握把支架448元重新上架
科技数码 · 2026-05-29

苹果iPhone Hikawa握把支架448元重新上架

苹果公司重新上架了与艺术家贝利·桧川及PopSockets合作设计的iPhone专用握把支架。该配件采用磁吸设计,兼具握持与支架功能,旨在通过人性化设计降低握持负担,并提供三种配色可选,售价448元。

苹果体育应用扩展至170市场 为2026世界杯引入对阵图
科技数码 · 2026-05-29

苹果体育应用扩展至170市场 为2026世界杯引入对阵图

苹果体育应用新增覆盖90多个国家和地区,全球可用市场总数超过170个。为迎接2026年世界杯,应用加入了完整的赛程对阵图和可视化阵型卡片,方便用户追踪赛事与战术。同时,应用支持实时活动功能,可将比分固定在锁屏或表盘,并新增一键跳转至新闻的入口。目前该应用仍仅限iPhone用户使用。

小米史上最强国产巅峰芯片玄戒O3 6月台积电3nm投产
科技数码 · 2026-05-29

小米史上最强国产巅峰芯片玄戒O3 6月台积电3nm投产

据博主爆料,小米下一代自研玄戒芯片计划于今年6月正式进入量产阶段,此次将采用台积电3nm工艺。初代玄戒O1累计出货量已突破100万颗,量产验证十分扎实。新一代芯片的产能将显著提升,这意味着供货问题基本得到解决。 根据现有曝光信息,这颗迭代芯片极有可能命名为玄戒O3,首发搭载机型预计为小米MIX Fo