昇腾加持TransMLA架构：免重训破解大模型适配壁垒

时间：2026-01-13 16:37

MLA(Multi-head Latent Attention多头潜在注意力架构)凭借低秩压缩KV缓存设计，实现长上下文推理的显存与带宽双重优化，其有效性已在 DeepSeek-V2 等模型中得到了

MLA（Multi-head Latent Attention，多头发潜注意力）架构凭借其低秩压缩的KV缓存设计，在实现长上下文推理时，有效优化了显存占用与带宽效率。这一设计的高效性已在DeepSeek-V2等模型中得到了验证。然而，当前主流的预训练模型如LLaMA、Qwen等大多基于GQA架构构建，业界已投入大量工程优化成本。若想复用MLA架构往往需要重新训练，成本极高。为此，在北京大学与鹏城实验室科教创新卓越中心的算力支持下，北京大学人工智能研究院助理教授张牧涵团队提出了TransMLA转化框架，实现了无需重训即可将主流模型向MLA架构迁移的目标。

TransMLA精准针对从GQA向MLA迁移的核心痛点，通过四大技术模块的创新实现了精准破局：其一，是GQA→MLA结构映射，解决了分组KV头与MLA单头潜在表示不兼容的问题。通过特定的线性变换，将GQA分组后的K、V向量投影/融合为单一的低秩潜在表示，并配备上投影矩阵以确保KV信息精准恢复，为架构迁移筑牢了基础。其二，是RoRoPE技术方案，通过创新性的适配设计，让位置编码能顺畅融入低秩压缩流程，解决了直接对RoPE应用PCA等通用降维方法可能导致的位置信息损失或模型性能下降问题。其三，是通过对RoPE中相邻频率的旋转维度进行折叠与融合，在降低参数量的同时，更高效地集中和保留关键的位置信息，从而维持模型在长序列下的语义理解能力。其四，是通过平衡Key和Value矩阵在压缩前的范数分布，提升联合压缩的数值稳定性，有效减少信息损失。

在技术落地过程中，升腾计算平台发挥了关键支撑作用。其高效并行计算架构满足了结构映射模块的多任务协同处理需求，保障了架构迁移的效率；其优化的存储与缓存体系，为FreqFold的频率信息处理、BKV-PCA的范数平衡提供了稳定的硬件基础，有效提升了KV压缩的稳定性与资源利用效率，助力TransMLA核心技术平稳落地。

实验结果显示，TransMLA的转换过程性能优势显著。在裁剪LLaMA-2-7B模型68.75%的KV缓存后，无需额外训练，核心性能仅轻微损失。在32K序列长度、FP16精度下，基于升腾平台的推理速度相较于业界主流GPU平台有显著提升。依托开放的生态资源，升腾已推动TransMLA稳定支持主流模型部署，并将集成至vLLM/SGLang等高性能推理框架生态，便于用户直接部署，大幅降低企业落地适配成本。

TransMLA与升腾的协同创新，打通了主流模型与MLA架构间的鸿沟，充分发挥了升腾生态优势。升腾全链路支持实现了TransMLA“零重训、低损失”的目标，保留了模型参数优势，降低了企业基于升腾平台进行技术升级的门槛。这一软硬件协同典范，为长上下文推理提供了来自升腾生态的解决方案，推动自主计算与前沿AI融合，彰显升腾核心引领作用，为大规模模型产业依托自主硬件实现降本增效提供了可行路径。

来源：https://www.itbear.com.cn/html/2026-01/1090699.html

上一篇问界M7增程长续航版实测：327km纯电续航，29.98万起 下一篇2026武汉新能源车展：全产业链技术齐聚，共绘出行新蓝图

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-01

OpenClaw手机App上线，结果翻车了

OpenClaw 官方宣布，已正式推出 iOS 和 Android 原生移动 App，用户如今可以在手机上使用这款主打“能真正帮你做事”的个人 AI 助手。官方在 X 上给出的定位也很直接：把 Agent 放进口袋里，让用户可以在移动端处理频道消息、任务和回复。从功能上看，OpenClaw 移动端并

科技数码 · 2026-07-01

优必选CEO周剑：家庭机器人生态核心投入过半精力

先说几个核心判断：优必选正在布局一盘长远战略。创始人兼CEO周剑在近期一场媒体沟通会上，直接亮出了公司未来的发展路线——工业、商用、家庭陪伴机器人三条业务主赛道并行推进，现阶段每条线各占约一半精力。一边是已经能够稳定创造收入的工业场景，另一边则是他眼中“最具想象力与未来空间”的家庭陪伴领域。工业人形

科技数码 · 2026-07-01

CPO/NPO/OIO开启封装级光连接价值空间，技术路线尚未收敛

6月30日，申银万国在光连接系列研报中重点指出，MPO光连接器领域的投资机会值得高度关注。通俗来说，随着AI算力集群持续扩张，光互联升级带来的连锁效应——数据中心光纤通道数量、前面板端口密度、机柜内光纤管理复杂度——均在同步攀升。光连接器的角色早已超越传统的低价值标准件，如今它直接决定着链路插损、可

科技数码 · 2026-07-01

龙岗AR实景剧本游内测体验短板有效破解之道

在今年龙岗区第二届人工智能与机器人发展大会上，区级部门一次性推出了7个AI“龙搭子”。其中，名为“龙导游”的成果成为文商旅融合领域的核心亮点。据南都N视频记者了解，依托“龙导游”打造的全区全域AR实景剧本游“龙岗大陆”，已在今年五一假期发布了内测版本。经过一个月市场验证后，该项目正式启动面向全社会的

科技数码 · 2026-07-01

南下资金6月30日净买入中芯国际与建滔积层板

6月30日，南下资金持续大举买入港股，单日净流入金额高达58 95亿港元。接下来，我们直接盘点哪些个股获得资金青睐、哪些遭到减持：净买入方面，中芯国际领跑全场，单日吸金19 33亿港元；建滔积层板紧随其后，净买入10 59亿港元；腾讯控股获得7 65亿港元净流入；智谱（02513 HK）也有6 5