PyTorch与MUSA集成：Torch-MUSA v2.7.0新增1050+专属算子

首页/电脑教程/文章详情

PyTorch与MUSA集成：Torch-MUSA v2.7.0新增1050+专属算子

时间：2025-11-28 16:09

11月28日消息，摩尔线程正式发布了PyTorch深度学习框架的最新版MUSA扩展库——Torch-MUSA v2 7 0，在功能集成、性能优化、硬件支持上都实现了进一步突破。值得一提的是，在短短一

11月28日，摩尔线程正式推出PyTorch深度学习框架的最新版本——Torch-MUSA v2.7.0扩展库，这次更新在功能集成、运行效率与硬件适配方面均有显著提升。

值得一提的是，短短一个月内，Torch-MUSA已经接连完成了v2.5.0和v2.7.0两次版本迭代。

另一个重要变化是，从v2.5.0版本开始，Torch-MUSA的版本号与PyTorch主版本保持同步，方便开发者进行版本识别与管理。

v2.7.0版本进一步整合了muSolver、muFFT等计算加速库，使复杂计算任务的执行效率得到明显提升；

新增的统一内存设备（Unified Memory）支持UMM功能，有效优化了内存使用效率。

继续保持与最新MUSA SDK的兼容性，支持使用MUSA SDK 4.2.0至4.3.0及更高版本进行编译。

目前，Torch-MUSA专属支持的算子总数已突破1050个，系统在性能与稳定性方面均有进一步提升，为大模型训练与推理提供了更高效、更可靠的底层支持。

下一次版本升级将迭代至v2.9.0，届时将进一步完善性能表现与功能特性，持续推进基于MUSA架构的国产全功能GPU深度学习生态建设。

▼ Torch-MUSA开源地址：

https://github.com/MooreThreads/torch_musa

摩尔线程发布Torch-MUSA v2.7.0：专属算子超过1050个

v2.7.0版本主要更新内容

新增特性

▼ 动态双精度转换（Dynamic Double Cast）

用户可通过设置环境变量export TORCH_USE_MUSA_DOUBLE_CAST=1，开启Float64数据类型算子的动态转换功能，torch_musa将使用float32作为计算数据类型。

▼ 分布式检查点（Distributed Checkpoint）

支持从多个rank并行加载和保存模型，显著加速检查点的保存与加载过程。当前已支持分布式检查点的异步保存功能。

功能增强

▼ 新增Poisson、binomial、_standard_gamma、_sample_dirichlet、vdot、upsample（1d、2d、3d、with aa）、flash_attention、transformer_encoder_layer等多个实用算子，MUSA专属支持的算子总数突破1050个。

▼ 通过升级PyTorch底层支持，torch.compile与AOTInductor功能进一步增强；

▼ 默认启用TF32计算模式，提升浮点运算效率；

▼ 优化性能分析工具Kineto的稳定性，并将其适配版本升级至2.7.0；

▼ 持续优化FSDP2流水线并行策略，进一步降低内存占用。

v2.5.0版本主要更新内容

新增特性

▼ 新增muFFT与muSolver库集成，大幅扩展计算能力；

▼ 在面向边缘计算的SoC设备中支持统一内存管理，基于Arm架构的UMA（统一内存寻址）设计，实现GPU与CPU共享同一物理内存空间，显著降低模型运行过程中的内存开销，具体包括：

消除GPU端重复内存分配；

减少主机与设备间的内存拷贝；

GPU可直接访问由CPU分配器申请的内存空间。

算子扩展与性能优化

▼ 新增支持包括ilshift、irshift、replication_pad1d_bwd、angle、ctcLossTensor、ctcLossTensorBwd、logit、amin/amax/prod.dim_int、glu_bwd等多个算子；

▼ 新增基础Sparse(CSR)操作支持；

▼ 扩充量化算子支持范围；

▼ 修复torch.norm形状错误问题；

▼ 支持reduce_sum的uint8输入与int64输出；

▼ C++扩展新增支持tensor.is_musa()方法；

▼ 修复空输入下argmax/argmin的异常行为；

▼ 优化var/std、pad、convolution3d、layer_norm等操作的执行效率。

系统功能增强

▼ 开放torch.musa.mccl.version()接口；

▼ 支持getCurrentMUSABlasHandle与getCurrentMUSABlasLtHandle；

▼ 优化FSDP2流水线并行策略，降低训练内存占用。

来源：https://m.mydrivers.com/newsview/1089392.html

显卡 MUSA 摩尔线程

上一篇微软称Windows用户渴望AI功能，却遭网友质疑 下一篇Intel酷睿Ultra 200S发布周年：Linux性能提升9%，功耗降15%

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

电脑教程 · 2026-07-01

网易闪电邮附件下载失败的解决方法

当使用网易闪电邮下载附件时，经常遇到进度条卡在“正在下载”或直接中断、且页面无任何提示的情况，这通常由以下几个原因导致。网易闪电邮附件下载失败的根本问题往往不是表面现象，而是网络环境、本地配置和网易邮箱策略共同作用的结果。下面我们将从根源入手，逐步排查并提供有效的解决方案。先确认是否为超大附件限制

电脑教程 · 2026-07-01

Origin下载卡在0%的解决方法

第一次安装Origin时，很多新手朋友最头疼的莫过于进度条卡在0%不动，光标一闪一闪，等了十几分钟还是老样子。老实说，这根本不是你的网速太慢，而是安装程序压根没连上服务器——要么连接通道被阻断，要么你本地的网络组件出了问题。别急，我们直接上解决方案，分三步轻松搞定。使用离线安装包绕过Origin内

电脑教程 · 2026-07-01

萝卜投研电脑版安装教程与下载方法详解

先说结论：萝卜投研目前确实没有独立的PC客户端，不过别急，通过应用宝电脑版就能在Windows 10 11上运行它的Android原生App，而且手机端的账号、收藏的研报都能同步过来，还能导出到本地，就一个词儿——省心。下面我把整个安装和使用的流程拆开细说。换句话说，这套方案等于直接绕过了传统模拟

电脑教程 · 2026-07-01

小米智能存储规格揭晓：4+32GB存储与40Mbps免费远程访问

7月1日，小米的首款NAS产品终于浮出水面——官方命名为“小米智能存储”，并于今天上午10点正式开启众筹，起售价2299元。对关注智能家居和家庭数据存储的用户来说，这算是一个等了很久的消息。先看看基本规格。机身三围200 5×85×161mm，铝合金中框材质，整机保修三年，做工上对得起小米一向的质

电脑教程 · 2026-07-01

苹果手表充电方法及是否支持无线充电

苹果手表采用磁吸无线充电，基于MagSafe技术，从零充满约需90分钟。需匹配设备型号，快充需20W以上适配器。建议将电量维持在20%-80%，开启优化电池充电功能可降低衰减，充电环境温度应控制在0℃至35℃。