游乐游手机版
首页/电脑教程/文章详情

PyTorch与MUSA集成:Torch-MUSA v2.7.0新增1050+专属算子

时间:2025-11-28 16:09
11月28日消息,摩尔线程正式发布了PyTorch深度学习框架的最新版MUSA扩展库——Torch-MUSA v2 7 0,在功能集成、性能优化、硬件支持上都实现了进一步突破。值得一提的是,在短短一

11月28日,摩尔线程正式推出PyTorch深度学习框架的最新版本——Torch-MUSA v2.7.0扩展库,这次更新在功能集成、运行效率与硬件适配方面均有显著提升。

值得一提的是,短短一个月内,Torch-MUSA已经接连完成了v2.5.0和v2.7.0两次版本迭代。

另一个重要变化是,从v2.5.0版本开始,Torch-MUSA的版本号与PyTorch主版本保持同步,方便开发者进行版本识别与管理。

v2.7.0版本进一步整合了muSolver、muFFT等计算加速库,使复杂计算任务的执行效率得到明显提升;

新增的统一内存设备(Unified Memory)支持UMM功能,有效优化了内存使用效率。

继续保持与最新MUSA SDK的兼容性,支持使用MUSA SDK 4.2.0至4.3.0及更高版本进行编译。

目前,Torch-MUSA专属支持的算子总数已突破1050个,系统在性能与稳定性方面均有进一步提升,为大模型训练与推理提供了更高效、更可靠的底层支持。

下一次版本升级将迭代至v2.9.0,届时将进一步完善性能表现与功能特性,持续推进基于MUSA架构的国产全功能GPU深度学习生态建设。

▼ Torch-MUSA开源地址:

https://github.com/MooreThreads/torch_musa

摩尔线程发布Torch-MUSA v2.7.0:专属算子超过1050个

v2.7.0版本主要更新内容

新增特性

▼ 动态双精度转换(Dynamic Double Cast)

用户可通过设置环境变量export TORCH_USE_MUSA_DOUBLE_CAST=1,开启Float64数据类型算子的动态转换功能,torch_musa将使用float32作为计算数据类型。

▼ 分布式检查点(Distributed Checkpoint)

支持从多个rank并行加载和保存模型,显著加速检查点的保存与加载过程。当前已支持分布式检查点的异步保存功能。

功能增强

▼ 新增Poisson、binomial、_standard_gamma、_sample_dirichlet、vdot、upsample(1d、2d、3d、with aa)、flash_attention、transformer_encoder_layer等多个实用算子,MUSA专属支持的算子总数突破1050个。

▼ 通过升级PyTorch底层支持,torch.compile与AOTInductor功能进一步增强;

▼ 默认启用TF32计算模式,提升浮点运算效率;

▼ 优化性能分析工具Kineto的稳定性,并将其适配版本升级至2.7.0;

▼ 持续优化FSDP2流水线并行策略,进一步降低内存占用。

v2.5.0版本主要更新内容

新增特性

▼ 新增muFFT与muSolver库集成,大幅扩展计算能力;

▼ 在面向边缘计算的SoC设备中支持统一内存管理,基于Arm架构的UMA(统一内存寻址)设计,实现GPU与CPU共享同一物理内存空间,显著降低模型运行过程中的内存开销,具体包括:

消除GPU端重复内存分配;

减少主机与设备间的内存拷贝;

GPU可直接访问由CPU分配器申请的内存空间。

算子扩展与性能优化

▼ 新增支持包括ilshift、irshift、replication_pad1d_bwd、angle、ctcLossTensor、ctcLossTensorBwd、logit、amin/amax/prod.dim_int、glu_bwd等多个算子;

▼ 新增基础Sparse(CSR)操作支持;

▼ 扩充量化算子支持范围;

▼ 修复torch.norm形状错误问题;

▼ 支持reduce_sum的uint8输入与int64输出;

▼ C++扩展新增支持tensor.is_musa()方法;

▼ 修复空输入下argmax/argmin的异常行为;

▼ 优化var/std、pad、convolution3d、layer_norm等操作的执行效率。

系统功能增强

▼ 开放torch.musa.mccl.version()接口;

▼ 支持getCurrentMUSABlasHandle与getCurrentMUSABlasLtHandle;

▼ 优化FSDP2流水线并行策略,降低训练内存占用。

来源:https://m.mydrivers.com/newsview/1089392.html
上一篇微软称Windows用户渴望AI功能,却遭网友质疑 下一篇Intel酷睿Ultra 200S发布周年:Linux性能提升9%,功耗降15%
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
网易闪电邮附件下载失败的解决方法
电脑教程 · 2026-07-01

网易闪电邮附件下载失败的解决方法

当使用网易闪电邮下载附件时,经常遇到进度条卡在“正在下载”或直接中断、且页面无任何提示的情况,这通常由以下几个原因导致。网易闪电邮附件下载失败的根本问题往往不是表面现象,而是网络环境、本地配置和网易邮箱策略共同作用的结果。下面我们将从根源入手,逐步排查并提供有效的解决方案。 先确认是否为超大附件限制

Origin下载卡在0%的解决方法
电脑教程 · 2026-07-01

Origin下载卡在0%的解决方法

第一次安装Origin时,很多新手朋友最头疼的莫过于进度条卡在0%不动,光标一闪一闪,等了十几分钟还是老样子。老实说,这根本不是你的网速太慢,而是安装程序压根没连上服务器——要么连接通道被阻断,要么你本地的网络组件出了问题。别急,我们直接上解决方案,分三步轻松搞定。 使用离线安装包绕过Origin内

萝卜投研电脑版安装教程与下载方法详解
电脑教程 · 2026-07-01

萝卜投研电脑版安装教程与下载方法详解

先说结论:萝卜投研目前确实没有独立的PC客户端,不过别急,通过应用宝电脑版就能在Windows 10 11上运行它的Android原生App,而且手机端的账号、收藏的研报都能同步过来,还能导出到本地,就一个词儿——省心。下面我把整个安装和使用的流程拆开细说。 换句话说,这套方案等于直接绕过了传统模拟

小米智能存储规格揭晓:4+32GB存储与40Mbps免费远程访问
电脑教程 · 2026-07-01

小米智能存储规格揭晓:4+32GB存储与40Mbps免费远程访问

7月1日,小米的首款NAS产品终于浮出水面——官方命名为“小米智能存储”,并于今天上午10点正式开启众筹,起售价2299元。对关注智能家居和家庭数据存储的用户来说,这算是一个等了很久的消息。 先看看基本规格。机身三围200 5×85×161mm,铝合金中框材质,整机保修三年,做工上对得起小米一向的质

苹果手表充电方法及是否支持无线充电
电脑教程 · 2026-07-01

苹果手表充电方法及是否支持无线充电

苹果手表采用磁吸无线充电,基于MagSafe技术,从零充满约需90分钟。需匹配设备型号,快充需20W以上适配器。建议将电量维持在20%-80%,开启优化电池充电功能可降低衰减,充电环境温度应控制在0℃至35℃。