首页 游戏 软件 资讯 排行榜 专题
首页
电脑教程
PyTorch与MUSA集成:Torch-MUSA v2.7.0新增1050+专属算子

PyTorch与MUSA集成:Torch-MUSA v2.7.0新增1050+专属算子

热心网友
60
转载
2025-11-28

11月28日,摩尔线程正式推出PyTorch深度学习框架的最新版本——Torch-MUSA v2.7.0扩展库,这次更新在功能集成、运行效率与硬件适配方面均有显著提升。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

值得一提的是,短短一个月内,Torch-MUSA已经接连完成了v2.5.0和v2.7.0两次版本迭代。

另一个重要变化是,从v2.5.0版本开始,Torch-MUSA的版本号与PyTorch主版本保持同步,方便开发者进行版本识别与管理。

v2.7.0版本进一步整合了muSolver、muFFT等计算加速库,使复杂计算任务的执行效率得到明显提升;

新增的统一内存设备(Unified Memory)支持UMM功能,有效优化了内存使用效率。

继续保持与最新MUSA SDK的兼容性,支持使用MUSA SDK 4.2.0至4.3.0及更高版本进行编译。

目前,Torch-MUSA专属支持的算子总数已突破1050个,系统在性能与稳定性方面均有进一步提升,为大模型训练与推理提供了更高效、更可靠的底层支持。

下一次版本升级将迭代至v2.9.0,届时将进一步完善性能表现与功能特性,持续推进基于MUSA架构的国产全功能GPU深度学习生态建设。

▼ Torch-MUSA开源地址:

https://github.com/MooreThreads/torch_musa

摩尔线程发布Torch-MUSA v2.7.0:专属算子超过1050个

v2.7.0版本主要更新内容

新增特性

▼ 动态双精度转换(Dynamic Double Cast)

用户可通过设置环境变量export TORCH_USE_MUSA_DOUBLE_CAST=1,开启Float64数据类型算子的动态转换功能,torch_musa将使用float32作为计算数据类型。

▼ 分布式检查点(Distributed Checkpoint)

支持从多个rank并行加载和保存模型,显著加速检查点的保存与加载过程。当前已支持分布式检查点的异步保存功能。

功能增强

▼ 新增Poisson、binomial、_standard_gamma、_sample_dirichlet、vdot、upsample(1d、2d、3d、with aa)、flash_attention、transformer_encoder_layer等多个实用算子,MUSA专属支持的算子总数突破1050个。

▼ 通过升级PyTorch底层支持,torch.compile与AOTInductor功能进一步增强;

▼ 默认启用TF32计算模式,提升浮点运算效率;

▼ 优化性能分析工具Kineto的稳定性,并将其适配版本升级至2.7.0;

▼ 持续优化FSDP2流水线并行策略,进一步降低内存占用。

v2.5.0版本主要更新内容

新增特性

▼ 新增muFFT与muSolver库集成,大幅扩展计算能力;

▼ 在面向边缘计算的SoC设备中支持统一内存管理,基于Arm架构的UMA(统一内存寻址)设计,实现GPU与CPU共享同一物理内存空间,显著降低模型运行过程中的内存开销,具体包括:

消除GPU端重复内存分配;

减少主机与设备间的内存拷贝;

GPU可直接访问由CPU分配器申请的内存空间。

算子扩展与性能优化

▼ 新增支持包括ilshift、irshift、replication_pad1d_bwd、angle、ctcLossTensor、ctcLossTensorBwd、logit、amin/amax/prod.dim_int、glu_bwd等多个算子;

▼ 新增基础Sparse(CSR)操作支持;

▼ 扩充量化算子支持范围;

▼ 修复torch.norm形状错误问题;

▼ 支持reduce_sum的uint8输入与int64输出;

▼ C++扩展新增支持tensor.is_musa()方法;

▼ 修复空输入下argmax/argmin的异常行为;

▼ 优化var/std、pad、convolution3d、layer_norm等操作的执行效率。

系统功能增强

▼ 开放torch.musa.mccl.version()接口;

▼ 支持getCurrentMUSABlasHandle与getCurrentMUSABlasLtHandle;

▼ 优化FSDP2流水线并行策略,降低训练内存占用。

来源:https://m.mydrivers.com/newsview/1089392.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

显卡烧接口有救了!微星新电源GPU Safeguard逐针监控:仅899元起
礼仪与书信
显卡烧接口有救了!微星新电源GPU Safeguard逐针监控:仅899元起

快科技4月7日消息,微星在年初CES展出的MAG A1200PLS PCIE5战斧导弹与MPG Ai1300TS PCIE5月神电源,以及新推出的MAG A1000PLS PCIE5战斧导弹,已经在

热心网友
04.07
显卡烧接口有救了!微星新电源GPU Safeguard逐针监控:仅899元起
电脑教程
显卡烧接口有救了!微星新电源GPU Safeguard逐针监控:仅899元起

4月7日消息,微星在年初CES展出的MAG A1200PLS PCIE5战斧导弹与MPG Ai1300TS PCIE5月神电源,以及新推出的MAG A1000PLS PCIE5战斧导弹,已经在在京东

热心网友
04.07
荣耀WIN游戏本定档4月23日发布 搭载RTX 5070显卡
娱乐
荣耀WIN游戏本定档4月23日发布 搭载RTX 5070显卡

【CNMO科技消息】4月7日,荣耀官方宣布旗下全新产品线WIN游戏本定档4月23日发布。荣耀笔记本在今年3月开赛的《三角洲行动》职业联赛中,荣耀WIN游戏本已作为最新指定设备全程支持赛事。《三角洲行

热心网友
04.07
荣耀WIN游戏本定档4月23日发布 搭载RTX 5070显卡
礼仪与书信
荣耀WIN游戏本定档4月23日发布 搭载RTX 5070显卡

【CNMO科技消息】4月7日,荣耀官方宣布旗下全新产品线WIN游戏本定档4月23日发布。荣耀笔记本在今年3月开赛的《三角洲行动》职业联赛中,荣耀WIN游戏本已作为最新指定设备全程支持赛事。《三角洲行

热心网友
04.07
Intel GPU真神了!面积大于AMD 但晶体管少一半
电脑教程
Intel GPU真神了!面积大于AMD 但晶体管少一半

4月6日消息,Intel近日发布了新款高端专业显卡锐炫Pro B70、B65,所用的GPU核心正是传说的大号Battlemage BMG-G31,本来应该还有锐炫B770游戏卡的,可惜砍了。Inte

热心网友
04.07

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

OPPO Find X9s Pro首发天马U9 Pro:新一代1nit明眸护眼屏
网络安全
OPPO Find X9s Pro首发天马U9 Pro:新一代1nit明眸护眼屏

4月3日消息,今日,OPPO官微宣布,OPPO Find X9s Pro将首发新一代1nit明眸护眼屏,宣称全场景都护眼。据悉,这块屏幕来自新一代天马天工屏,搭载全新U9 Pro发光基材,从材料、器

热心网友
04.07
Word行间距调整与固定行距设置指南
电脑教程
Word行间距调整与固定行距设置指南

Word行距异常增大可按五步解决:一、重置段前段后间距为0并设单倍行距;二、改用固定值行距(如小四号设18磅);三、清除样式继承并修复Normal模板;四、禁用自动格式更正干扰项;

热心网友
04.07
搭载第二代刀片电池、闪充技术:比亚迪2026款海豹06GT新车主交车仪式开启
科技数码
搭载第二代刀片电池、闪充技术:比亚迪2026款海豹06GT新车主交车仪式开启

汽车4月3日消息,4月3日,“年轻人第一台GT”比亚迪2026款海豹06GT新车交付仪式在深圳举行,作为海洋网又一搭载第二代刀片电池和最新闪充技术的重磅车型,上市售价12 89万元-16 99万元,

热心网友
04.07
埃安 N60 4 月 16 日开启预售:标配 4D 毫米波雷达 + 激光雷达
科技数码
埃安 N60 4 月 16 日开启预售:标配 4D 毫米波雷达 + 激光雷达

汽车4月3日消息,广汽埃安宣布将于 4 月 16 日举办品牌焕新发布会,埃安 N60 汽车将同步开启预售。目前新车已开启盲订,支付 99 元定金可享价值 5088 元礼遇。该车由曾任职于宝马等品牌的

热心网友
04.07
一起教育科技年营收1亿:同比降44%
科技数码
一起教育科技年营收1亿:同比降44%

4月5日消息,一起教育科技(NASDAQ: YQ)日前发布截至2025年12月31日的财报。财报显示,一起教育科技2025年营收为1 06亿(约1520万美元),较上年同期的1 89亿元下降44%。

热心网友
04.07