Torch-MUSA v2.7.0发布:1050+专属算子提速摩尔线程
11月28日,摩尔线程正式推出了PyTorch深度学习框架的最新MUSA扩展库——Torch-MUSA v2.7.0。该版本在功能集成、性能优化和硬件支持方面都实现了显著突破。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
值得关注的是,在短短一个月内,Torch-MUSA就连续发布了v2.5.0和v2.7.0两个重要版本,更新频率令人印象深刻。
另一个重大变化是,自v2.5.0版本开始,Torch-MUSA的版本号与PyTorch主版本保持同步。这一调整让开发者能够更直观地进行版本识别与管理。
v2.7.0版本进一步集成了muSolver、muFFT等计算加速库,显著提升了复杂计算任务的执行效率;
新增支持统一内存设备(Unified Memory)的UMM功能,有效优化了内存使用效能。
该版本继续保持与最新MUSA SDK的兼容性,支持使用MUSA SDK 4.2.0至4.3.0及更高版本进行编译。
目前,Torch-MUSA专属支持的算子总数已突破1050个,系统在性能与稳定性方面均实现进一步提升,为大模型训练与推理提供了更高效、更可靠的底层支撑。
下一次版本升级将是v2.9.0,将重点优化性能与功能,持续构建和完善基于MUSA架构的国产全功能GPU深度学习生态。
▼ Torch-MUSA开源地址:
https://github.com/MooreThreads/torch_musa

v2.7.0版本主要更新内容
新增特性
▼ 动态双精度转换(Dynamic Double Cast)
用户可通过设置环境变量export TORCH_USE_MUSA_DOUBLE_CAST=1,开启Float64数据类型算子的动态转换功能。启用后,torch_musa将使用float32作为计算数据类型,在保证精度的同时提升运算效率。
▼ 分布式检查点(Distributed Checkpoint)
支持从多个rank并行加载和保存模型,显著加速检查点的保存与加载过程。目前该功能已支持分布式检查点的异步保存。
功能增强
▼ 新增Poisson、binomial、_standard_gamma、_sample_dirichlet、vdot、upsample(1d、2d、3d、with aa)、flash_attention、transformer_encoder_layer等多个实用算子,使得MUSA专属支持的算子总数突破1050个。
▼ 通过升级PyTorch底层支持,torch.compile与AOTInductor功能进一步增强;
▼ 默认启用TF32计算模式,有效提升浮点运算效率;
▼ 优化性能分析工具Kineto的稳定性,并将其适配版本升级至2.7.0;
▼ 继续优化FSDP2流水线并行策略,进一步降低内存占用。
v2.5.0版本主要更新内容
新增特性
▼ 新增muFFT与muSolver库集成,大幅扩展计算能力;
▼ 在面向边缘计算的SoC设备中支持统一内存管理。基于Arm架构的UMA(统一内存寻址)设计,实现了GPU与CPU共享同一物理内存空间,显著降低模型运行过程中的内存开销,具体包括:
消除GPU端重复内存分配;
减少主机与设备间的内存拷贝;
GPU可直接访问由CPU分配器申请的内存空间。
算子扩展与性能优化
▼ 新增支持包括ilshift、irshift、replication_pad1d_bwd、angle、ctcLossTensor、ctcLossTensorBwd、logit、amin/amax/prod.dim_int、glu_bwd等多个算子;
▼ 新增基础Sparse(CSR)操作支持;
▼ 扩充量化算子支持范围;
▼ 修复torch.norm形状错误问题;
▼ 支持reduce_sum的uint8输入与int64输出;
▼ C++扩展新增支持tensor.is_musa()方法;
▼ 修复空输入下argmax/argmin的异常行为;
▼ 优化var/std、pad、convolution3d、layer_norm等操作的执行效率。
系统功能增强
▼ 开放torch.musa.mccl.version()接口;
▼ 支持getCurrentMUSABlasHandle与getCurrentMUSABlasLtHandle;
▼ 优化FSDP2流水线并行策略,降低训练内存占用。
相关攻略
国外PC硬件爱好者社区r pcmasterrace玩家分享硬件更新实录:告别GTX 1080 Ti 近日,在全球知名的PC硬件爱好者社区Reddit的r pcmasterrace版块,一则玩家分享的硬件更替帖文引发了广泛共鸣。这位玩家以饱含情感的笔触,向与自己并肩作战长达九年之久的“老战友”——NV
快科技4月1日消息,据VideoCardz报道,巴西的GPU维修专家Jefferson Silva(Sidnelson)和Paulo Gomes,近日成功修复了两张存在不同故障的RTX 4090显卡
快科技4月1日消息,据VideoCardz报道,巴西的GPU维修专家Jefferson Silva(Sidnelson)和Paulo Gomes,近日成功修复了两张存在不同故障的RTX 4090显卡
快科技4月1日消息,NVIDIA推送了DLSS 4 5的下半部分更新,包括DLSS动态多帧生成、更激进的5倍和6倍帧生成倍率,以及全新的增强帧生成模型(目前处于Beta阶段)。新功能面向RTX 50
3月31日消息,俄罗斯油管博主Pro Hi-Tech近日把玩了一块非常少见的显卡AMD Radeon Instinct MI50,而且只花了12000卢布(约合人民币1000元出头),就得到了这块已
热门专题
热门推荐
曙光英雄青木全面攻略:技能解析、连招技巧与出装思路 在《曙光英雄》中,青木是位列T1梯度的顶尖刺客,其强度与机动性仅次于版本强势英雄飞廉。凭借高额的瞬间爆发伤害,以及集隐身、位移、免伤于一体的全能机制,他能够有效掌控战场节奏,成为对手后排的梦魇。本文将为你深度解析这位“幻影刺客”的技能机制、实战技巧
《三国杀:武将觉醒》新手专武和锦囊选择全攻略 当角色等级达到30至35级,游戏核心的专武与锦囊系统随之解锁。这无疑是前期养成的重要分水岭:选择得当能带来立竿见影的战力飞跃,决策失误则会浪费宝贵资源,拖慢游戏进度。本攻略将为你详细解析,帮助各位主公高效构建阵容,走好养成第一步。 首先要掌握一个关键信息
三国志王道天下盾兵阵容深度解析 在策略手游《三国志:王道天下》中,一套强力的阵容往往能让你在沙场上所向披靡。最近,许多玩家都在探讨如何构建一支攻防兼备的盾兵队伍。本文将为你全面拆解一套经过PVP与PVE双重考验的顶尖盾兵阵容体系,从配置到机制,助你打造坚不可摧的防御核心。 阵容核心构成与战略定位 本
双十一购物节来袭,爱奇艺多重福利重磅开启! 海量影视限时特惠 今年的双十一,爱奇艺将海量优质影音资源纳入超值促销。无论是刚刚下映的院线热门大片、全网刷屏的爆款电视剧,还是口碑载道的独家王牌综艺,均推出了前所未有的心动折扣。这意味着您无需支付高昂的影院票价,也无需为多平台会员费烦恼,居家即可轻松搭建个
《梦境护卫队》×《葫芦兄弟》2024联动活动完整攻略:奖励领取与资源规划指南 备受期待的《梦境护卫队》与经典国漫《葫芦兄弟》官方联动现已正式开启!本次活动为玩家带来了丰富的限定奖励与趣味玩法,社区热度持续攀升。无论你是追求收藏还是提升战力,这份详尽的奖励解析与高效获取攻略,都将帮助你轻松领满全部免费





