PyTorch与MUSA集成:Torch-MUSA v2.7.0新增1050+专属算子
11月28日,摩尔线程正式推出PyTorch深度学习框架的最新版本——Torch-MUSA v2.7.0扩展库,这次更新在功能集成、运行效率与硬件适配方面均有显著提升。
值得一提的是,短短一个月内,Torch-MUSA已经接连完成了v2.5.0和v2.7.0两次版本迭代。
另一个重要变化是,从v2.5.0版本开始,Torch-MUSA的版本号与PyTorch主版本保持同步,方便开发者进行版本识别与管理。
v2.7.0版本进一步整合了muSolver、muFFT等计算加速库,使复杂计算任务的执行效率得到明显提升;
新增的统一内存设备(Unified Memory)支持UMM功能,有效优化了内存使用效率。
继续保持与最新MUSA SDK的兼容性,支持使用MUSA SDK 4.2.0至4.3.0及更高版本进行编译。
目前,Torch-MUSA专属支持的算子总数已突破1050个,系统在性能与稳定性方面均有进一步提升,为大模型训练与推理提供了更高效、更可靠的底层支持。
下一次版本升级将迭代至v2.9.0,届时将进一步完善性能表现与功能特性,持续推进基于MUSA架构的国产全功能GPU深度学习生态建设。
▼ Torch-MUSA开源地址:
https://github.com/MooreThreads/torch_musa

v2.7.0版本主要更新内容
新增特性
▼ 动态双精度转换(Dynamic Double Cast)
用户可通过设置环境变量export TORCH_USE_MUSA_DOUBLE_CAST=1,开启Float64数据类型算子的动态转换功能,torch_musa将使用float32作为计算数据类型。
▼ 分布式检查点(Distributed Checkpoint)
支持从多个rank并行加载和保存模型,显著加速检查点的保存与加载过程。当前已支持分布式检查点的异步保存功能。
功能增强
▼ 新增Poisson、binomial、_standard_gamma、_sample_dirichlet、vdot、upsample(1d、2d、3d、with aa)、flash_attention、transformer_encoder_layer等多个实用算子,MUSA专属支持的算子总数突破1050个。
▼ 通过升级PyTorch底层支持,torch.compile与AOTInductor功能进一步增强;
▼ 默认启用TF32计算模式,提升浮点运算效率;
▼ 优化性能分析工具Kineto的稳定性,并将其适配版本升级至2.7.0;
▼ 持续优化FSDP2流水线并行策略,进一步降低内存占用。
v2.5.0版本主要更新内容
新增特性
▼ 新增muFFT与muSolver库集成,大幅扩展计算能力;
▼ 在面向边缘计算的SoC设备中支持统一内存管理,基于Arm架构的UMA(统一内存寻址)设计,实现GPU与CPU共享同一物理内存空间,显著降低模型运行过程中的内存开销,具体包括:
消除GPU端重复内存分配;
减少主机与设备间的内存拷贝;
GPU可直接访问由CPU分配器申请的内存空间。
算子扩展与性能优化
▼ 新增支持包括ilshift、irshift、replication_pad1d_bwd、angle、ctcLossTensor、ctcLossTensorBwd、logit、amin/amax/prod.dim_int、glu_bwd等多个算子;
▼ 新增基础Sparse(CSR)操作支持;
▼ 扩充量化算子支持范围;
▼ 修复torch.norm形状错误问题;
▼ 支持reduce_sum的uint8输入与int64输出;
▼ C++扩展新增支持tensor.is_musa()方法;
▼ 修复空输入下argmax/argmin的异常行为;
▼ 优化var/std、pad、convolution3d、layer_norm等操作的执行效率。
系统功能增强
▼ 开放torch.musa.mccl.version()接口;
▼ 支持getCurrentMUSABlasHandle与getCurrentMUSABlasLtHandle;
▼ 优化FSDP2流水线并行策略,降低训练内存占用。
相关攻略
近日,外媒GamesRadar的一篇评测报告,将国产显卡砺算科技LX 7G100推到了聚光灯下。报告的核心结论很明确:这款搭载12GB显存的自研显卡,在实测中表现出了令人印象深刻的流畅度,能够顺畅运行主流游戏,PC游戏库的兼容性也相当不错。然而,若要与英伟达即将推出的RTX 5060同台竞技,目前来
首先将显卡厂商控制面板恢复至默认频率,随后利用MSI Afterburner清除所有超频配置,接着进入BIOS关闭PCIe Gen5与Resizable BAR功能,再禁用Windows系统中的GPU动态加速服务,最后通过nvidia-smi等命令行工具强制设定显卡最高频率上限。 当Windows
近期许多用户反馈,显卡在高负载运行时突然黑屏,风扇转速飙升至最高,但电脑主机并未关机。这种情况是否意味着显卡即将损坏?先别急于下结论,问题的根源往往并非显卡本身,而可能隐藏在供电链路中——例如电源或那几根看似普通的电源线。本文将深入解析如何判断你的电源与显卡是否真正“匹配”。 上图所示的电压数据是本
显卡市场近期再度引发关注。据外媒VideoCardz披露的AIB合作伙伴信息,AMD正筹备在桌面平台推出一款基于全新“RDNA 4”架构的显卡,其市场定位将低于当前已上市的同代产品,型号或命名为Radeon RX 9050 8GB。 根据泄露的规格参数,这款显卡预计采用“Navi 44”核心,搭载完
关于AMD下一代RDNA 4架构显卡的最新消息,近期在硬件爱好者社区引发了广泛关注。据知名外媒VideoCardz独家披露,其从AIB核心合作伙伴处获得的信息表明,AMD正计划推出一款面向主流入门级市场的桌面显卡新品,其最终命名或将为Radeon RX 9050 8GB。若此传闻得到证实,该产品将成
热门专题
热门推荐
在《燕云十六声》中领悟“菩提苦海”,需沉浸探索游戏世界。主线剧情构建认知框架,战斗观察、场景细节与NPC对话皆暗藏线索。通过多元视角拼凑因果,方能深入理解游戏蕴含的宏大叙事与深邃魅力。
2026年618大促的序幕刚刚拉开,初期战报已经透露出一些耐人寻味的信号。截至5月21日,海信电视在京东平板电视累计销售竞速榜上拔得头筹,其RGB-Mini LED爆款王——海信小墨E5S Pro,更是同时拿下了天猫平板电视和抖音大家电的5 20单品销冠。 这并非偶然。奥维云网的全渠道监测数据给出了
充电桩领域的“军备竞赛”再次迎来重磅升级。5月22日,极氪汽车正式发布了其全新一代液冷超级充电桩,将单枪峰值功率一举提升至行业领先的800kW,标志着超充技术迈入新阶段。 根据官方披露的核心信息,这款超充桩主要具备四大优势:极速补能、高效节能、广泛适配与多重安全。具体而言,其单枪峰值电流高达800A
获取电弧机剑主要有五种途径:推进主线任务以解锁线索;探索遗迹、工厂等特定区域;挑战特定副本与Boss;完成提及传说武器或遗物的支线任务;参与限时活动并达成要求。玩家可根据偏好选择或组合多种方式获取该武器。
小米汽车再次为潜在车主带来惊喜福利!即日起至5月31日,用户只需提前完成预约,并到店参与任意车型的试驾体验,即可免费获赠一款1:64精致合金车模。车模款式与颜色随机发放,为试驾过程增添一份专属的收藏乐趣,诚意十足。 参与本次活动需注意以下细则:试驾必须通过官方渠道提前预约;各授权门店的车模备货数量不





