首页 游戏 软件 资讯 排行榜 专题
首页
电脑教程
PyTorch与MUSA集成:Torch-MUSA v2.7.0新增1050+专属算子

PyTorch与MUSA集成:Torch-MUSA v2.7.0新增1050+专属算子

热心网友
94
转载
2025-11-28

11月28日,摩尔线程正式推出PyTorch深度学习框架的最新版本——Torch-MUSA v2.7.0扩展库,这次更新在功能集成、运行效率与硬件适配方面均有显著提升。

值得一提的是,短短一个月内,Torch-MUSA已经接连完成了v2.5.0和v2.7.0两次版本迭代。

另一个重要变化是,从v2.5.0版本开始,Torch-MUSA的版本号与PyTorch主版本保持同步,方便开发者进行版本识别与管理。

v2.7.0版本进一步整合了muSolver、muFFT等计算加速库,使复杂计算任务的执行效率得到明显提升;

新增的统一内存设备(Unified Memory)支持UMM功能,有效优化了内存使用效率。

继续保持与最新MUSA SDK的兼容性,支持使用MUSA SDK 4.2.0至4.3.0及更高版本进行编译。

目前,Torch-MUSA专属支持的算子总数已突破1050个,系统在性能与稳定性方面均有进一步提升,为大模型训练与推理提供了更高效、更可靠的底层支持。

下一次版本升级将迭代至v2.9.0,届时将进一步完善性能表现与功能特性,持续推进基于MUSA架构的国产全功能GPU深度学习生态建设。

▼ Torch-MUSA开源地址:

https://github.com/MooreThreads/torch_musa

摩尔线程发布Torch-MUSA v2.7.0:专属算子超过1050个

v2.7.0版本主要更新内容

新增特性

▼ 动态双精度转换(Dynamic Double Cast)

用户可通过设置环境变量export TORCH_USE_MUSA_DOUBLE_CAST=1,开启Float64数据类型算子的动态转换功能,torch_musa将使用float32作为计算数据类型。

▼ 分布式检查点(Distributed Checkpoint)

支持从多个rank并行加载和保存模型,显著加速检查点的保存与加载过程。当前已支持分布式检查点的异步保存功能。

功能增强

▼ 新增Poisson、binomial、_standard_gamma、_sample_dirichlet、vdot、upsample(1d、2d、3d、with aa)、flash_attention、transformer_encoder_layer等多个实用算子,MUSA专属支持的算子总数突破1050个。

▼ 通过升级PyTorch底层支持,torch.compile与AOTInductor功能进一步增强;

▼ 默认启用TF32计算模式,提升浮点运算效率;

▼ 优化性能分析工具Kineto的稳定性,并将其适配版本升级至2.7.0;

▼ 持续优化FSDP2流水线并行策略,进一步降低内存占用。

v2.5.0版本主要更新内容

新增特性

▼ 新增muFFT与muSolver库集成,大幅扩展计算能力;

▼ 在面向边缘计算的SoC设备中支持统一内存管理,基于Arm架构的UMA(统一内存寻址)设计,实现GPU与CPU共享同一物理内存空间,显著降低模型运行过程中的内存开销,具体包括:

消除GPU端重复内存分配;

减少主机与设备间的内存拷贝;

GPU可直接访问由CPU分配器申请的内存空间。

算子扩展与性能优化

▼ 新增支持包括ilshift、irshift、replication_pad1d_bwd、angle、ctcLossTensor、ctcLossTensorBwd、logit、amin/amax/prod.dim_int、glu_bwd等多个算子;

▼ 新增基础Sparse(CSR)操作支持;

▼ 扩充量化算子支持范围;

▼ 修复torch.norm形状错误问题;

▼ 支持reduce_sum的uint8输入与int64输出;

▼ C++扩展新增支持tensor.is_musa()方法;

▼ 修复空输入下argmax/argmin的异常行为;

▼ 优化var/std、pad、convolution3d、layer_norm等操作的执行效率。

系统功能增强

▼ 开放torch.musa.mccl.version()接口;

▼ 支持getCurrentMUSABlasHandle与getCurrentMUSABlasLtHandle;

▼ 优化FSDP2流水线并行策略,降低训练内存占用。

来源:https://m.mydrivers.com/newsview/1089392.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

国产显卡最新评测出炉 性能尚不足以挑战RTX 5060
科技数码
国产显卡最新评测出炉 性能尚不足以挑战RTX 5060

近日,外媒GamesRadar的一篇评测报告,将国产显卡砺算科技LX 7G100推到了聚光灯下。报告的核心结论很明确:这款搭载12GB显存的自研显卡,在实测中表现出了令人印象深刻的流畅度,能够顺畅运行主流游戏,PC游戏库的兼容性也相当不错。然而,若要与英伟达即将推出的RTX 5060同台竞技,目前来

热心网友
05.22
Win11显卡频率过高蓝屏解决方法 降低核心频率稳定教程
系统平台
Win11显卡频率过高蓝屏解决方法 降低核心频率稳定教程

首先将显卡厂商控制面板恢复至默认频率,随后利用MSI Afterburner清除所有超频配置,接着进入BIOS关闭PCIe Gen5与Resizable BAR功能,再禁用Windows系统中的GPU动态加速服务,最后通过nvidia-smi等命令行工具强制设定显卡最高频率上限。 当Windows

热心网友
05.18
如何正确搭配电源与显卡避免性能瓶颈
科技数码
如何正确搭配电源与显卡避免性能瓶颈

近期许多用户反馈,显卡在高负载运行时突然黑屏,风扇转速飙升至最高,但电脑主机并未关机。这种情况是否意味着显卡即将损坏?先别急于下结论,问题的根源往往并非显卡本身,而可能隐藏在供电链路中——例如电源或那几根看似普通的电源线。本文将深入解析如何判断你的电源与显卡是否真正“匹配”。 上图所示的电压数据是本

热心网友
05.17
AMD Radeon RX 9050 8GB显卡发布计划曝光
科技数码
AMD Radeon RX 9050 8GB显卡发布计划曝光

显卡市场近期再度引发关注。据外媒VideoCardz披露的AIB合作伙伴信息,AMD正筹备在桌面平台推出一款基于全新“RDNA 4”架构的显卡,其市场定位将低于当前已上市的同代产品,型号或命名为Radeon RX 9050 8GB。 根据泄露的规格参数,这款显卡预计采用“Navi 44”核心,搭载完

热心网友
05.17
AMD Radeon RX 9050 8GB显卡即将发布
科技数码
AMD Radeon RX 9050 8GB显卡即将发布

关于AMD下一代RDNA 4架构显卡的最新消息,近期在硬件爱好者社区引发了广泛关注。据知名外媒VideoCardz独家披露,其从AIB核心合作伙伴处获得的信息表明,AMD正计划推出一款面向主流入门级市场的桌面显卡新品,其最终命名或将为Radeon RX 9050 8GB。若此传闻得到证实,该产品将成

热心网友
05.17

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

菩提苦海万事知任务全流程攻略
游戏攻略
菩提苦海万事知任务全流程攻略

在《燕云十六声》中领悟“菩提苦海”,需沉浸探索游戏世界。主线剧情构建认知框架,战斗观察、场景细节与NPC对话皆暗藏线索。通过多元视角拼凑因果,方能深入理解游戏蕴含的宏大叙事与深邃魅力。

热心网友
05.23
海信618电视销量夺冠 Mini LED技术加速普及
业界动态
海信618电视销量夺冠 Mini LED技术加速普及

2026年618大促的序幕刚刚拉开,初期战报已经透露出一些耐人寻味的信号。截至5月21日,海信电视在京东平板电视累计销售竞速榜上拔得头筹,其RGB-Mini LED爆款王——海信小墨E5S Pro,更是同时拿下了天猫平板电视和抖音大家电的5 20单品销冠。 这并非偶然。奥维云网的全渠道监测数据给出了

热心网友
05.23
极氪800kW液冷超充桩上线 峰值电流800A充电更快
业界动态
极氪800kW液冷超充桩上线 峰值电流800A充电更快

充电桩领域的“军备竞赛”再次迎来重磅升级。5月22日,极氪汽车正式发布了其全新一代液冷超级充电桩,将单枪峰值功率一举提升至行业领先的800kW,标志着超充技术迈入新阶段。 根据官方披露的核心信息,这款超充桩主要具备四大优势:极速补能、高效节能、广泛适配与多重安全。具体而言,其单枪峰值电流高达800A

热心网友
05.23
红色沙漠电弧机剑获取攻略与详细步骤解析
游戏攻略
红色沙漠电弧机剑获取攻略与详细步骤解析

获取电弧机剑主要有五种途径:推进主线任务以解锁线索;探索遗迹、工厂等特定区域;挑战特定副本与Boss;完成提及传说武器或遗物的支线任务;参与限时活动并达成要求。玩家可根据偏好选择或组合多种方式获取该武器。

热心网友
05.23
小米汽车试驾活动重启 预约即送1比64合金车模
业界动态
小米汽车试驾活动重启 预约即送1比64合金车模

小米汽车再次为潜在车主带来惊喜福利!即日起至5月31日,用户只需提前完成预约,并到店参与任意车型的试驾体验,即可免费获赠一款1:64精致合金车模。车模款式与颜色随机发放,为试驾过程增添一份专属的收藏乐趣,诚意十足。 参与本次活动需注意以下细则:试驾必须通过官方渠道提前预约;各授权门店的车模备货数量不

热心网友
05.23