Torch-MUSA v2.7.0发布：1050+专属算子提速摩尔线程

首页/科技数码/文章详情

Torch-MUSA v2.7.0发布：1050+专属算子提速摩尔线程

时间：2025-11-29 11:37

11月28日消息，摩尔线程正式发布了PyTorch深度学习框架的最新版MUSA扩展库——Torch-MUSA v2 7 0，在功能集成、性能优化、硬件支持上都实现了进一步突破。值得一提的是，在短短一

11月28日，摩尔线程正式推出了PyTorch深度学习框架的最新MUSA扩展库——Torch-MUSA v2.7.0。该版本在功能集成、性能优化和硬件支持方面都实现了显著突破。

值得关注的是，在短短一个月内，Torch-MUSA就连续发布了v2.5.0和v2.7.0两个重要版本，更新频率令人印象深刻。

另一个重大变化是，自v2.5.0版本开始，Torch-MUSA的版本号与PyTorch主版本保持同步。这一调整让开发者能够更直观地进行版本识别与管理。

v2.7.0版本进一步集成了muSolver、muFFT等计算加速库，显著提升了复杂计算任务的执行效率；

新增支持统一内存设备（Unified Memory）的UMM功能，有效优化了内存使用效能。

该版本继续保持与最新MUSA SDK的兼容性，支持使用MUSA SDK 4.2.0至4.3.0及更高版本进行编译。

目前，Torch-MUSA专属支持的算子总数已突破1050个，系统在性能与稳定性方面均实现进一步提升，为大模型训练与推理提供了更高效、更可靠的底层支撑。

下一次版本升级将是v2.9.0，将重点优化性能与功能，持续构建和完善基于MUSA架构的国产全功能GPU深度学习生态。

▼ Torch-MUSA开源地址：

https://github.com/MooreThreads/torch_musa

摩尔线程发布Torch-MUSA v2.7.0：专属算子超过1050个

v2.7.0版本主要更新内容

新增特性

▼ 动态双精度转换（Dynamic Double Cast）

用户可通过设置环境变量export TORCH_USE_MUSA_DOUBLE_CAST=1，开启Float64数据类型算子的动态转换功能。启用后，torch_musa将使用float32作为计算数据类型，在保证精度的同时提升运算效率。

▼ 分布式检查点（Distributed Checkpoint）

支持从多个rank并行加载和保存模型，显著加速检查点的保存与加载过程。目前该功能已支持分布式检查点的异步保存。

功能增强

▼ 新增Poisson、binomial、_standard_gamma、_sample_dirichlet、vdot、upsample（1d、2d、3d、with aa）、flash_attention、transformer_encoder_layer等多个实用算子，使得MUSA专属支持的算子总数突破1050个。

▼ 通过升级PyTorch底层支持，torch.compile与AOTInductor功能进一步增强；

▼ 默认启用TF32计算模式，有效提升浮点运算效率；

▼ 优化性能分析工具Kineto的稳定性，并将其适配版本升级至2.7.0；

▼ 继续优化FSDP2流水线并行策略，进一步降低内存占用。

v2.5.0版本主要更新内容

新增特性

▼ 新增muFFT与muSolver库集成，大幅扩展计算能力；

▼ 在面向边缘计算的SoC设备中支持统一内存管理。基于Arm架构的UMA（统一内存寻址）设计，实现了GPU与CPU共享同一物理内存空间，显著降低模型运行过程中的内存开销，具体包括：

消除GPU端重复内存分配；

减少主机与设备间的内存拷贝；

GPU可直接访问由CPU分配器申请的内存空间。

算子扩展与性能优化

▼ 新增支持包括ilshift、irshift、replication_pad1d_bwd、angle、ctcLossTensor、ctcLossTensorBwd、logit、amin/amax/prod.dim_int、glu_bwd等多个算子；

▼ 新增基础Sparse（CSR）操作支持；

▼ 扩充量化算子支持范围；

▼ 修复torch.norm形状错误问题；

▼ 支持reduce_sum的uint8输入与int64输出；

▼ C++扩展新增支持tensor.is_musa()方法；

▼ 修复空输入下argmax/argmin的异常行为；

▼ 优化var/std、pad、convolution3d、layer_norm等操作的执行效率。

系统功能增强

▼ 开放torch.musa.mccl.version()接口；

▼ 支持getCurrentMUSABlasHandle与getCurrentMUSABlasLtHandle；

▼ 优化FSDP2流水线并行策略，降低训练内存占用。

来源：https://news.mydrivers.com/1/1089/1089392.htm

显卡 MUSA

上一篇茅台新董事长首秀：称股东为家人、点赞理性尽责 下一篇Windows用户渴求AI功能，微软新方案为何引发争议？

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-02

LiblibAI云端WebUI降低AI绘画部署门槛

LiblibAI在线WebUI的核心优势在于——只需通过浏览器即可流畅运行Stable Diffusion，无需自行搭建本地环境。云端直接处理运算，模型即选即试，大幅降低了AI绘画的创作门槛。对于轻量创作和模型快速测试来说，体验相当顺畅，但用户仍需重视数据隐私保护和版权合规等问题。过去使用Stab

科技数码 · 2026-07-02

微软因用户不安叫停Edge浏览器AI历史搜索功能

微软紧急暂停Edge浏览器AI历史搜索功能，该功能因被用户吐槽“令人不安”而暂缓部署。尽管微软强调所有AI处理在设备端完成且数据不上传云端，但用户仍不信任。此举与WindowsK2计划减少功能堆砌的理念一致。

科技数码 · 2026-07-02

红魔游戏平板5 Pro发布 4999元起售将登陆全球市场

【CNMO科技消息】近日，红魔游戏平板5 Pro正式发布。这款平板从定位上就明确瞄准“极致游戏”体验，外观方面带来了一个重磅亮点——首次引入RGB水冷散热系统，背部那条可视化的水路通道，配合纯平透明背板设计，核心配置信息一览无余，科技感十足。图源网络屏幕方面同样表现突出。一块9 06英寸OLED

科技数码 · 2026-07-02

杭州全国首所机器人学校首批30台机器人入学

30台机器人整齐列队，有的刚从生产线卸下，机械零件还带着崭新的“工业气息”；有的已搭载运动控制模块，能稳健地小跑、跳跃几下。它们来自不同制造工厂，外形与功能各有千秋，但此刻都拥有了同一个身份——杭州机器人学校的第一批入学新生。 6月30日，杭州经信正式发布：由浙江大学机器人研究院、浙江省质量科学研究

科技数码 · 2026-07-02

美国计划发射航天器托举天文卫星

就在最近，NASA公布了一项非常果断的干预计划——他们定于6月30日实施一次“卫星维修任务”，派遣一台名为“连接”号的机器人服务卫星，为一颗超期服役的天文卫星延长运行寿命。这颗卫星是“尼尔·格雷尔斯·斯威夫特天文台”，其轨道高度正在不断衰减，如果不进行干预，今年年底前很可能会坠入地球大气层并烧毁。