游乐游手机版
首页/科技数码/文章详情

Torch-MUSA v2.7.0发布:1050+专属算子提速摩尔线程

时间:2025-11-29 11:37
11月28日消息,摩尔线程正式发布了PyTorch深度学习框架的最新版MUSA扩展库——Torch-MUSA v2 7 0,在功能集成、性能优化、硬件支持上都实现了进一步突破。值得一提的是,在短短一

11月28日,摩尔线程正式推出了PyTorch深度学习框架的最新MUSA扩展库——Torch-MUSA v2.7.0。该版本在功能集成、性能优化和硬件支持方面都实现了显著突破。

值得关注的是,在短短一个月内,Torch-MUSA就连续发布了v2.5.0和v2.7.0两个重要版本,更新频率令人印象深刻。

另一个重大变化是,自v2.5.0版本开始,Torch-MUSA的版本号与PyTorch主版本保持同步。这一调整让开发者能够更直观地进行版本识别与管理。

v2.7.0版本进一步集成了muSolver、muFFT等计算加速库,显著提升了复杂计算任务的执行效率;

新增支持统一内存设备(Unified Memory)的UMM功能,有效优化了内存使用效能。

该版本继续保持与最新MUSA SDK的兼容性,支持使用MUSA SDK 4.2.0至4.3.0及更高版本进行编译。

目前,Torch-MUSA专属支持的算子总数已突破1050个,系统在性能与稳定性方面均实现进一步提升,为大模型训练与推理提供了更高效、更可靠的底层支撑。

下一次版本升级将是v2.9.0,将重点优化性能与功能,持续构建和完善基于MUSA架构的国产全功能GPU深度学习生态。

▼ Torch-MUSA开源地址:

https://github.com/MooreThreads/torch_musa

摩尔线程发布Torch-MUSA v2.7.0:专属算子超过1050个

v2.7.0版本主要更新内容

新增特性

▼ 动态双精度转换(Dynamic Double Cast)

用户可通过设置环境变量export TORCH_USE_MUSA_DOUBLE_CAST=1,开启Float64数据类型算子的动态转换功能。启用后,torch_musa将使用float32作为计算数据类型,在保证精度的同时提升运算效率。

▼ 分布式检查点(Distributed Checkpoint)

支持从多个rank并行加载和保存模型,显著加速检查点的保存与加载过程。目前该功能已支持分布式检查点的异步保存。

功能增强

▼ 新增Poisson、binomial、_standard_gamma、_sample_dirichlet、vdot、upsample(1d、2d、3d、with aa)、flash_attention、transformer_encoder_layer等多个实用算子,使得MUSA专属支持的算子总数突破1050个。

▼ 通过升级PyTorch底层支持,torch.compile与AOTInductor功能进一步增强;

▼ 默认启用TF32计算模式,有效提升浮点运算效率;

▼ 优化性能分析工具Kineto的稳定性,并将其适配版本升级至2.7.0;

▼ 继续优化FSDP2流水线并行策略,进一步降低内存占用。

v2.5.0版本主要更新内容

新增特性

▼ 新增muFFT与muSolver库集成,大幅扩展计算能力;

▼ 在面向边缘计算的SoC设备中支持统一内存管理。基于Arm架构的UMA(统一内存寻址)设计,实现了GPU与CPU共享同一物理内存空间,显著降低模型运行过程中的内存开销,具体包括:

消除GPU端重复内存分配;

减少主机与设备间的内存拷贝;

GPU可直接访问由CPU分配器申请的内存空间。

算子扩展与性能优化

▼ 新增支持包括ilshift、irshift、replication_pad1d_bwd、angle、ctcLossTensor、ctcLossTensorBwd、logit、amin/amax/prod.dim_int、glu_bwd等多个算子;

▼ 新增基础Sparse(CSR)操作支持;

▼ 扩充量化算子支持范围;

▼ 修复torch.norm形状错误问题;

▼ 支持reduce_sum的uint8输入与int64输出;

▼ C++扩展新增支持tensor.is_musa()方法;

▼ 修复空输入下argmax/argmin的异常行为;

▼ 优化var/std、pad、convolution3d、layer_norm等操作的执行效率。

系统功能增强

▼ 开放torch.musa.mccl.version()接口;

▼ 支持getCurrentMUSABlasHandle与getCurrentMUSABlasLtHandle;

▼ 优化FSDP2流水线并行策略,降低训练内存占用。

来源:https://news.mydrivers.com/1/1089/1089392.htm
上一篇茅台新董事长首秀:称股东为家人、点赞理性尽责 下一篇Windows用户渴求AI功能,微软新方案为何引发争议?
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
LiblibAI云端WebUI降低AI绘画部署门槛
科技数码 · 2026-07-02

LiblibAI云端WebUI降低AI绘画部署门槛

LiblibAI在线WebUI的核心优势在于——只需通过浏览器即可流畅运行Stable Diffusion,无需自行搭建本地环境。云端直接处理运算,模型即选即试,大幅降低了AI绘画的创作门槛。对于轻量创作和模型快速测试来说,体验相当顺畅,但用户仍需重视数据隐私保护和版权合规等问题。 过去使用Stab

微软因用户不安叫停Edge浏览器AI历史搜索功能
科技数码 · 2026-07-02

微软因用户不安叫停Edge浏览器AI历史搜索功能

微软紧急暂停Edge浏览器AI历史搜索功能,该功能因被用户吐槽“令人不安”而暂缓部署。尽管微软强调所有AI处理在设备端完成且数据不上传云端,但用户仍不信任。此举与WindowsK2计划减少功能堆砌的理念一致。

红魔游戏平板5 Pro发布 4999元起售将登陆全球市场
科技数码 · 2026-07-02

红魔游戏平板5 Pro发布 4999元起售将登陆全球市场

【CNMO科技消息】近日,红魔游戏平板5 Pro正式发布。这款平板从定位上就明确瞄准“极致游戏”体验,外观方面带来了一个重磅亮点——首次引入RGB水冷散热系统,背部那条可视化的水路通道,配合纯平透明背板设计,核心配置信息一览无余,科技感十足。 图源网络 屏幕方面同样表现突出。一块9 06英寸OLED

杭州全国首所机器人学校首批30台机器人入学
科技数码 · 2026-07-02

杭州全国首所机器人学校首批30台机器人入学

30台机器人整齐列队,有的刚从生产线卸下,机械零件还带着崭新的“工业气息”;有的已搭载运动控制模块,能稳健地小跑、跳跃几下。它们来自不同制造工厂,外形与功能各有千秋,但此刻都拥有了同一个身份——杭州机器人学校的第一批入学新生。 6月30日,杭州经信正式发布:由浙江大学机器人研究院、浙江省质量科学研究

美国计划发射航天器托举天文卫星
科技数码 · 2026-07-02

美国计划发射航天器托举天文卫星

就在最近,NASA公布了一项非常果断的干预计划——他们定于6月30日实施一次“卫星维修任务”,派遣一台名为“连接”号的机器人服务卫星,为一颗超期服役的天文卫星延长运行寿命。这颗卫星是“尼尔·格雷尔斯·斯威夫特天文台”,其轨道高度正在不断衰减,如果不进行干预,今年年底前很可能会坠入地球大气层并烧毁。