Torch-MUSA v2.7.0发布:1050+专属算子提速摩尔线程
11月28日,摩尔线程正式推出了PyTorch深度学习框架的最新MUSA扩展库——Torch-MUSA v2.7.0。该版本在功能集成、性能优化和硬件支持方面都实现了显著突破。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
值得关注的是,在短短一个月内,Torch-MUSA就连续发布了v2.5.0和v2.7.0两个重要版本,更新频率令人印象深刻。
另一个重大变化是,自v2.5.0版本开始,Torch-MUSA的版本号与PyTorch主版本保持同步。这一调整让开发者能够更直观地进行版本识别与管理。
v2.7.0版本进一步集成了muSolver、muFFT等计算加速库,显著提升了复杂计算任务的执行效率;
新增支持统一内存设备(Unified Memory)的UMM功能,有效优化了内存使用效能。
该版本继续保持与最新MUSA SDK的兼容性,支持使用MUSA SDK 4.2.0至4.3.0及更高版本进行编译。
目前,Torch-MUSA专属支持的算子总数已突破1050个,系统在性能与稳定性方面均实现进一步提升,为大模型训练与推理提供了更高效、更可靠的底层支撑。
下一次版本升级将是v2.9.0,将重点优化性能与功能,持续构建和完善基于MUSA架构的国产全功能GPU深度学习生态。
▼ Torch-MUSA开源地址:
https://github.com/MooreThreads/torch_musa

v2.7.0版本主要更新内容
新增特性
▼ 动态双精度转换(Dynamic Double Cast)
用户可通过设置环境变量export TORCH_USE_MUSA_DOUBLE_CAST=1,开启Float64数据类型算子的动态转换功能。启用后,torch_musa将使用float32作为计算数据类型,在保证精度的同时提升运算效率。
▼ 分布式检查点(Distributed Checkpoint)
支持从多个rank并行加载和保存模型,显著加速检查点的保存与加载过程。目前该功能已支持分布式检查点的异步保存。
功能增强
▼ 新增Poisson、binomial、_standard_gamma、_sample_dirichlet、vdot、upsample(1d、2d、3d、with aa)、flash_attention、transformer_encoder_layer等多个实用算子,使得MUSA专属支持的算子总数突破1050个。
▼ 通过升级PyTorch底层支持,torch.compile与AOTInductor功能进一步增强;
▼ 默认启用TF32计算模式,有效提升浮点运算效率;
▼ 优化性能分析工具Kineto的稳定性,并将其适配版本升级至2.7.0;
▼ 继续优化FSDP2流水线并行策略,进一步降低内存占用。
v2.5.0版本主要更新内容
新增特性
▼ 新增muFFT与muSolver库集成,大幅扩展计算能力;
▼ 在面向边缘计算的SoC设备中支持统一内存管理。基于Arm架构的UMA(统一内存寻址)设计,实现了GPU与CPU共享同一物理内存空间,显著降低模型运行过程中的内存开销,具体包括:
消除GPU端重复内存分配;
减少主机与设备间的内存拷贝;
GPU可直接访问由CPU分配器申请的内存空间。
算子扩展与性能优化
▼ 新增支持包括ilshift、irshift、replication_pad1d_bwd、angle、ctcLossTensor、ctcLossTensorBwd、logit、amin/amax/prod.dim_int、glu_bwd等多个算子;
▼ 新增基础Sparse(CSR)操作支持;
▼ 扩充量化算子支持范围;
▼ 修复torch.norm形状错误问题;
▼ 支持reduce_sum的uint8输入与int64输出;
▼ C++扩展新增支持tensor.is_musa()方法;
▼ 修复空输入下argmax/argmin的异常行为;
▼ 优化var/std、pad、convolution3d、layer_norm等操作的执行效率。
系统功能增强
▼ 开放torch.musa.mccl.version()接口;
▼ 支持getCurrentMUSABlasHandle与getCurrentMUSABlasLtHandle;
▼ 优化FSDP2流水线并行策略,降低训练内存占用。
相关攻略
技嘉推出AORUSGeForceRTX5090Infinity显卡,主打紧凑高端设计。其采用特殊双流穿透散热系统,内置隐藏风扇可在高负载时启动增强散热。显卡出厂预超频至2730MHz,性能释放激进。外观采用金属外壳与科幻感设计,面向追求极致性能与紧凑空间的高端玩家,预计售价较高。
《007:初露锋芒》将于5月27日发布,官方公布了五档PC配置要求。最低需GTX1660或RX5700实现1080P低画质30帧;推荐RTX3060Ti或RX6700XT以上以畅享1080P中画质60帧。2K高画质需RTX4070级别显卡,4K极致画质则要求RTX4080等旗舰型号。游戏首发支持DLSS4 5,路径追踪等技术预计夏季更新。
如何在 Win11 中查看当前显卡支不支持硬件级实时解码 查询视频能力 想在 Windows 11 上流畅播放4K甚至8K视频,硬件解码是关键。但你的显卡真的在“硬扛”解码任务,还是把压力都甩给了CPU?要确认显卡对 H 264、HEVC(H 265)乃至 A V1 这些主流编码的硬件解码能力是否就
一、依据硬件类别差异化评估折旧基准 矿潮退去,硬件市场的残值表现可谓“冰火两重天”。不同品类的命运截然不同,再用一套统一的折旧模型去套,显然会得出失真的结论。显存大、算力强的显卡型号,因为搭上了AIGC这趟快车,二手价格不降反升;而另一边,一些通用型的CPU和主板,由于技术迭代放缓、需求萎缩,其贬值
Intel显卡太猛了!锐炫Pro B70开售即登顶畅销榜首 4月7日消息,Intel的锐炫Pro B70专业显卡近日在Newegg平台正式开售,定价为949 99美元,这与Intel官方公布的最新建议起售价完全一致。 令人颇感意外的是,这款显卡上架后迅速冲上了Newegg工作站显卡品类的销量榜首,开
热门专题
热门推荐
在日常工作、线上沟通或是学习过程中,截图几乎成了每个人的高频操作。面对市面上琳琅满目的截图工具,如何选择一款清晰、高效又功能趁手的软件,确实是个值得聊聊的话题。今天,我们就来盘点几款备受好评的截图应用,希望能帮你轻松应对各种截图场景。 1、截图帝:功能全面的效率助手 这款工具主打操作简便与功能实用,
对于日语学习者而言,选择合适的工具往往能让学习效果事半功倍。面对市场上琳琅满目的学习资源,一款设计科学、功能匹配的App,能够高效地帮助你从五十音图入门,逐步攻克词汇、语法乃至听说读写的各个难关。那么,目前有哪些备受好评的日语学习软件值得推荐呢?以下这几款应用,或许能成为你日语进阶之路上的得力伙伴。
近期,CGMagazine对赛睿SteelSeries推出的旗舰级游戏耳机Arctis Nova Pro OMNI进行了全面评测。这款耳机的最大亮点,无疑是其创新的OMNIplay多设备互联功能——它允许用户在多个音源设备间实现无缝切换,甚至能同步监听多个音频输入。设想一下,当你沉浸于激烈的游戏对战
探讨Cosplay的魅力,总离不开那些令人印象深刻的精彩演绎。今天为大家带来的这组作品,出自韩国知名Coser(@baby_hippo__)之手,她也被粉丝们亲切地称为“韩援大姐姐”。凭借其出众的身材条件和极具张力的形体表现,这组作品再次证明,在视觉艺术领域,完美的“身材数据”本身就是一种极具说服力
在《明日方舟:终末地》中,前瞻兑换码是玩家开荒阶段获取资源的重要途径,能有效加速前期发展,积累宝贵物资。不过,如何高效领取并使用这些福利,其中有一些实用技巧值得了解。 首先,关键在于信息获取。官方渠道始终是最可靠的信息来源,建议密切关注游戏官网公告、官方社交媒体账号以及游戏内的系统邮件。一旦有新的兑





