摩尔线程MTT S5000适配阿里Qwen3.5，三款新模型首发评测

2月26日消息，在开源大规模的Qwen3 5-397B-A17B之后，阿里宣布再次开源千问Qwen3 5最新三款中等规模模型：Qwen3 5-35B-A3B、Qwen3 5-122B-A10B、Qw

继大规模开源的Qwen3.5-397B-A17B模型之后，阿里在2月26日宣布，再次开源千问Qwen3.5系列最新三款中等规模模型：Qwen3.5-35B-A3B、Qwen3.5-122B-A10B以及Qwen3.5-27B。

摩尔线程第一时间做出了响应，在其旗舰级AI训推一体全功能GPU MTT S5000上，完成了对这三款新模型的全面适配工作。

此次高效适配，充分展现了摩尔线程MUSA生态系统的成熟度与完备性。

在本次Qwen3.5系列模型的适配过程中，MUSA生态赋能开发者的两大核心能力得到了有力验证：

▽ 原生MUSA C支持：

开发者可以直接使用MUSA C进行内核开发，大幅降低了从CUDA生态迁移的技术门槛；

▽ 深度兼容Triton-MUSA：

开发者能够使用熟悉的Triton语法编写高性能算子，并通过Triton-MUSA后端，在摩尔线程全功能GPU上无缝运行。

在底层技术层面，针对Qwen3.5多模态模型所采用的混合注意力机制，摩尔线程实现了原生优化。

基于muDNN计算库和MATE开源算子库，摩尔线程为混合注意力机制中的长序列处理提供了高效支撑，成功在MTT S5000上实现了该模型的高性能推理。

从GLM-5、MiniMax M2.5、Kimi K2.5到Qwen3.5系列，摩尔线程对前沿大模型的快速适配已成为常态。

第一时间！摩尔线程MTT S5000适配阿里Qwen3.5三款新模型

MTT S5000是摩尔线程专为大模型训练、推理及高性能计算设计的全功能GPU智算卡，基于第四代MUSA架构“平湖”，原生适配PyTorch、Megatron-LM、vLLM、SGLang等主流框架。

MTT S5000单卡配备高达80GB显存，显存带宽高达1.6TB/s，对比上一代MTT S4000分别提升了67%和113%，多卡间的互联带宽也达到784GB/s。

它完整支持从FP8到FP64的全精度计算，而且是国内最早原生支持FP8精度的训练GPU之一，配置了硬件级FP8 Tensor Core加速单元。

单卡FP8 AI算力最高可达1000 TFLOPS，首次达到PFLOPS级别，即每秒可进行1千万亿次计算。实测性能可以对标NVIDIA H100，尤其是在多模态大模型微调任务中，部分性能表现甚至超越H100，并开始接近最新的Blackwell架构。