智通财经APP获悉,2月16日,阿里千问正式发布Qwen3.5模型,并推出Qwen3.5系列首款模型Qwen3.5-397B-A17B+的开放权重版本。作为原生视觉-语言模型,Qwen3.5-397B-A17B在推理、编程、智能体能力与多模态理解等全方位基准评估中表现优异。该模型采用创新的混合架构,将线性注意力与稀疏混合专家技术相结合,实现了卓越的推理效率:总参数量达3970亿,每次前向传播仅激活170亿参数,在保持模型能力的同时优化了速度与成本。语言与方言支持从119种扩展至201种,为全球用户提供更广泛的可访问性与更完善的支持。
据介绍,相较于Qwen3系列模型,Qwen3.5的后训练性能提升主要来源于对各类强化学习任务和环境的全面扩展。系统更加强调强化学习环境的难度与可泛化性,而非针对特定指标或狭窄类别的查询进行优化。
Qwen3.5通过异构基础设施实现高效的原生多模态训练:在视觉与语言组件上采用解耦并行策略,避免统一方案带来的低效问题。利用稀疏激活实现跨模块计算重叠,在混合文本-图像-视频数据上相比纯文本基线达到接近100%的训练吞吐。在此基础上,原生FP8流水线对激活、MoE路由与GEMM运算采用低精度处理,并通过运行时监控在敏感层保持BF16精度,实现约50%的激活显存降低与超过10%的加速效果,且稳定扩展至数万亿token规模。
