Qwen3.5全系列技术解析：旗舰到端侧架构实践

时间：2026-06-23 15:32

阿里巴巴分两波开源Qwen3 5全系列，涵盖397B旗舰与0 8B至9B端侧模型。采用MoE稀疏激活架构，128个专家每次仅激活170亿参数，训练成本降低90%。混合注意力机制将部分层复杂度降至O(n)，32K上下文解码吞吐量提升8 6倍。原生多模态采用EarlyFusion策略，后训练借助异步强化学习框架提升Agent能力。

先说几个关键点：阿里巴巴在一个月内，分两波将 Qwen3.5 整个系列全面开源。除夕夜率先发布了 397B 参数的旗舰版与中等规模模型；紧接着在 3 月 3 日，又补全了从 0.8B 到 9B 的四款端侧模型。两批模型共享同一套 MoE 架构基因，但落脚点截然不同——一个服务于云端业务场景，另一个则专攻端侧设备，战略意图非常明确。

Qwen3.5全系列技术解析：从除夕旗舰到端侧落地的架构实践

在架构层面，采用了稀疏激活机制与混合注意力架构的结合方案。Qwen3.5-Plus 总参数量达到 3970 亿，但每次推理仅激活 170 亿参数。模型内部部署了 128 个“专家”网络，通过 Top-4 路由机制，每个 token 只调用最相关的四个专家进行处理。这种设计的直观优势在于：训练成本降低 90%，显存占用减少 60%，而知识存储能力足以与万亿参数的稠密模型一较高下。

注意力机制方面的混合部署也是一大亮点。传统 Transformer 的 softmax 注意力复杂度为 O(n²)，在处理长文本时极易成为性能瓶颈。Qwen3.5 在 60 层网络中引入了名为 Gated DeltaNet 的门控线性注意力变体，将部分层的复杂度降至 O(n)，而关键层则保留 softmax 注意力以保障精度。实际效果非常显著：在 32K 上下文长度下，解码吞吐量相比 Qwen3-Max 提升了 8.6 倍；当上下文延长至 256K 时，这一数字更达到了 19 倍。

训练基础设施的工程优化

为了支撑原生的多模态训练，底层基础设施也必须进行重构。视觉与语言组件采用了解耦的并行计算策略，在混合处理文本、图像、视频数据时实现计算重叠，从而让多模态训练的吞吐量几乎与纯文本基线持平。

在后训练阶段，团队使用了可扩展的异步强化学习框架。训推分离的架构支持百万级 Agent 环境的交互，再结合投机采样、Rollout 路由回放等技术，端到端训练速度提升了 3 到 5 倍。官方数据也证实了这一点：随着 RL 环境规模不断扩展，模型在通用 Agent 能力上的增益越发明显。这种“授人以渔”的训练思路，使其在 Tool-Decathlon、MCP-Mark 等工具调用基准测试中表现格外突出。

原生多模态的技术实现

与那些后期才拼接视觉模块的方案不同，Qwen3.5 从预训练阶段就开始将文本、图像、视频 token 统一处理——即采用 Early Fusion 策略。视觉端使用了 SigLIP-2 编码器，并搭配窗口注意力机制以降低计算开销；通过 DeepStack 机制，视觉特征能够直接注入语言模型的多个中间层，而非仅在输入层简单过场。

词表也进行了扩展，从上一代的 15 万 token 增加到 25 万 token，覆盖语言从 119 种扩展到 201 种，其中包含不少小语种和方言。小语种的编码效率提升了 10% 到 60%。这意味着在处理古籍或小语种文档时，token 化后的序列长度更短，推理成本自然也更低。

全系列部署路径

除夕那波发布，主要面向云端与私有化部署场景：

397B-A17B（Plus）：旗舰版，支持 256K 上下文，适合高并发 API 服务
122B-A10B：性价比之选，支持 32K 到 256K 上下文窗口
35B-A3B：仅激活 30 亿参数，显存需求与 9B 模型相当，但性能接近 GPT-4o-mini

3 月 3 号放出的那批轻量级模型，则瞄准了端侧应用场景：

9B：Dense 架构，16GB 显存即可运行，是中小企业私有化部署的理想选择
4B/2B/0.8B：INT4 量化后仅需 1 到 2 GB 显存，手机、IoT 设备、边缘计算场景均可应对

Agent能力的系统集成

在 Agent 基准测试中，Qwen3.5 的数据同样亮眼：GPQA Diamond（研究生级别推理）获得 88.7 分，IFBench（指令遵循准确率）达到 76.5 分，超越了所有对比模型。其关键在于原生多模态能力——模型可以直接识别手机或电脑屏幕上的 UI 元素，并执行点击、滑动、输入等操作，无需将图像转换为文本，从而省去了一个中间步骤，显著提升了效率与可靠性。

官方技术报告也指出，相比 Qwen3 系列，Qwen3.5 后训练性能的提升主要得益于强化学习环境与任务的全面扩展。团队不再紧盯单个特定指标，而是更加注重 RL 环境的难度与可泛化性，这使得模型在多步骤任务规划和工具调用方面具备了更强的鲁棒性。

工程化落地的信号

分阶段开源这一动作，本身就体现了阿里在技术生态方面的布局。除夕夜先用旗舰模型证明稀疏架构能够超越万亿参数稠密模型，再用 3 月份的小模型抢占端侧市场。对开发者而言，这意味着从 0.8B 到 397B 的模型可以无缝切换，同一套代码库既能在手机上运行，也能在 A100 集群上部署。

当 35B-A3B 模型仅使用 8.6% 的激活参数，就超越了 235B 稠密模型的性能时，行业竞争的焦点已从“参数规模”转向了“架构效率”。在算力成本压力日益增大的背景下，这种稀疏激活、混合注意力、原生多模态的技术路径，正在重新定义模型从实验室走向生产环境的迁移标准。

来源：https://cloud.tencent.com.cn/developer/article/2695000

Qwen

上一篇图文理解幻觉问题如何降低错误描述率 下一篇年实测：高口碑客户沟通语音转写神器

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

AI教程 · 2026-06-29

Windows Docker Desktop RabbitMQ生产级部署完整指南

前言在 Windows 本地开发环境中，直接安装 RabbitMQ 确实颇为周折：需要单独配置 Erlang 运行环境、手动管理环境变量、服务启停全凭手工操作。更令人困扰的是，版本兼容冲突、端口占用、环境不一致等问题层出不穷。笔者见过不少开发者为搭建环境就得耗费整整半天时间。相比之下，借助 Do

AI教程 · 2026-06-29

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践

先分享一个切实感受。过去两年，我们与福建制造企业合作较为频繁，发现一个非常突出的现象：超过80%的企业官网，产品参数仍然存放在PDF或图片中。AI爬虫？根本无法抓取。这些企业技术实力不弱、资质证照齐全、应用案例也丰富，但在AI搜索这一全新战场上，它们几乎处于隐身状态。一、一个正在发生的行业变化 A

AI教程 · 2026-06-29

阿里云Token Plan团队版功能价格与省钱购买指南

阿里云百炼近期推出了名为“Token Plan 团队版”的全新服务，这一服务专为企业与开发者量身打造，定位为AI大模型订阅平台。通过引入Credits作为统一计量单位，将文本生成、图像生成等多模态AI能力纳入单一计费体系，同时无缝兼容主流AI编程工具及智能体（Agent）生态系统。其核心亮点包括：全

AI教程 · 2026-06-29

阿里云物联网.NET Core客户端位置信息上报

阿里云物联网平台的位置服务并非一个完全独立的功能模块。位置信息可包含二维坐标与三维坐标，而位置数据的来源本质上是借助设备属性进行上传。换言之，若要让设备上报位置，您需先将其视为一个普通属性进行处理。 1）添加二维位置数据操作过程十分简洁。进入数据分析 → 空间数据可视化 → 二维数据，点击添加，将

AI教程 · 2026-06-29

年阿里云服务器选型配置与网站部署全攻略

2026年，阿里云服务器生态已高度成熟，形成了清晰的轻量应用服务器与ECS云服务器两大产品阵营。无论你是计划搭建个人博客、企业官网，还是运营电商平台、进行应用开发，基本都能找到理想的解决方案。本指南将从服务器选型、配置选择、部署流程到安全运维，系统梳理2026年最实用的操作要点，帮助你少走弯路，让网