先说几个关键点:阿里巴巴在一个月内,分两波将 Qwen3.5 整个系列全面开源。除夕夜率先发布了 397B 参数的旗舰版与中等规模模型;紧接着在 3 月 3 日,又补全了从 0.8B 到 9B 的四款端侧模型。两批模型共享同一套 MoE 架构基因,但落脚点截然不同——一个服务于云端业务场景,另一个则专攻端侧设备,战略意图非常明确。

在架构层面,采用了稀疏激活机制与混合注意力架构的结合方案。Qwen3.5-Plus 总参数量达到 3970 亿,但每次推理仅激活 170 亿参数。模型内部部署了 128 个“专家”网络,通过 Top-4 路由机制,每个 token 只调用最相关的四个专家进行处理。这种设计的直观优势在于:训练成本降低 90%,显存占用减少 60%,而知识存储能力足以与万亿参数的稠密模型一较高下。
注意力机制方面的混合部署也是一大亮点。传统 Transformer 的 softmax 注意力复杂度为 O(n²),在处理长文本时极易成为性能瓶颈。Qwen3.5 在 60 层网络中引入了名为 Gated DeltaNet 的门控线性注意力变体,将部分层的复杂度降至 O(n),而关键层则保留 softmax 注意力以保障精度。实际效果非常显著:在 32K 上下文长度下,解码吞吐量相比 Qwen3-Max 提升了 8.6 倍;当上下文延长至 256K 时,这一数字更达到了 19 倍。
训练基础设施的工程优化
为了支撑原生的多模态训练,底层基础设施也必须进行重构。视觉与语言组件采用了解耦的并行计算策略,在混合处理文本、图像、视频数据时实现计算重叠,从而让多模态训练的吞吐量几乎与纯文本基线持平。
在后训练阶段,团队使用了可扩展的异步强化学习框架。训推分离的架构支持百万级 Agent 环境的交互,再结合投机采样、Rollout 路由回放等技术,端到端训练速度提升了 3 到 5 倍。官方数据也证实了这一点:随着 RL 环境规模不断扩展,模型在通用 Agent 能力上的增益越发明显。这种“授人以渔”的训练思路,使其在 Tool-Decathlon、MCP-Mark 等工具调用基准测试中表现格外突出。
原生多模态的技术实现
与那些后期才拼接视觉模块的方案不同,Qwen3.5 从预训练阶段就开始将文本、图像、视频 token 统一处理——即采用 Early Fusion 策略。视觉端使用了 SigLIP-2 编码器,并搭配窗口注意力机制以降低计算开销;通过 DeepStack 机制,视觉特征能够直接注入语言模型的多个中间层,而非仅在输入层简单过场。
词表也进行了扩展,从上一代的 15 万 token 增加到 25 万 token,覆盖语言从 119 种扩展到 201 种,其中包含不少小语种和方言。小语种的编码效率提升了 10% 到 60%。这意味着在处理古籍或小语种文档时,token 化后的序列长度更短,推理成本自然也更低。
全系列部署路径
除夕那波发布,主要面向云端与私有化部署场景:
- 397B-A17B(Plus):旗舰版,支持 256K 上下文,适合高并发 API 服务
- 122B-A10B:性价比之选,支持 32K 到 256K 上下文窗口
- 35B-A3B:仅激活 30 亿参数,显存需求与 9B 模型相当,但性能接近 GPT-4o-mini
3 月 3 号放出的那批轻量级模型,则瞄准了端侧应用场景:
- 9B:Dense 架构,16GB 显存即可运行,是中小企业私有化部署的理想选择
- 4B/2B/0.8B:INT4 量化后仅需 1 到 2 GB 显存,手机、IoT 设备、边缘计算场景均可应对
Agent能力的系统集成
在 Agent 基准测试中,Qwen3.5 的数据同样亮眼:GPQA Diamond(研究生级别推理)获得 88.7 分,IFBench(指令遵循准确率)达到 76.5 分,超越了所有对比模型。其关键在于原生多模态能力——模型可以直接识别手机或电脑屏幕上的 UI 元素,并执行点击、滑动、输入等操作,无需将图像转换为文本,从而省去了一个中间步骤,显著提升了效率与可靠性。
官方技术报告也指出,相比 Qwen3 系列,Qwen3.5 后训练性能的提升主要得益于强化学习环境与任务的全面扩展。团队不再紧盯单个特定指标,而是更加注重 RL 环境的难度与可泛化性,这使得模型在多步骤任务规划和工具调用方面具备了更强的鲁棒性。
工程化落地的信号
分阶段开源这一动作,本身就体现了阿里在技术生态方面的布局。除夕夜先用旗舰模型证明稀疏架构能够超越万亿参数稠密模型,再用 3 月份的小模型抢占端侧市场。对开发者而言,这意味着从 0.8B 到 397B 的模型可以无缝切换,同一套代码库既能在手机上运行,也能在 A100 集群上部署。
当 35B-A3B 模型仅使用 8.6% 的激活参数,就超越了 235B 稠密模型的性能时,行业竞争的焦点已从“参数规模”转向了“架构效率”。在算力成本压力日益增大的背景下,这种稀疏激活、混合注意力、原生多模态的技术路径,正在重新定义模型从实验室走向生产环境的迁移标准。
