阿里通义千问Qwen3.5多模态大模型开源发布

首页

AI资讯

热心网友

转载

2026-05-24

Qwen3.5是什么

大模型领域的竞争，正从单纯的参数规模竞赛，转向对效率、成本和通用性的综合考量。在这个背景下，阿里巴巴通义千问团队推出的Qwen3.5，可以说是一次极具代表性的技术跃迁。

简单来说，Qwen3.5是新一代原生多模态大模型。它的首发开源版本Qwen3.5-397B-A17B，采用了一种创新的混合架构，巧妙地将线性注意力（Gated Delta Networks）与稀疏混合专家（MoE）技术结合了起来。这套组合拳的效果非常显著：模型总参数高达3970亿，但每次推理时仅激活170亿参数。这种“四两拨千斤”的设计，让它实现了“以小胜大”——性能上超越了万亿参数的Qwen3-Max，同时部署所需的显存降低了60%，推理吞吐量最高提升了惊人的19倍。

作为原生视觉-语言模型，它通过早期文本-视觉融合技术，以及M-RoPE、3D位置编码等创新，能够统一处理文本、图像、视频等多种任务。语言支持也从119种大幅扩展至201种，覆盖面更广。

性能表现如何？数据最有说服力。在多项权威评测中，Qwen3.5的成绩相当亮眼：MMLU-Pro得分87.8，超越了GPT-5.2；GPQA得分88.4，高于Claude 4.5；IFBench指令遵循评分更是达到了76.5，刷新了历史纪录。更关键的是，它的API定价极具竞争力，每百万Token仅需0.8元，这个价格仅为Gemini 3 Pro的1/18。对于开发者而言，可以通过魔搭社区、HuggingFace或阿里云百炼平台获取模型权重与接口。

除了这个“大块头”，阿里千问还同步推出了更小尺寸的Qwen3.5系列模型，包括0.8B、2B、4B和9B等版本。全系基于统一的Qwen3.5基座，采用Apache 2.0协议开源且可商用，支持LoRA或全量微调。这意味着，用消费级显卡就能启动任务适配，大大降低了在垂直场景中落地的成本和门槛。其中，0.8B和2B版本非常适合移动设备和IoT边缘部署；4B版本定位为轻量级智能体基座；而9B版本的性能，据称已可媲美一些120B级别的开源模型。

Qwen3.5的主要功能

那么，这个模型具体能做什么？它的能力矩阵覆盖得相当全面：

原生多模态理解：不再是简单的文本模型外设视觉模块，而是从底层统一处理文本、图像、视频，通过早期视觉-语言融合实现真正的跨模态推理。
智能体能力：支持工具调用、任务规划与自主执行，在BFCL-V4等智能体专项评测中表现优异，具备了成为“数字员工”的潜力。
高效推理架构：前面提到的Gated DeltaNet与MoE混合设计是核心，让397B参数的“巨兽”每次只需“唤醒”17B参数就能工作，实现了顶级性能与高效成本的平衡。
长上下文处理：最高支持1M（百万级）的上下文长度。在256K场景下，解码吞吐量能达到前代模型的19倍，处理长文档、长视频不再是瓶颈。
多语言支持：覆盖201种语言与方言，词表扩展至25万，编码效率提升了10%到60%，为全球化应用扫清了语言障碍。
代码生成：具备强大的编程能力，支持多种语言的代码编写、调试，甚至能参与复杂项目的开发工作。
视觉识别：不仅能看懂图片，还能进行细粒度图像理解、目标检测、OCR文档解析与空间关系推理，视觉能力更加深入。
搜索增强：集成了BrowseComp等搜索智能体能力，可以实现联网信息检索与整合，让模型的知识获取能力突破训练数据的时间限制。

Qwen3.5的技术原理

这些强大功能的背后，是一系列扎实的技术创新作为支撑：

混合注意力架构：融合了Gated DeltaNet线性注意力与Gated Attention稀疏注意力，让模型能够自适应地分配计算资源，该省则省，该花则花。
MoE稀疏激活：这是实现高效推理的关键。总参数397B，但每次只激活17B（约4.3%）。其结构包含1个共享专家和512个路由专家，每次推理仅激活其中的10个，大幅降低了计算成本。
门控机制优化：采用head-specific sigmoid门控替代了传统的softmax注意力，这项优化因其显著的效果，获得了2025年NeurIPS的最佳论文奖。
原生多模态融合：利用M-RoPE和3D位置编码技术，将图像、视频的时空信息原生地嵌入到大语言模型中，实现了视觉与语言在早期阶段的深度融合，而非后期拼接。
异构训练框架：视觉与语言组件采用解耦并行策略，结合稀疏激活实现了跨模块的计算重叠，使得多模态训练吞吐量接近纯文本基线，解决了训练效率的难题。
FP8混合精度：原生支持FP8流水线，对激活值、MoE路由与通用矩阵乘法采用低精度处理，仅在敏感层保持BF16精度，使得训练显存需求降低50%以上。
异步强化学习：构建了一个可扩展的异步强化学习框架，能够支持全尺寸模型的RLHF训练，实现了训练与推理的分离以及动态负载均衡，端到端加速达到3-5倍。

Qwen3.5的项目地址

对于想要深入研究或直接使用的开发者和研究者，可以访问以下官方渠道获取资源：

Hugging Face模型库：https://huggingface.co/collections/Qwen/qwen35
GitHub仓库：https://github.com/QwenLM/Qwen3.5

如何使用Qwen3.5

无论你是普通用户、开发者还是企业，都有多种方式可以体验和利用Qwen3.5：

网页端体验：最直接的方式是访问Qwen Chat官网，或者下载千问APP/PC客户端，直接输入文字或上传图片、视频进行多模态交互。
API调用：通过阿里云百炼平台获取API密钥，就能以每百万Token 0.8元的极低成本，将模型能力集成到自己的应用或服务中。
本地部署：从HuggingFace或魔搭社区下载开源权重Qwen3.5-397B-A17B及其小尺寸版本，在本地或私有云环境进行部署，满足数据安全和定制化需求。
智能体开发：利用模型原生的智能体能力，结合其工具调用接口，可以开发自动化任务执行、数据分析、智能决策等高级应用。
多语言应用：直接使用201种支持语言中的任意一种进行对话，无需额外配置翻译模块，非常适合开发全球化产品。
长文档处理：上传超长文本、PDF或视频文件，模型能自动处理最高1M上下文的复杂推理任务，如长篇报告分析、会议纪要总结等。

Qwen3.5的模型定价

成本始终是技术落地的重要考量。Qwen3.5在定价策略上展现了强大的竞争力：

输入价格：通过API调用，每百万Token仅需0.8元，这无疑是全球顶级大模型中最低的价位之一。
价格对比：这个价格仅为Gemini 3 Pro的1/18，GPT-5.2的1/15，性价比优势非常显著。
开源免费：最重要的是，Qwen3.5-397B-A17B及其系列小模型的权重完全开源，开发者可以免费下载并进行本地部署，这极大地降低了研究和商业化的初始门槛。