2月16日除夕当天,阿里巴巴正式开源了全新一代大模型Qwen3.5-Plus,其性能媲美谷歌的Gemini 3 Pro,一举登顶全球最强开源模型的宝座。
据悉,千问3.5实现了底层模型架构的全面革新。此次发布的Qwen3.5-Plus版本总参数量高达3970亿,但激活参数量仅为170亿,真正做到了“以小博大”,性能表现超越了万亿参数的Qwen3-Max模型。在部署方面,显存占用降低了整整60%,推理效率则得到大幅提升,其最大推理吞吐量惊人地提升了19倍。更值得一提的是,Qwen3.5-Plus的API价格颇具竞争力,每百万Token的成本低至0.8元,仅为Gemini 3 Pro的十八分之一。
与前几代千问大语言模型不同,千问3.5实现了从纯文本模型到原生多模态模型的关键跨越。千问3主要基于纯文本Tokens进行预训练,而千问3.5的创新之处在于,它基于视觉和文本混合的Token进行预训练,并且大幅新增了中英文、多语言、STEM学科以及推理等领域的海量数据。这使得“睁开眼睛”的大模型学会了更密集的世界知识和推理逻辑,从而得以用不到40%的参数量,就获得了超越万亿级别Qwen3-Max基座模型的顶尖性能。在推理、编程、Agent智能体等全方位的基准评估中,千问3.5均表现出色。例如,在MMLU-Pro知识推理评测中,千问3.5获得了87.8分,超越了GPT-4o;在博士级难题GPQA测评中以88.4分斩获佳绩,高于Claude 3.5 Sonnet;其指令遵循能力在IFBench基准上以76.5分刷新所有模型纪录;而在通用Agent评测BFCL-V4、搜索Agent评测Browsecomp等关键基准中,千问3.5的表现全面超越了Gemini 3 Pro以及GPT-4o。
原生多模态的训练方式,也为千问3.5带来了视觉能力的飞跃。在包括多模态推理、通用视觉问答、文本识别与文件理解、空间智能以及视频理解在内的众多权威评测体系中,千问3.5均斩获了最佳性能。在学科解题、任务规划与物理空间推理等具体任务上,千问3.5相比其专用视觉模型Qwen3-VL表现更佳,尤其在空间定位推理和带图推理方面的能力大幅增强,推理分析过程也更为细致、精准。在视频理解方面,千问3.5支持长达2小时(相当于1M以上token上下文)的视频直接输入,非常适合用于长视频内容分析与摘要生成。同时,千问3.5实现了视觉理解与代码能力的原生融合,结合图搜和生图工具,可将手绘界面草图直接转换为可用的前端代码。仅仅一张截图,就能定位并修复UI问题,让视觉编程真正成为生产力工具。
千问3.5的原生多模态训练,是在阿里云AI基础设施上高效完成的。通过一系列基础技术创新,千问3.5在处理文本、图像、视频等混合数据的训练吞吐量上,几乎达到了与纯文本基座模型训练持平的水平,这极大地降低了原生多模态训练的难度门槛。与此同时,通过设计精巧的FP8、FP32精度应用策略,当训练规模扩展至数十万亿token时,激活内存减少了约50%以上,训练速度还能提升10%以上,从而进一步节省了模型训练成本,提升了训练效率。
千问3.5也实现了从Agent框架到Agent应用的新突破。它可自主操作手机与电脑,高效完成日常任务,在移动端支持更多主流APP与指令,在PC端则能处理更复杂的多步骤操作,如跨应用数据整理、自动化流程执行等,显著提升操作效率。同时,千问团队构建了一个可扩展的Agent异步强化学习框架,端到端可加速3至5倍,并将插件式智能体Agent的支持规模扩展至百万级。
据悉,千问APP、PC端已在第一时间接入Qwen3.5-Plus模型。开发者可在魔搭社区和HuggingFace平台下载新模型,或通过阿里云百炼平台直接获取API服务。阿里巴巴将持续开源不同尺寸、不同功能的千问3.5系列模型。性能更强的旗舰模型Qwen3.5-Max也即将发布。
