
2025年9月24日,2025云栖大会今日正式开幕,阿里通义系列最新旗舰模型Qwen3-Max首次亮相,凭借卓越性能跻身全球大模型前列,整体表现超越GPT5与Claude Opus 4等国际主流模型。
Qwen3-Max分为指令版(Instruct)和推理版(Thinking)两种版本,其预览版本已在国际知名榜单Chatbot Arena中位列第三,正式版本上线后有望进一步提升排名。作为通义千问家族中规模最大、能力最强的基础模型,Qwen3-Max在训练数据和参数量方面达到新高度,预训练数据量达36T tokens,总参数规模突破万亿,具备出色的代码生成与智能体工具调用能力。
在评估大模型解决实际编程任务能力的SWE-Bench Verified测试中,Qwen3-Max的指令版本取得69.6分,位居全球领先水平;在衡量智能体工具调用表现的Tau2-Bench测试中,该模型获得74.8分,优于Claude Opus4和DeepSeek-V3.1,展现出强大的外部工具协同能力。
此外,Qwen3-Max的增强推理版本Qwen3-Max-Thinking-Heavy在复杂推理任务中表现尤为突出。通过融合工具调用与并行推理技术,该版本在AIME 25和HMMT两项高难度数学推理测试中均获得满分100分,创下国内大模型在该类评测中的最佳纪录。
这一突破得益于模型在解题过程中能够主动调用工具,例如通过编写代码辅助计算,并结合增加推理阶段的计算资源,从而显著提升解题准确率与逻辑深度。
目前,通义千问系列已完成从0.5B到超万亿参数的全尺寸覆盖,包含三百余款大模型,适用于各类应用场景。即日起,公众可通过通义千问QwenChat平台免费体验Qwen3-Max,也可通过阿里云百炼平台接入API服务,实现灵活调用与集成。
