2025年9月24日云栖大会盛大揭幕,阿里重磅发布通义旗舰模型Qwen3-Max,其卓越性能成功超越GPT5和Claude Opus 4等国际顶尖模型,强势挺进全球前三甲。这款模型创新性地提供指令(Instruct)和推理(Thinking)两大版本选择,其预览版已在权威的Chatbot Arena排行榜上位列季军,正式版更值得期待。
Qwen3-Max作为通义千问家族的拳头产品,展现出惊人的技术实力。该模型基于36T tokens的海量预训练数据,模型参数量突破万亿大关,在编程能力和工具调用方面表现尤为突出。在国际权威的SWE-Bench Verified评测中,其Instruct版本以69.6的高分稳居第一梯队;在专注于Agent工具调用能力的Tau2-Bench测试中,更是创下74.8分的优异成绩,双双领先Claude Opus4和DeepSeek-V3.1。

特别值得关注的是Qwen3-Max的推理增强版本Qwen3-Max-Thinking-Heavy。通过创新性融合工具调用和并行推理技术,该版本在数学推理领域创造了惊人表现:在AIME 25和HMMT两大数学评测中,均实现了国内首次的满分壮举。其突破性表现源自独特的解题方式——模型能自主调用编程工具解题,辅以优化的计算资源配置,从而大幅提升解题能力。

这一突破为AI发展注入了新的信心。传统Scaling Law理论认为,持续扩展数据和参数规模是通向AGI的关键路径。在当前自然数据有限的背景下,部分学者预见到发展瓶颈。然而Qwen3-Max的卓越表现证明,通过持续优化数据质量和模型规模,依然能够实现性能飞跃。目前通义千问系列已形成覆盖0.5B至万亿级的完整产品矩阵,囊括300余款专业模型,全面满足各行业应用需求。
现在就可在通义千问QwenChat平台率先体验Qwen3-Max的强大能力,开发者也可通过阿里云百炼平台的API接口调用相关服务。
