
2026年5月26日凌晨,全球权威第三方编程能力评测平台Code Arena公布了最新排名。阿里最新推出的旗舰大模型Qwen3.7-Max,凭借1541分的成绩斩获全球第二——在全部参评模型中仅次于Claude系列,同时超越了GPT-5.5、Gemini-3.5-Flash、GLM-5.1和Kimi-K2.6等国际主流模型。这标志着千问3.7已正式迈入全球编程大模型的第一梯队,成为国产大模型在AI编程领域的重要里程碑。
编程能力的强弱,正逐步成为衡量大模型综合智能水平的核心指标。Code Arena由国际知名的第三方大模型盲测平台LMArena发起,是目前最具公信力的编程能力评估体系之一。与传统代码基准测试不同,该榜单不依赖静态代码片段生成或标准算法题求解,而是邀请一线开发者亲自命题,要求模型从零开始构建功能完整、可交互运行的Web应用程序。所有产出内容经匿名处理后,由真实用户进行两两对比投票,最终基于大规模盲测反馈生成综合排名。由于高度贴近工程实践、全程排除厂商干预,Code Arena被公认为全球AI编程能力评测中可信度最高的平台之一。
在覆盖全球开发者的多轮盲测中,Qwen3.7-Max的编程表现始终稳居前四,成功打破了此前由Claude-Opus-4.7和Claude-Opus-4.6长期主导的前四格局。更值得关注的是,它是当前榜单中唯一得分突破1540分的国产大模型,展现出强劲的竞争实力。
作为面向智能体场景深度优化的旗舰版本,Qwen3.7-Max在编程理解与生成、智能体协同、长程任务执行等关键维度上实现了系统性跃升。举例来说,原本需要专业团队耗时两周完成的复杂项目,它可以在几小时内独立完成端到端交付,显著提升了办公自动化效率和企业级生产力。在极端任务场景下,该模型可持续运行35小时,完成超过1000次工具调用,支撑高复杂度长程任务,甚至具备自我编程并持续优化芯片内核的能力。
