Qwen3.7-Max 1541分登顶国产编程大模型榜首全球第二

时间：2026-06-01 11:04

2026年5月26日凌晨，全球权威第三方编程能力评测平台Code Arena公布了最新排名。阿里最新推出的旗舰大模型Qwen3 7-Max，凭借1541分的成绩斩获全球第二——在全部参评模型中仅次于Claude系列，同时超越了GPT-5 5、Gemini-3 5-Flash、GLM-5 1和Kimi

Qwen3.7-Max以1541分登顶国产编程大模型榜首，全球排名第二

2026年5月26日凌晨，全球权威第三方编程能力评测平台Code Arena公布了最新排名。阿里最新推出的旗舰大模型Qwen3.7-Max，凭借1541分的成绩斩获全球第二——在全部参评模型中仅次于Claude系列，同时超越了GPT-5.5、Gemini-3.5-Flash、GLM-5.1和Kimi-K2.6等国际主流模型。这标志着千问3.7已正式迈入全球编程大模型的第一梯队，成为国产大模型在AI编程领域的重要里程碑。

编程能力的强弱，正逐步成为衡量大模型综合智能水平的核心指标。Code Arena由国际知名的第三方大模型盲测平台LMArena发起，是目前最具公信力的编程能力评估体系之一。与传统代码基准测试不同，该榜单不依赖静态代码片段生成或标准算法题求解，而是邀请一线开发者亲自命题，要求模型从零开始构建功能完整、可交互运行的Web应用程序。所有产出内容经匿名处理后，由真实用户进行两两对比投票，最终基于大规模盲测反馈生成综合排名。由于高度贴近工程实践、全程排除厂商干预，Code Arena被公认为全球AI编程能力评测中可信度最高的平台之一。

在覆盖全球开发者的多轮盲测中，Qwen3.7-Max的编程表现始终稳居前四，成功打破了此前由Claude-Opus-4.7和Claude-Opus-4.6长期主导的前四格局。更值得关注的是，它是当前榜单中唯一得分突破1540分的国产大模型，展现出强劲的竞争实力。

作为面向智能体场景深度优化的旗舰版本，Qwen3.7-Max在编程理解与生成、智能体协同、长程任务执行等关键维度上实现了系统性跃升。举例来说，原本需要专业团队耗时两周完成的复杂项目，它可以在几小时内独立完成端到端交付，显著提升了办公自动化效率和企业级生产力。在极端任务场景下，该模型可持续运行35小时，完成超过1000次工具调用，支撑高复杂度长程任务，甚至具备自我编程并持续优化芯片内核的能力。

来源：https://ai.zol.com.cn/1187/11876853.html

Qwen

上一篇腾讯企鹅岛总部基地建成30% 智能园区海景办公与L4级无人接驳 下一篇勇者斗恶龙7主角阿鲁斯或借换装系统参战大乱斗

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。