阿里千问3.7编程能力全球第二仅次于Claude_AI热点日报

阿里千问3.7编程能力全球第二仅次于Claude

类型：热点整理2026-05-27

阿里Qwen3 7-Max在CodeArena编程榜单以1541分位列全球第二，仅次于Claude系列。该榜单通过实战PK评测，公信力强。模型专为智能体设计，在编程、长程任务等方面表现突出，能独立高效完成复杂项目，显著提升生产力，且推理成本低、生成质量高。

5月26日凌晨，全球权威的第三方编程能力盲测榜单Code Arena公布了最新排名。阿里云最新发布的旗舰模型Qwen3.7-Max以1541分的优异成绩，一举超越了GPT-5.5、Gemini-3.5-Flash、GLM-5.1、Kimi-K2.6等众多强劲对手，在全球大模型厂商中位列第二，仅次于Claude系列。这一里程碑式的成就表明，在代码生成与理解这一核心AI赛道上，千问3.7-Max已成功跻身全球顶尖行列。

图说：Code Arena最新榜单显示，阿里凭借Qwen3.7-Max位列全球第二

编程能力已成为评估大模型智能水平的关键指标。Code Arena作为知名大模型盲测平台LMArena旗下最具公信力的榜单之一，其评测机制与传统基准测试大不相同。它不考核孤立的代码片段或经典算法题，而是由真实开发者出题，要求模型从零开始构建一个完整、可交互的Web应用程序。最终，由用户对匿名模型的生成效果进行两两盲测投票，综合得出排名。这种高度贴近“实战”的评测方式，使Code Arena被广泛视为目前全球最具参考价值的AI编程能力排行榜。

经过全球开发者基于真实项目体验的盲测投票，千问3.7模型的编程能力稳居前四，打破了此前由Claude-Opus-4.7和4.6长期主导的竞争格局。尤为突出的是，Qwen3.7-Max是目前榜单中唯一突破1540分大关的国产大模型，展现了国产AI技术的强劲实力。

此次取得突破的Qwen3.7-Max，是专为智能体（Agent）场景深度优化的模型。它在代码编程、智能体协作、长程复杂任务规划与执行等核心能力上实现了显著跃升。据官方披露，该模型能在数小时内独立完成通常需要专业团队两周时间的复杂项目，实现端到端的全流程交付，这将极大推动企业级办公自动化与生产力变革。其能力边界甚至拓展至更极致的场景：可持续运行长达35小时，累计进行超1000次工具调用，以完成如自我编程优化芯片内核这类高度复杂的超长程任务。

模型发布后，迅速在全球开发者社区与业界引发热烈反响。众多独立开发者、AI创作者及企业用户第一时间在社交媒体分享了测评体验。普遍反馈认为，其“长程自主执行与复杂问题解决能力令人印象深刻”，堪称“真正能闭环完成任务的大模型智能体基座”。有AI研究机构在相同提示词下对Qwen3.7-Max、Claude-4.7与GPT-5.5进行了横向对比，结果显示千问3.7相比其上一代模型性能提升幅度最大，同时在推理成本上更具优势。在代码生成速度与输出质量这两个关键维度上，相较其他主流模型也展现出明显的竞争力。

来源：阿里云。

来源：https://www.bestblogs.dev/article/60d3d012?utm_source=rss&utm_medium=feed&utm_campaign=resources&entry=rss_article_item

Claude

延伸阅读

补充最近整理过的热点入口。

阿里千问3.7编程能力全球第二仅次于Claude

相关热点

延伸阅读