全球AI编程助手领域的权威评测迎来重要升级。知名分析机构Artificial Analysis今日正式推出全新的Coding Agent基准体系——Artificial Analysis Coding Agent Index。这一全新评估框架旨在系统、客观地测评各类AI编程助手及其底层大模型在实际开发场景中的综合能力。评测体系全面覆盖SWE-Bench-Pro-Hard-AA、Terminal-Bench v2以及SWE-Atlas-QnA等多项业界公认的核心编程基准测试,为开发者选择高效编程工具提供了权威参考依据。
首轮评测结果正式公布,排名格局呈现显著特点。在闭源模型赛道中,Opus 4.7(基于Cursor CLI环境运行)表现卓越,以领先优势荣获全球综合评分第一。而在开源模型领域,GLM-5.1(在Claude Code环境中部署)展现出强劲实力,成功夺得开源AI编程助手排行榜首位,体现了其在代码生成、问题解决等方面的优异性能。

