GLM-5.1 获全球开源模型最佳性能全新基准权威发布

时间：2026-05-13 07:35

5月12日，全球权威AI评测机构Artificial Analysis正式推出了一项创新的基准测试——Coding Agent Index（编程智能体指数）。这项测试的独特之处在于，它不再孤立地评估大模型的“理论”编码能力，而是聚焦于更贴近实际开发的场景：系统性地衡量“Agent harnesses

5月12日，全球权威AI评测机构Artificial Analysis正式推出了一项创新的基准测试——Coding Agent Index（编程智能体指数）。这项测试的独特之处在于，它不再孤立地评估大模型的“理论”编码能力，而是聚焦于更贴近实际开发的场景：系统性地衡量“Agent harnesses”（即智能体开发框架与工具链）与具体大模型的组合，在应对真实世界复杂编程任务时的综合实战效能。

该评测全面覆盖了SWE-Bench-Pro-Hard-AA、Terminal-Benchv2以及SWE-Atlas-QnA等多个业界公认的高难度编程基准。最终测试结果清晰地揭示了当前格局：在闭源模型阵营中，Opus4.7（在CursorCLI环境中运行）表现最佳，位列榜首；而在开源模型领域，GLM-5.1（在ClaudeCode工具链中运行）的表现尤为突出，成功斩获开源第一的优异成绩。

Artificial Analysis发布全新基准：GLM-5.1取得全球开源SOTA

这一评测结果传递出一个明确的信号：在贴近真实软件开发流程的编程智能体（Coding Agent）竞技场上，GLM-5.1所展现出的综合问题解决能力，已经代表了当前国产大模型在开源领域所能达到的顶尖水平（SOTA）。换言之，当将模型置于具体的开发工具链和实际任务环境中进行“实战”考核时，国产AI力量同样能够交出达到世界领先水平的答卷。这对于评估大模型在实际开发中的可用性与效率而言，或许比单纯的学术基准分数更具参考价值。

来源：https://www.163.com/dy/article/KSOPHSJH0514R9P4.html

SOTA