智谱GLM-5.1开源模型性能超越Opus4.6

时间：2026-05-28 07:31

智谱开源模型GLM-5 1在长程任务处理上取得突破，仅用14小时即将CUDAKernel性能提升数十倍，全程自主完成分析、重写与测试。该模型在SWE-benchPro基准测试中位列全球第一，能力已从代码生成升级为完整项目交付，例如一小时构建MacOS桌面环境，大幅提升工程效率。这标志着AI正从“对话者”转向“执行者”，推动软件工程生产力变革。

优化CUDA Kernel这件事，最近被AI技术结结实实地冲击了一波。

现在，只需要给AI十四个小时，它就能帮你把CUDA Kernel的性能提升，从最初的2.6倍一路推高到惊人的35.7倍。

这是什么概念？

过去，这需要资深CUDA工程师耗费数月时间，反复测试、调优，甚至推倒重来才能完成。如今，AI在你休息的间隙就能搞定。

更令人印象深刻的是，AI在这个过程中展现出了近乎专家级的“直觉”。

例如在优化初期，它尝试在现有高层框架内寻找解决方案，但很快通过自主运行测试发现性能遇到了瓶颈。随后，它做出了一个颇具洞见的决策——果断放弃高层框架，转向底层的C++进行硬核重写。

整整14个小时，整个过程完全自动化：AI自主发现瓶颈、自主切换技术栈、自主重新编译、自主完成测试。

那么，完成这一切的究竟是哪路“神仙”模型？

答案并不陌生，正是来自智谱的开源模型——GLM-5.1。

随着这种处理长程任务能力的显著提升，智谱官方也宣布了一项重要突破：其模型实力已稳居全球开源模型的领先地位。

更多的权威评测榜单也印证了这一点。

在被誉为“软件工程能力试金石”的SWE-bench Pro基准测试中，GLM-5.1刷新了全球最佳成绩，超越了Claude Opus 4.6、GPT-5.4等一系列头部模型，拿下全球第一。

甚至在海外开发者社区中，已经出现了讨论弃用Claude Max，转而采用GLM-5.1的声音。

HuggingFace的CEO也公开表示，SWE-Bench Pro中性能最强的模型已经开源了。

这一切成绩的背后，核心驱动力正是智谱AI在小时级长程任务处理能力上的突破。

给AI几个小时，一切都不一样了

当前主流的大模型，大多数仍处于“分钟级交互”的阶段。但GLM-5.1的交付单位发生了根本变化——它开始交付完整的项目。

接下来，我们通过几个实测案例，具体看看GLM-5.1的实力究竟如何。

调用工具1000轮，优化真实机器学习模型负载

第一个测试延续CUDA优化的话题。我们让GLM-5.1挑战KernelBench Level 3优化基准。该基准包含50个真实的机器学习计算负载，高度还原工业场景，考验的是端到端的完整优化能力，而非简单的单一算子调试。

在超过24小时的不间断迭代中，GLM-5.1全程自主运行，无需人类专家干预，持续完成“编译-测试-分析-重写”的闭环。最终结果是：实现了3.6倍的几何平均加速比。作为对比，torch.compile的max-autotune模式仅能达到1.49倍，差距超过一倍。

从过程来看，GLM-5.1能够自主编写定制的Triton Kernel和CUDA Kernel，运用cuBLASLt epilogue融合技术，并实施共享内存分块与CUDA Graph优化。这些策略覆盖了从高层算子融合到微架构级调优的完整技术栈，每一步都源于模型的自主决策。

这再次表明，在GPU内核优化这个传统上高度依赖专家经验的领域，AI模型已经展现出从问题分析、方案设计到迭代调优的端到端自主工作能力。

1小时从零构建MacOS桌面环境

在另一个测试中，我们向GLM-5.1提交了一份3000字的产品需求文档，核心要求是：从零开始复刻MacOS的核心UI与交互。不仅需要前端界面，还必须包含窗口管理器、Dock栏调度以及模拟的底层文件系统。

这对于一个标准的前端工程团队来说，至少需要数天时间才能打磨出原型。但GLM-5.1将时间压缩到了小时级别。

在分析完任务后，模型便开始自主编程。1小时后，在没有任何人工参与的情况下，一个功能完整的MacOS桌面环境便构建完成。

最终，经过655轮迭代，GLM-5.1将向量数据库的查询吞吐量从初次交付的3108 QPS，一路提升至21472 QPS，达到初始版本的6.9倍。

AI能独立工作多久，成了新标准

GLM-5.1此次引发广泛关注，本质上是因为它触及了AI行业的下一个核心竞争点：长程任务处理能力。

2025年3月，全球顶尖的AI安全研究机构METR提出了一个改变行业认知的新指标：任务完成时间线。这个指标的核心思想是，不再仅仅用答题准确率来衡量模型的智能程度，而是用它能独立、连续完乘人类专家级任务的时间长度来衡量。

研究显示，前沿模型能处理的独立任务时长，大约每7个月就会翻一倍。这条指数曲线被《麻省理工科技评论》称为“AI领域最重要的一张图”。红杉资本在2026年初更是直接断言：“这就是通向AGI的核心方向”，并指出2023-2024年的AI主要是“对话者”，而2026-2027年的AI将进化为能真正落地干活的“执行者”。

而GLM-5.1，是全球首个在真实工程任务中，验证了具备8小时持续自主工作能力的开源模型。它能在单次任务中，持续规划、执行、测试，遇到障碍时主动切换策略，出错后自行修复，最终交付完整的工程成果。

GLM-5.1实现这一能力，源于三个维度的系统性技术突破：

第一，更强的长程规划与目标保持能力。它能将复杂的大目标，拆解为可执行的多阶段计划，并在长达十几小时、上千个步骤的执行过程中，始终牢记最终目标。简单说，就是干到第十步，还记得第二步定下的规矩。

第二，更稳的自适应纠错与持续执行能力。它实现了代码编写、工具调用、环境调试、API对接等多个环节的稳定衔接。中途出错时，不会停滞等待人工干预，而是会自主查看错误日志、定位问题根源、修复漏洞，甚至自己编写回归测试用例来验证修复效果。

第三，更好的状态延续与上下文整合能力。面对长时间跨度、多轮反馈和百万级token的上下文信息，它能稳定追踪已完成的工作、当前所处的阶段以及下一步的核心动作，持续整合新信息，确保整个执行链路的一致性。

开源模型看中国，更得看智谱

GLM-5.1的出现，不仅是模型能力的升级，更在某种程度上改写了全球大模型行业的叙事逻辑。

长期以来，中国的开源模型常被置于“追赶者”的位置，与美国的顶尖闭源模型存在感知上的差距。GLM-5.1彻底打破了这一局面：它在权威榜单上对齐了Claude Opus 4.6，并在SWE-bench Pro等核心工程能力指标上实现了反超，使得中国开源AI在关键工程能力上与全球前沿水平并驾齐驱。

更重要的是，它的影响远超模型本身，正在重构万亿级IT服务市场的底层逻辑。

AI编程的进化路径清晰可见：从程序员的提效工具，到降低编码门槛的助手，再到能独立完成任务的初级工程师。而GLM-5.1所展现的长程任务能力，直接将AI推向了能持续工作数小时、交付完整项目的新阶段。

当AI的交付单位从“一行代码”变为“一个完整项目”时，它冲击的是整个软件工程的生产关系。原本需要一个4人团队工作一周，或一位资深工程师耗时数月的优化任务，现在AI可能在数小时内就能完成。这必将重构许多行业的人力配置与成本定价逻辑。

当然，我们无需陷入“AI将替代程序员”的焦虑。历史经验表明，技术进步淘汰的从来不是职业，而是固守旧技能的人。就像计算机的普及没有淘汰会计，只是淘汰了不会使用计算机的会计；AI的到来也不会淘汰开发者，但可能会淘汰那些无法驾驭AI的开发者。

GLM-5.1的出现，向整个行业抛出了一个核心问题：当AI已经能够自主完成长达数小时的复杂长程任务，实现从规划、执行、纠错到项目交付的全闭环时，人类的不可替代性究竟在哪里？

答案或许在于定义问题、创造价值、做出关键战略决策的能力。这些能力，目前仍然是人类暂时无法被替代的核心护城河。

对中国AI行业而言，GLM-5.1只是一个开始。当开源模型达到全球顶尖的工程水平，当AI从“对话者”全面转向“执行者”，整个行业必将迎来更为彻底和深刻的变革。

来源：https://juejin.cn/post/7626240734257430563

CUDA

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。