游乐游手机版
首页/AI教程/文章详情

智谱GLM-5.1开源模型性能超越Opus4.6

时间:2026-05-28 07:31
智谱开源模型GLM-5 1在长程任务处理上取得突破,仅用14小时即将CUDAKernel性能提升数十倍,全程自主完成分析、重写与测试。该模型在SWE-benchPro基准测试中位列全球第一,能力已从代码生成升级为完整项目交付,例如一小时构建MacOS桌面环境,大幅提升工程效率。这标志着AI正从“对话者”转向“执行者”,推动软件工程生产力变革。

优化CUDA Kernel这件事,最近被AI技术结结实实地冲击了一波。

现在,只需要给AI十四个小时,它就能帮你把CUDA Kernel的性能提升,从最初的2.6倍一路推高到惊人的35.7倍。

这是什么概念?

过去,这需要资深CUDA工程师耗费数月时间,反复测试、调优,甚至推倒重来才能完成。如今,AI在你休息的间隙就能搞定。

更令人印象深刻的是,AI在这个过程中展现出了近乎专家级的“直觉”。

例如在优化初期,它尝试在现有高层框架内寻找解决方案,但很快通过自主运行测试发现性能遇到了瓶颈。随后,它做出了一个颇具洞见的决策——果断放弃高层框架,转向底层的C++进行硬核重写。

整整14个小时,整个过程完全自动化:AI自主发现瓶颈、自主切换技术栈、自主重新编译、自主完成测试。

那么,完成这一切的究竟是哪路“神仙”模型?

答案并不陌生,正是来自智谱的开源模型——GLM-5.1。

随着这种处理长程任务能力的显著提升,智谱官方也宣布了一项重要突破:其模型实力已稳居全球开源模型的领先地位。

更多的权威评测榜单也印证了这一点。

在被誉为“软件工程能力试金石”的SWE-bench Pro基准测试中,GLM-5.1刷新了全球最佳成绩,超越了Claude Opus 4.6、GPT-5.4等一系列头部模型,拿下全球第一。

甚至在海外开发者社区中,已经出现了讨论弃用Claude Max,转而采用GLM-5.1的声音。

HuggingFace的CEO也公开表示,SWE-Bench Pro中性能最强的模型已经开源了。

这一切成绩的背后,核心驱动力正是智谱AI在小时级长程任务处理能力上的突破。

给AI几个小时,一切都不一样了

当前主流的大模型,大多数仍处于“分钟级交互”的阶段。但GLM-5.1的交付单位发生了根本变化——它开始交付完整的项目。

接下来,我们通过几个实测案例,具体看看GLM-5.1的实力究竟如何。

调用工具1000轮,优化真实机器学习模型负载

第一个测试延续CUDA优化的话题。我们让GLM-5.1挑战KernelBench Level 3优化基准。该基准包含50个真实的机器学习计算负载,高度还原工业场景,考验的是端到端的完整优化能力,而非简单的单一算子调试。

在超过24小时的不间断迭代中,GLM-5.1全程自主运行,无需人类专家干预,持续完成“编译-测试-分析-重写”的闭环。最终结果是:实现了3.6倍的几何平均加速比。作为对比,torch.compile的max-autotune模式仅能达到1.49倍,差距超过一倍。

从过程来看,GLM-5.1能够自主编写定制的Triton Kernel和CUDA Kernel,运用cuBLASLt epilogue融合技术,并实施共享内存分块与CUDA Graph优化。这些策略覆盖了从高层算子融合到微架构级调优的完整技术栈,每一步都源于模型的自主决策。

这再次表明,在GPU内核优化这个传统上高度依赖专家经验的领域,AI模型已经展现出从问题分析、方案设计到迭代调优的端到端自主工作能力。

1小时从零构建MacOS桌面环境

在另一个测试中,我们向GLM-5.1提交了一份3000字的产品需求文档,核心要求是:从零开始复刻MacOS的核心UI与交互。不仅需要前端界面,还必须包含窗口管理器、Dock栏调度以及模拟的底层文件系统。

这对于一个标准的前端工程团队来说,至少需要数天时间才能打磨出原型。但GLM-5.1将时间压缩到了小时级别。

在分析完任务后,模型便开始自主编程。1小时后,在没有任何人工参与的情况下,一个功能完整的MacOS桌面环境便构建完成。

最终,经过655轮迭代,GLM-5.1将向量数据库的查询吞吐量从初次交付的3108 QPS,一路提升至21472 QPS,达到初始版本的6.9倍。

AI能独立工作多久,成了新标准

GLM-5.1此次引发广泛关注,本质上是因为它触及了AI行业的下一个核心竞争点:长程任务处理能力。

2025年3月,全球顶尖的AI安全研究机构METR提出了一个改变行业认知的新指标:任务完成时间线。这个指标的核心思想是,不再仅仅用答题准确率来衡量模型的智能程度,而是用它能独立、连续完乘人类专家级任务的时间长度来衡量。

研究显示,前沿模型能处理的独立任务时长,大约每7个月就会翻一倍。这条指数曲线被《麻省理工科技评论》称为“AI领域最重要的一张图”。红杉资本在2026年初更是直接断言:“这就是通向AGI的核心方向”,并指出2023-2024年的AI主要是“对话者”,而2026-2027年的AI将进化为能真正落地干活的“执行者”。

而GLM-5.1,是全球首个在真实工程任务中,验证了具备8小时持续自主工作能力的开源模型。它能在单次任务中,持续规划、执行、测试,遇到障碍时主动切换策略,出错后自行修复,最终交付完整的工程成果。

GLM-5.1实现这一能力,源于三个维度的系统性技术突破:

第一,更强的长程规划与目标保持能力。它能将复杂的大目标,拆解为可执行的多阶段计划,并在长达十几小时、上千个步骤的执行过程中,始终牢记最终目标。简单说,就是干到第十步,还记得第二步定下的规矩。

第二,更稳的自适应纠错与持续执行能力。它实现了代码编写、工具调用、环境调试、API对接等多个环节的稳定衔接。中途出错时,不会停滞等待人工干预,而是会自主查看错误日志、定位问题根源、修复漏洞,甚至自己编写回归测试用例来验证修复效果。

第三,更好的状态延续与上下文整合能力。面对长时间跨度、多轮反馈和百万级token的上下文信息,它能稳定追踪已完成的工作、当前所处的阶段以及下一步的核心动作,持续整合新信息,确保整个执行链路的一致性。

开源模型看中国,更得看智谱

GLM-5.1的出现,不仅是模型能力的升级,更在某种程度上改写了全球大模型行业的叙事逻辑。

长期以来,中国的开源模型常被置于“追赶者”的位置,与美国的顶尖闭源模型存在感知上的差距。GLM-5.1彻底打破了这一局面:它在权威榜单上对齐了Claude Opus 4.6,并在SWE-bench Pro等核心工程能力指标上实现了反超,使得中国开源AI在关键工程能力上与全球前沿水平并驾齐驱。

更重要的是,它的影响远超模型本身,正在重构万亿级IT服务市场的底层逻辑。

AI编程的进化路径清晰可见:从程序员的提效工具,到降低编码门槛的助手,再到能独立完成任务的初级工程师。而GLM-5.1所展现的长程任务能力,直接将AI推向了能持续工作数小时、交付完整项目的新阶段。

当AI的交付单位从“一行代码”变为“一个完整项目”时,它冲击的是整个软件工程的生产关系。原本需要一个4人团队工作一周,或一位资深工程师耗时数月的优化任务,现在AI可能在数小时内就能完成。这必将重构许多行业的人力配置与成本定价逻辑。

当然,我们无需陷入“AI将替代程序员”的焦虑。历史经验表明,技术进步淘汰的从来不是职业,而是固守旧技能的人。就像计算机的普及没有淘汰会计,只是淘汰了不会使用计算机的会计;AI的到来也不会淘汰开发者,但可能会淘汰那些无法驾驭AI的开发者。

GLM-5.1的出现,向整个行业抛出了一个核心问题:当AI已经能够自主完成长达数小时的复杂长程任务,实现从规划、执行、纠错到项目交付的全闭环时,人类的不可替代性究竟在哪里?

答案或许在于定义问题、创造价值、做出关键战略决策的能力。这些能力,目前仍然是人类暂时无法被替代的核心护城河。

对中国AI行业而言,GLM-5.1只是一个开始。当开源模型达到全球顶尖的工程水平,当AI从“对话者”全面转向“执行者”,整个行业必将迎来更为彻底和深刻的变革。

来源:https://juejin.cn/post/7626240734257430563
上一篇如何优化简历才能获得更多面试机会 下一篇Essaybot论文写作助手使用指南与技巧
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
GPT-5年底登场?奥尔特曼回应来了
AI教程 · 2026-07-01

GPT-5年底登场?奥尔特曼回应来了

对于公司老板到底在暗示什么东西,ChatGPT o1模型深思后表示,诗中提到的“冬夜星座”可能指的是猎户座。在北半球的冬季夜空中,猎户座的位置最为显著,最佳观测时间为每年的秋末至次年春初,大概就是11月到次年2月这段时间。(最早在晚青铜时代,就有人类观察猎户座星座的记录)今年早些时候,OpenAI在

微软Copilot插件安装全流程:浏览器与扩展市场配置
AI教程 · 2026-07-01

微软Copilot插件安装全流程:浏览器与扩展市场配置

围绕MicrosoftCopilot在浏览器、编辑器和扩展市场中的安装与配置,梳理账号准备、安装步骤、权限检查、常见故障及安全使用边界,适合新手快速完成AI办公工具部署。

Microsoft Copilot Docker 一键部署指南:镜像拉取、端口映射与数据目录配置
AI教程 · 2026-07-01

Microsoft Copilot Docker 一键部署指南:镜像拉取、端口映射与数据目录配置

围绕Copilot类AI办公工具的Docker部署流程,说明镜像选择、拉取校验、端口映射、数据目录挂载、环境变量配置、更新回滚与常见故障处理。

微软Copilot API密钥注册获取与国内网络配置
AI教程 · 2026-07-01

微软Copilot API密钥注册获取与国内网络配置

围绕MicrosoftCopilot相关接口接入流程,梳理账号准备、Azure资源创建、密钥获取、环境变量配置、国内网络连通性优化、常见报错处理与安全管理要点。

微软Copilot Linux部署:环境准备到后台运行全流程
AI教程 · 2026-07-01

微软Copilot Linux部署:环境准备到后台运行全流程

MicrosoftCopilot不适合按本地模型方式安装,Linux服务器更常见的是部署企业入口或集成服务。流程需完成账号授权、运行环境、服务配置、反向代理、进程守护与日志监控,并注意数据权限、访问控制和合规边界。