智谱GLM-5.1开源模型性能超越Opus4.6
优化CUDA Kernel这件事,最近被AI技术结结实实地冲击了一波。
现在,只需要给AI十四个小时,它就能帮你把CUDA Kernel的性能提升,从最初的2.6倍一路推高到惊人的35.7倍。
这是什么概念?
过去,这需要资深CUDA工程师耗费数月时间,反复测试、调优,甚至推倒重来才能完成。如今,AI在你休息的间隙就能搞定。
更令人印象深刻的是,AI在这个过程中展现出了近乎专家级的“直觉”。
例如在优化初期,它尝试在现有高层框架内寻找解决方案,但很快通过自主运行测试发现性能遇到了瓶颈。随后,它做出了一个颇具洞见的决策——果断放弃高层框架,转向底层的C++进行硬核重写。
整整14个小时,整个过程完全自动化:AI自主发现瓶颈、自主切换技术栈、自主重新编译、自主完成测试。
那么,完成这一切的究竟是哪路“神仙”模型?
答案并不陌生,正是来自智谱的开源模型——GLM-5.1。
随着这种处理长程任务能力的显著提升,智谱官方也宣布了一项重要突破:其模型实力已稳居全球开源模型的领先地位。
更多的权威评测榜单也印证了这一点。
在被誉为“软件工程能力试金石”的SWE-bench Pro基准测试中,GLM-5.1刷新了全球最佳成绩,超越了Claude Opus 4.6、GPT-5.4等一系列头部模型,拿下全球第一。
甚至在海外开发者社区中,已经出现了讨论弃用Claude Max,转而采用GLM-5.1的声音。
HuggingFace的CEO也公开表示,SWE-Bench Pro中性能最强的模型已经开源了。
这一切成绩的背后,核心驱动力正是智谱AI在小时级长程任务处理能力上的突破。
给AI几个小时,一切都不一样了
当前主流的大模型,大多数仍处于“分钟级交互”的阶段。但GLM-5.1的交付单位发生了根本变化——它开始交付完整的项目。
接下来,我们通过几个实测案例,具体看看GLM-5.1的实力究竟如何。
调用工具1000轮,优化真实机器学习模型负载
第一个测试延续CUDA优化的话题。我们让GLM-5.1挑战KernelBench Level 3优化基准。该基准包含50个真实的机器学习计算负载,高度还原工业场景,考验的是端到端的完整优化能力,而非简单的单一算子调试。
在超过24小时的不间断迭代中,GLM-5.1全程自主运行,无需人类专家干预,持续完成“编译-测试-分析-重写”的闭环。最终结果是:实现了3.6倍的几何平均加速比。作为对比,torch.compile的max-autotune模式仅能达到1.49倍,差距超过一倍。
从过程来看,GLM-5.1能够自主编写定制的Triton Kernel和CUDA Kernel,运用cuBLASLt epilogue融合技术,并实施共享内存分块与CUDA Graph优化。这些策略覆盖了从高层算子融合到微架构级调优的完整技术栈,每一步都源于模型的自主决策。
这再次表明,在GPU内核优化这个传统上高度依赖专家经验的领域,AI模型已经展现出从问题分析、方案设计到迭代调优的端到端自主工作能力。
1小时从零构建MacOS桌面环境
在另一个测试中,我们向GLM-5.1提交了一份3000字的产品需求文档,核心要求是:从零开始复刻MacOS的核心UI与交互。不仅需要前端界面,还必须包含窗口管理器、Dock栏调度以及模拟的底层文件系统。
这对于一个标准的前端工程团队来说,至少需要数天时间才能打磨出原型。但GLM-5.1将时间压缩到了小时级别。
在分析完任务后,模型便开始自主编程。1小时后,在没有任何人工参与的情况下,一个功能完整的MacOS桌面环境便构建完成。
最终,经过655轮迭代,GLM-5.1将向量数据库的查询吞吐量从初次交付的3108 QPS,一路提升至21472 QPS,达到初始版本的6.9倍。
AI能独立工作多久,成了新标准
GLM-5.1此次引发广泛关注,本质上是因为它触及了AI行业的下一个核心竞争点:长程任务处理能力。
2025年3月,全球顶尖的AI安全研究机构METR提出了一个改变行业认知的新指标:任务完成时间线。这个指标的核心思想是,不再仅仅用答题准确率来衡量模型的智能程度,而是用它能独立、连续完乘人类专家级任务的时间长度来衡量。
研究显示,前沿模型能处理的独立任务时长,大约每7个月就会翻一倍。这条指数曲线被《麻省理工科技评论》称为“AI领域最重要的一张图”。红杉资本在2026年初更是直接断言:“这就是通向AGI的核心方向”,并指出2023-2024年的AI主要是“对话者”,而2026-2027年的AI将进化为能真正落地干活的“执行者”。
而GLM-5.1,是全球首个在真实工程任务中,验证了具备8小时持续自主工作能力的开源模型。它能在单次任务中,持续规划、执行、测试,遇到障碍时主动切换策略,出错后自行修复,最终交付完整的工程成果。
GLM-5.1实现这一能力,源于三个维度的系统性技术突破:
第一,更强的长程规划与目标保持能力。它能将复杂的大目标,拆解为可执行的多阶段计划,并在长达十几小时、上千个步骤的执行过程中,始终牢记最终目标。简单说,就是干到第十步,还记得第二步定下的规矩。
第二,更稳的自适应纠错与持续执行能力。它实现了代码编写、工具调用、环境调试、API对接等多个环节的稳定衔接。中途出错时,不会停滞等待人工干预,而是会自主查看错误日志、定位问题根源、修复漏洞,甚至自己编写回归测试用例来验证修复效果。
第三,更好的状态延续与上下文整合能力。面对长时间跨度、多轮反馈和百万级token的上下文信息,它能稳定追踪已完成的工作、当前所处的阶段以及下一步的核心动作,持续整合新信息,确保整个执行链路的一致性。
开源模型看中国,更得看智谱
GLM-5.1的出现,不仅是模型能力的升级,更在某种程度上改写了全球大模型行业的叙事逻辑。
长期以来,中国的开源模型常被置于“追赶者”的位置,与美国的顶尖闭源模型存在感知上的差距。GLM-5.1彻底打破了这一局面:它在权威榜单上对齐了Claude Opus 4.6,并在SWE-bench Pro等核心工程能力指标上实现了反超,使得中国开源AI在关键工程能力上与全球前沿水平并驾齐驱。
更重要的是,它的影响远超模型本身,正在重构万亿级IT服务市场的底层逻辑。
AI编程的进化路径清晰可见:从程序员的提效工具,到降低编码门槛的助手,再到能独立完成任务的初级工程师。而GLM-5.1所展现的长程任务能力,直接将AI推向了能持续工作数小时、交付完整项目的新阶段。
当AI的交付单位从“一行代码”变为“一个完整项目”时,它冲击的是整个软件工程的生产关系。原本需要一个4人团队工作一周,或一位资深工程师耗时数月的优化任务,现在AI可能在数小时内就能完成。这必将重构许多行业的人力配置与成本定价逻辑。
当然,我们无需陷入“AI将替代程序员”的焦虑。历史经验表明,技术进步淘汰的从来不是职业,而是固守旧技能的人。就像计算机的普及没有淘汰会计,只是淘汰了不会使用计算机的会计;AI的到来也不会淘汰开发者,但可能会淘汰那些无法驾驭AI的开发者。
GLM-5.1的出现,向整个行业抛出了一个核心问题:当AI已经能够自主完成长达数小时的复杂长程任务,实现从规划、执行、纠错到项目交付的全闭环时,人类的不可替代性究竟在哪里?
答案或许在于定义问题、创造价值、做出关键战略决策的能力。这些能力,目前仍然是人类暂时无法被替代的核心护城河。
对中国AI行业而言,GLM-5.1只是一个开始。当开源模型达到全球顶尖的工程水平,当AI从“对话者”全面转向“执行者”,整个行业必将迎来更为彻底和深刻的变革。
相关攻略
CUDA13 3版本新增了对C++编写分块内核的支持,使开发者能在现有C++GPU代码库中直接使用CUDATile编程模型。该模型基于“分块”概念,自动利用张量核心、共享内存等硬件特性,无需繁琐的底层编码。与传统SIMT模型相比,它通过声明数据分块和运算逻辑,隐藏了并行、内存移动等细节,简化了开发过程,并具备跨GPU架构的移植性。
智谱开源模型GLM-5 1在长程任务处理上取得突破,仅用14小时即将CUDAKernel性能提升数十倍,全程自主完成分析、重写与测试。该模型在SWE-benchPro基准测试中位列全球第一,能力已从代码生成升级为完整项目交付,例如一小时构建MacOS桌面环境,大幅提升工程效率。这标志着AI正从“对话者”转向“执行者”,推动软件工程生产力变革。
在人工智能与高性能计算领域,CUDA编程是释放GPU极致算力的核心技术。它要求开发者不仅精通算法逻辑,更要深刻理解GPU硬件架构与并行计算原理,掌握复杂的内存管理与性能调优技巧。作为现代AI计算的基石,其陡峭的学习门槛让众多开发者望而却步。如今,来自清华大学智能产业研究院(AIR)与字节跳动种子团队
QLoRA微调Gemma模型时CUDA设备断言失败的完整解决方案 本文详解QLoRA+PEFT微调Gemma等大模型时,因CUDA上下文未正确初始化导致的device >= 0 && device < num_gpus断言错误,提供从环境重置、配置修正到稳健训练的全流程避坑指南。 如果你正在使用QL
中国寻求突破NVIDIA CUDA护城河:一种前所未有的新方式 4月8日消息,在寻求突破NVIDIA CUDA生态壁垒的种种尝试中,有一个战略级的变通方案,其思路相当值得深入探讨。 时间拉回到不久前的SEMICON CHINA 2026全球半导体产业战略峰会。会上,中国半导体行业协会副理事长、IC设
热门专题
热门推荐
来看一组让人揪心的数字:截至5月28日,超过半数的委内瑞拉民众,选择支持经济“美元化”——他们想要用美元来对抗全球数一数二的恶性通胀。根据AtlasIntel的调研,31%的受访者明确支持美元化,另有26%的人表示强烈支持,加起来支持率高达57%;而明确反对或强烈反对的,合计只有30%。换句话说,在
游戏开局,玩家第一眼看到的主角是谁?没错,就是零。不过这里有个挺常见的误会——很多人会下意识觉得零是女主角,那是不是还有个男主角?其实不然。进入游戏之后,外观是可以自由选择的,性别、形象都由你定,男女主角本质上都是同一个人。两种造型唯一的区别就是视觉风格,至于基础属性、成长路线、技能体系,完全一致。
或许有人觉得,AI音乐生成工具不过是图个新鲜感,与专业音乐制作相距甚远。但5月28日,ElevenLabs推出的Music v2,很可能改变这一印象。这次升级版音乐生成模型,已不再停留在去年那个“新手友好”的初级阶段,而是在工作流、版权合规和落地场景上都做了充分布局。 一、核心进化:创作从“一次性生
iPhone20周年纪念款将采用四曲面屏与圆润边框设计,边框仅1 1毫米,但边缘亮度存在失真问题,苹果正与三星、LG合作解决。若无法攻克,可能沿用平面边框。该款预计2027年亮相,属于Pro系列,含双版本,并计划采用屏下前摄与FaceID。
对于技术从业者而言,面试备考始终是一个老生常谈却又不断变化的话题。时间碎片化、知识点庞杂、实战表达欠缺,每一项都可能成为关键时刻的瓶颈。有没有一种方法,能让我们把通勤、运动等零散时间充分利用起来,高效地“打磨技能”呢?今天要介绍的「播面」,或许就是一个值得关注的解题新思路。 播面是什么 简单来说,「





