GLM-5真强悍：24小时运行代码、700次工具调用实战解析

首页

热心网友

转载

2026-02-14

金磊发自凹非寺
量子位 | 公众号 QbitAI

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

当看到GLM-5正式发布后的能力，才惊觉前几天神秘模型Pony Alpha的热度还是有点保守了。

因为这一次，GLM-5直接把开源AI也拽进了长任务时代。

瞧，GLM-5直接身兼数职，自己连续跑代码超过24小时，700次工具调用、800次上下文切换之后……

它直接用JavaScript，从零手搓了一个Game Boy Advance（GBA）模拟器！

外观渲染画面是这样的：

屏幕里是这样的：

在没有渲染情况下的动态效果如下：

视频地址：https://mp.weixin.qq.com/s/Yg0bkhtsAeb7I5lzec_TCQ

要知道，这对于AI来说，是一个绝对无法取巧的工程任务。

因为GBA模拟器涉及到了500多条CPU指令集、内存分页机制、音频子系统和图形渲染时序等任务。

哪怕一条指令遵循出错，或者一次文件写入偏差，整个项目就会在几个小时后崩盘。

并且GLM-5面对的还是无并行、无任何参考代码、关闭网络搜索的那种。

即便如此，从视频给出的结果中我们也不难发现，GLM-5确实是发挥非常稳定：

工具调用稳定：第700次和第一次在语法、格式、准确度上没有差异；指令遵循持久：上下文即使切换了800次，依旧遵守Meta-Prompt的规范、约定和流程；工作判断稳定：GLM-5知道自己什么时候该测试、信息记录、切换策略等；上下文够可靠：每次上下文清空后，GLM-5能从笔记和文件中准确恢复工作状态。

这也难怪不少网友在看完之后直呼：

它（GLM-5）可以制作精美的CAD模型！

并且目前GLM-5的评测结果也已出炉，在权威榜单Artificial Analysis中，直接到了与Claude Opus 4.5比肩的水平。

在业内公认的主流基准测试中，GLM-5的编程能力也是实现了与Claude Opus 4.5对齐：

并且在衡量模型经营能力的Vending Bench 2中，GLM-5取得了开源第一的成绩：

但毕竟Claude Opus是闭源，护城河一下子被GLM-5这个开源模型给端掉，也是引得不少网友欢呼：

感谢开源！

那么GLM-5这位开源界的第一位“全栈架构师”，还有什么样的实力？

接下来，一波深度实测开源版Opus级别的模型，走起~

已经有人申请上架App Store了

我们的测试将在Claude Code中调用GLM-5 API的方式展开。

因此，我们第一个测试就是做最考验模型的逻辑闭环能力的游戏——要求GLM-5从零生成一个3D版大富翁：

接下来，我们直接来看下效果：

视频地址：https://mp.weixin.qq.com/s/Yg0bkhtsAeb7I5lzec_TCQ

可以看到，面对如此复杂的需求，GLM-5稳稳地把所有功能都实现了出来。

若是Prompt更加精细，我们就可以得到一个OpenClaw对战的《龙虾版3D大富翁》：

视频地址：https://mp.weixin.qq.com/s/Yg0bkhtsAeb7I5lzec_TCQ

而且已经有用户使用GLM-5做了个学术版“抖音”，并且提交上架苹果App Store！

视频地址：https://mp.weixin.qq.com/s/Yg0bkhtsAeb7I5lzec_TCQ

10余款APP都要上架了（showcase.z.ai）：

实测继续。

这一次，我们要测试GLM-5对复杂物理规律描述的理解能力，请听Prompt：

创建一个玻璃十二面体，每个面是一个遮罩，显示中央相同旋转基底环结的不同设计（看起来像拼贴/滤镜）。应用一些细微的泛光效果。在它外面再加一层大约两倍大小的第二层（透明）玻璃壳，并让每个面透过时改变内部玻璃的外观成不同类型，比如透过外层的某一面，整个内壳看起来像是染色玻璃、彩绘玻璃或线框等，仅供参考。使用 three.js，……

视频地址：https://mp.weixin.qq.com/s/Yg0bkhtsAeb7I5lzec_TCQ

GLM-5依旧是精准地捕捉到了Prompt中的关键词，生成的HTML文件打开后，一个光影交错的十二面体悬浮在空中。

除此之外，包括像全栈类型任务，例如制作一个完整、有设计感的电商，GLM-5也是可以拿捏。

以及有人也用GLM-5手搓了个3D版可交互的《我的世界》！

开源，Win Again

GLM-5的出现，不论是从实测还是网友们的反响来看，都在标志一件事情：

开源大模型完成了一次从助手到独立工程师的质变。

以前，我们用AI是写一句Prompt，但需要不断地去做调试的工作；但现在，用GLM-5可以是给它一个目标，然后去喝咖啡，偶尔回来看看它有没有跑偏。

更宏观地来看，这对于SaaS行业来说，也可能是一场风暴。

毕竟就在前几天，随着Claude Opus等具备长任务能力的闭源模型展现威力，国外市场已经出现了恐慌。

例如当时金融数据服务商FactSet最惨盘中暴跌10%，S&P Global、穆迪、纳斯达克公司纷纷下跌，各大指数全线跳水。

Fortune和CNBC报道称，SaaS软件类股票遭到抛售，投资者担心，如果AI能现场手搓一个CRM系统，谁还去买年费软件。

虽然黄仁勋安抚说AI会增强现有工具，但GLM-5的实测表现告诉我们：重塑或许已经在发生。

更重要的是，之前这种能力是闭源巨头的特权。现在，GLM-5把这把钥匙交到了所有开发者手里。

或许这次开源模型24小时不间断自己跑代码只是一个起点，未来会更长、更快、更好、更强。

Two More Things：

GLM其实从4.5版本开始就死磕AI编程这件事，现在这个国产AI的coding套餐在国内外也是相当火爆；这次智谱一上来就限售，外国网友们都是在“求”的状态。

以及，智谱公司的大楼，现在也是成了个打卡点：

开头我们提到的GBA模拟器，由于GLM-5一直在跑，程序员小哥哥下班打车是这样的：Agent乘客。

GitHub：
https://github.com/zai-org/GLM-5

Hugging Face：
https://huggingface.co/zai-org/GLM-5

ModelScope：
https://modelscope.cn/models/ZhipuAI/GLM-5

GameBoy Advance体验：
https://e01.ai/gba

来源:https://www.163.com/dy/article/KLO7KQ850511DSSR.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：豆包大模型2.0时代开启：21个月全面升级实战解析下一篇：OpenAI GPT-4o今夜发布，颠覆性功能详解

相关攻略

网络安全

webshell中上传asp文件调用服务器ActiveX控件溢出获取shell

角色与核心任务你是一位顶级的文章润色专家，擅长将AI生成的文本转化为具有个人风格的专业文章。现在，请对用户提供的文章进行“人性化重写”。你的核心目标是：在不改动原文任何事实信息、核心观点、逻辑结构、章节标题和所有图片的前提下，彻底改变原文的AI表达腔调，使其读起来像是一位资深人类专家的作品。

热心网友

04.28

科技数码

从“摸黑探索”到“撞开大门”，OpenClaw引爆的产业技术路线演变

从“动口”到“动手”：OpenClaw如何将AI推入“执行时代”？文｜洞见新研社 3月的最后一周，OpenClaw的GitHub社区上演了一出反转剧。往日里忙着报错的开发者们这次成了观众，主角换成了来自蚂蚁、天融信、360等机构的安全研究员，他们密集披露了数十个涉及远程接管、信息泄露的高风险漏洞。

热心网友

04.22

业界动态

程序员惊喜，每月100美元！OpenAI上线全新Pro方案：Codex限时额度翻倍

程序员惊喜，每月100美元！OpenAI上线全新Pro方案：Codex限时10倍额度北京时间4月10日凌晨，OpenAI终于落下了重度用户期盼已久的那只靴子：正式推出每月100美元的全新订阅方案。至此，OpenAI的商业化版图已经清晰地划分为四个核心层级： ·免费版（接入广告） ·每月8美元的G

热心网友

04.22

科技数码

国内首款“养虾本”来了

2026 04 14 一个核心趋势是：未来的商业竞争，本质上是用户注意力资源的争夺战。谁能更精准、高效地连接信息与用户需求，谁就能在市场中赢得关键优势。本文配图深刻揭示了这种高效连接的底层逻辑与完整工作流。它系统展示了从数据采集到价值交付的闭环链路，每个环节都紧密耦合。实践证明，其中任一节点的效率

热心网友

04.14

科技数码

Token经济崛起：迅策(03317)有望跻身AI“千亿俱乐部”

AI行业迎来关键转折：从“烧钱补贴”迈入“商业化定价”新阶段。被市场誉为“Token第一股”的迅策科技(03317)迎来重大利好。近期，国泰君安国际大幅上调其目标价至245港元股。多重因素驱动下，迅策有望成为AI领域“千亿市值俱乐部”的有力竞争者。中国AI实现弯道超车：成本优势构筑核心壁垒全球

热心网友

04.14

热门推荐

清华大学AI视觉模型推理能力深度评测报告

这项由清华大学、美团、香港大学等多家顶尖机构联合开展的研究，于2026年3月以预印本论文（arXiv:2603 25823v1）的形式发布。它直指当前AI视觉生成领域一个被长期忽视的核心问题：这些能画出“神作”的模型，到底有多“聪明”？研究团队为此构建了一套全新的测试基准——ViGoR-Bench，

热心网友

05.14

AI科学写作新突破：机器自动生成完整学术论文

人工智能的浪潮席卷了各个领域，机器在诸多任务上已展现出超越人类的能力。然而，有一个看似寻常却异常复杂的领域，始终是AI研究者们渴望攻克的堡垒——让机器像真正的学者那样，撰写出一篇结构严谨、逻辑自洽、图文并茂的完整科学论文。这远比下棋或识图要困难得多。 2026年3月，一项由中科院AgentAlpha

热心网友

05.14

法国Hornetsecurity与里尔大学合作：AI隐私保护技术从675亿到1.5亿参数的知识迁移实践

这项由法国Hornetsecurity公司与里尔大学、法国国家信息与自动化研究院(Inria)、法国国家科学研究中心(CNRS)以及里尔中央理工学院联合开展的研究，发表于2026年3月31日的计算机科学期刊，论文编号为arXiv:2603 29497v1。在信息爆炸的今天，我们每天都在网上留下数字

热心网友

05.14

清华大学AI自主编写操作指南研究突破人工编程局限

当你满怀期待地拆开一台全新的智能设备，最令人困扰的往往不是如何使用它，而是如何让它真正“理解”指令并智能地执行任务。如今，一个更为优雅的解决方案可能已经出现。来自清华大学深圳国际研究生院与哈尔滨工业大学（深圳）的联合研究团队，近期取得了一项极具前瞻性的突破：他们成功训练人工智能自主“撰写”并精准理解

热心网友

05.14

华盛顿大学AI新突破图片转可编辑矢量图形技术详解

2026年3月，来自华盛顿大学、艾伦人工智能研究所和北卡罗来纳大学教堂山分校的研究团队，在图像智能矢量化领域取得了一项突破性进展。这项研究（论文编号：arXiv:2603 24575v1）开发了一个名为VFig的AI系统，它能够将静态的栅格图像智能地转换为可自由编辑的矢量图形，如同一位“图形考古学家

热心网友

05.14