首页 游戏 软件 资讯 排行榜 专题
首页
AI
GLM-5实力实测:24小时自主编程,700次工具调用与800次上下文切换

GLM-5实力实测:24小时自主编程,700次工具调用与800次上下文切换

热心网友
49
转载
2026-02-12

当看到GLM-5正式发布后的能力,才惊觉前几天神秘模型Pony Alpha的热度还是有点保守了。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

因为这一次,GLM-5直接把开源AI也拽进了长任务时代。

瞧,GLM-5直接身兼数职,自己连续跑代码超过24小时,700次工具调用、800次上下文切换之后……

它直接用JavaScript,从零手搓了一个Game Boy Advance模拟器!

外观渲染画面是这样的:

GLM-5真够顶的:超24小时自己跑代码,700次工具调用、800次切上下文

屏幕里是这样的:

GLM-5真够顶的:超24小时自己跑代码,700次工具调用、800次切上下文

在没有渲染情况下的动态效果如下:

自动播放

要知道,这对于AI来说,是一个绝对无法取巧的工程任务。

因为GBA模拟器涉及到了500多条CPU指令集、内存分页机制、音频子系统和图形渲染时序等任务。

哪怕一条指令遵循出错,或者一次文件写入偏差,整个项目就会在几个小时后崩盘。

并且GLM-5面对的还是无并行、无任何参考代码、关闭网络搜索的那种。

即便如此,从视频给出的结果中我们也不难发现,GLM-5确实是发挥非常稳定:

工具调用稳定:第700次和第一次在语法、格式、准确度上没有差异;

指令遵循持久:上下文即使切换了800次,依旧遵守Meta-Prompt的规范、约定和流程;

工作判断稳定:GLM-5知道自己什么时候该测试、信息记录、切换策略等;

上下文够可靠:每次上下文清空后,GLM-5能从笔记和文件中准确恢复工作状态。

这也难怪不少网友在看完之后直呼:

它可以制作精美的CAD模型!

GLM-5真够顶的:超24小时自己跑代码,700次工具调用、800次切上下文

并且目前GLM-5的评测结果也已出炉,在权威榜单Artificial Analysis中,直接到了与Claude Opus 4.5比肩的水平。

GLM-5真够顶的:超24小时自己跑代码,700次工具调用、800次切上下文

在业内公认的主流基准测试中,GLM-5的编程能力也是实现了与Claude Opus 4.5对齐:

GLM-5真够顶的:超24小时自己跑代码,700次工具调用、800次切上下文

并且在衡量模型经营能力的Vending Bench 2中,GLM-5取得了开源第一的成绩:

GLM-5真够顶的:超24小时自己跑代码,700次工具调用、800次切上下文

但毕竟Claude Opus是闭源,护城河一下子被GLM-5这个开源模型给端掉,也是引得不少网友欢呼:

感谢开源!

GLM-5真够顶的:超24小时自己跑代码,700次工具调用、800次切上下文

那么GLM-5这位开源界的第一位“全栈架构师”,还有什么样的实力?

接下来,一波深度实测开源版Opus级别的模型,走起~

已经有人申请上架App Store了

我们的测试将在Claude Code中调用GLM-5 API的方式展开。

因此,我们第一个测试就是做最考验模型的逻辑闭环能力的游戏——要求GLM-5从零生成一个3D版大富翁:

GLM-5真够顶的:超24小时自己跑代码,700次工具调用、800次切上下文

接下来,我们直接来看下效果:

自动播放

可以看到,面对如此复杂的需求,GLM-5稳稳地把所有功能都实现了出来。

若是Prompt更加精细,我们就可以得到一个OpenClaw对战的《龙虾版3D大富翁》:

自动播放

而且已经有用户使用GLM-5做了个学术版“抖音”,并且提交上架苹果App Store!

自动播放

10余款APP都要上架了:

GLM-5真够顶的:超24小时自己跑代码,700次工具调用、800次切上下文

实测继续。

这一次,我们要测试GLM-5对复杂物理规律描述的理解能力,请听Prompt:

创建一个玻璃十二面体,每个面是一个遮罩,显示中央相同旋转基底环结的不同设计。应用一些细微的泛光效果。在它外面再加一层大约两倍大小的第二层玻璃壳,并让每个面透过时改变内部玻璃的外观成不同类型,比如透过外层的某一面,整个内壳看起来像是染色玻璃、彩绘玻璃或线框等,仅供参考。使用 three.js,……

自动播放

GLM-5依旧是精准地捕捉到了Prompt中的关键词,生成的HTML文件打开后,一个光影交错的十二面体悬浮在空中。

除此之外,包括像全栈类型任务,例如制作一个完整、有设计感的电商 ,GLM-5也是可以拿捏。

以及有人也用GLM-5手搓了个3D版可交互的《我的世界》!

GLM-5真够顶的:超24小时自己跑代码,700次工具调用、800次切上下文

开源,Win Again

GLM-5的出现,不论是从实测还是网友们的反响来看,都在标志一件事情:

开源大模型完成了一次从助手到独立工程师的质变。

以前,我们用AI是写一句Prompt,但需要不断地去做调试的工作;但现在,用GLM-5可以是给它一个目标,然后去喝咖啡,偶尔回来看看它有没有跑偏。

更宏观地来看,这对于SaaS行业来说,也可能是一场风暴。

毕竟就在前几天,随着Claude Opus等具备长任务能力的闭源模型展现威力,国外市场已经出现了恐慌。

例如当时金融数据服务商FactSet最惨盘中暴跌10%,S&P Global、穆迪、纳斯达克公司纷纷下跌,各大指数全线跳水。

Fortune和CNBC报道称,SaaS软件类股票遭到抛售,投资者担心,如果AI能现场手搓一个CRM系统,谁还去买年费软件。

虽然黄仁勋安抚说AI会增强现有工具,但GLM-5的实测表现告诉我们:重塑或许已经在发生。

更重要的是,之前这种能力是闭源巨头的特权。现在,GLM-5把这把钥匙交到了所有开发者手里。

或许这次开源模型24小时不间断自己跑代码只是一个起点,未来会更长、更快、更好、更强。

Two More Things:

GLM其实从4.5版本开始就死磕AI编程这件事,现在这个国产AI的coding套餐在国内外也是相当火爆;这次智谱一上来就限售,外国网友们都是在“求”的状态。

以及,智谱公司的大楼,现在也是成了个打卡点:

GLM-5真够顶的:超24小时自己跑代码,700次工具调用、800次切上下文

开头我们提到的GBA模拟器,由于GLM-5一直在跑,程序员小哥哥下班打车是这样的:Agent乘客

GLM-5真够顶的:超24小时自己跑代码,700次工具调用、800次切上下文

GitHub:

https://github.com/zai-org/GLM-5

Hugging Face:

https://huggingface.co/zai-org/GLM-5

ModelScope:

https://modelscope.cn/models/ZhipuAI/GLM-5

GameBoy Advance体验:

https://e01.ai/gba

来源:https://tech.ifeng.com/c/8qgcNg47vpL
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

智谱GLM-5.1模型全面开放,面向所有Coding Plan用户
科技数码
智谱GLM-5.1模型全面开放,面向所有Coding Plan用户

3月27日,据智谱(02513 HK)消息,GLM-5 1现已面向GLM Coding Plan全部用户(Lite Pro Max)开放。

热心网友
03.27
智谱AI开源大模型GLM-5-Turbo实战评测
科技数码
智谱AI开源大模型GLM-5-Turbo实战评测

北京商报讯(记者 魏蔚)3月16日,智谱推出一个面向OpenClaw龙虾场景深度优化的基座模型GLM-5-Turbo。GLM-5-Turbo从训练阶段就针对龙虾任务的核心需求进行专项优化,增强如工具

热心网友
03.16
智谱发布 GLM-5 Turbo:专为“龙虾大脑”优化的大模型
科技数码
智谱发布 GLM-5 Turbo:专为“龙虾大脑”优化的大模型

雷递网 乐天 3月16日智谱今日正式发布全球首个专为龙虾场景深度优化的通用大模型GLM-5-Turbo,并在发布时同步上调了GLM-5-Turbo的API价格,幅度为20%。根据端到端龙虾评测基准Z

热心网友
03.16
软通动力发布全球首款接入GLM模型的机械革命龙虾盒子
科技数码
软通动力发布全球首款接入GLM模型的机械革命龙虾盒子

3月16日,据软通动力(301236 SZ)消息,GLM-5-Turbo已接入软通动力旗下机械革命盒子中,面向全球首发接入GLM模型的机械革命“龙虾盒子”,打造原生AIAgent终端体验。据介绍,G

热心网友
03.16
智谱优化GLM-4大模型,龙芯API价格同步上调20%
AI
智谱优化GLM-4大模型,龙芯API价格同步上调20%

3月16日,智谱发布首个专为龙虾场景深度优化的通用大模型GLM-5-Turbo,并在发布时同步上调了GLM-5-Turbo的API价格,幅度为20%。根据端到端龙虾评测基准ZClawBench评测

热心网友
03.16

最新APP

你说我猜
你说我猜
休闲益智 03-31
史莱姆农场
史莱姆农场
休闲益智 03-31
凡人传说
凡人传说
角色扮演 03-30
恶魔秘境
恶魔秘境
角色扮演 03-29
猫和老鼠华为
猫和老鼠华为
休闲益智 03-29

热门推荐

OPPO Find X9s Pro实拍对比Ultra:细节更真实,手感更胜
网络安全
OPPO Find X9s Pro实拍对比Ultra:细节更真实,手感更胜

3月31日消息,OPPO将于4月21日举行新品发布会,推出Find X9s Pro、Find X9 Ultra两款影像旗舰。今日,OPPO Find 系列产品负责人卓世杰晒出Find X9s Pro

热心网友
03.31
揭秘Yandex网页版免注册入口,2026年俄罗斯搜索直连
电脑教程
揭秘Yandex网页版免注册入口,2026年俄罗斯搜索直连

Yandex网页版无需登录入口是https: ya ru ,该链接通过skip_sslsignin=1参数直连最新服务器,自动跳过登录验证,支持多语言、多服务快捷访问,具备轻量界

热心网友
03.31
日元3月大跌13.23%,创2020年3月以来最大单月跌幅
科技数码
日元3月大跌13.23%,创2020年3月以来最大单月跌幅

格隆汇3月31日|日经225指数收盘下跌822 13点,跌幅1 58%,报51063 72点。日经225指数3月收跌13 23%,创下自2020年3月(新冠疫情初期)以来最大月度跌幅。

热心网友
03.31
顺丰控股AH股齐升2025年净利增9.31% 拟10派4.3元
科技数码
顺丰控股AH股齐升2025年净利增9.31% 拟10派4.3元

顺丰控股港股(6936 HK)涨超5%,报35 02港元,最高触及35 7港元;顺丰控股A股(002352 SZ)涨4%,报38 23元,创一个半月新高。消息面上,顺丰控股披露了2025年年度报告,

热心网友
03.31
小吉空调双十服务:提升家居空间美学的专业方案
科技数码
小吉空调双十服务:提升家居空间美学的专业方案

小吉空调以“双十”服务,向用户交付家居空间的美学方案家电行业的竞争,长期围绕产品参数与外观设计展开;但当产品趋同成为常态,品牌真正的分水岭开始后移——从“产品交付那一刻”延伸到“用户使用的整个周期”

热心网友
03.31