观察GLM-5正式发布后的实际表现,再回顾此前神秘模型Pony Alpha的热度——只能说,业界对开源大模型能力的预期还是过于保守了。
因为这一次,GLM-5直接将开源AI模型也推进了长任务处理时代。
具体来说,GLM-5能够自主连续运行代码超过24小时,经历了700次工具调用与800次上下文切换之后——
直接用JavaScript,从零构建了一个Game Boy Advance(GBA)模拟器。
外观渲染画面是这样的:
屏幕里是这样的:
在没有渲染情况下的动态效果如下:
视频详情
GLM-5仍能精准解析Prompt中的关键词,生成的HTML文件打开后,一个光影交错的十二面体便悬浮于空中。
此外,对于全栈类型任务,例如开发一个完整且具有设计感的电商网站,GLM-5同样能够胜任。
更有开发者利用GLM-5构建了一个3D版可交互的《我的世界》。
开源大模型,再创佳绩
GLM-5的发布,无论从实际测试表现还是用户反馈来看,都标志着一个重要转折:开源大模型已实现从辅助工具到独立工程师的质变。
过去使用AI,通常需要编写一条Prompt并反复调试;而现在使用GLM-5,只需设定一个目标,然后可以离开,偶尔回来检查执行进度即可。
从宏观层面来看,这一能力对SaaS行业可能也是一场变革风暴。日前,随着Claude Opus等具备长任务处理能力的闭源模型展现强大实力,海外市场已出现恐慌情绪。金融数据服务商FactSet盘中一度暴跌10%,S&P Global、穆迪、纳斯达克等公司股价普遍下跌,各大指数全线跳水。
据Fortune和CNBC报道,SaaS软件类股票遭到抛售,投资者的逻辑非常直接:如果AI能够实时构建一个CRM系统,谁还会购买年度订阅软件?黄仁勋安抚市场称AI将增强现有工具,但GLM-5的实际表现表明:行业重塑或许已经启动。
更关键的是,此前这种长任务能力是闭源巨头的专属特权。如今,GLM-5已将这把钥匙交到了所有开发者手中。今天开源模型能够24小时不间断自主运行代码或许只是起点,未来将向更长、更快、更好、更强的方向发展。
另外两个亮点:
实际上,GLM从4.5版本开始就专注于AI编程领域,如今这个国产AI的编程套餐在国内外都备受追捧。此次智谱一开始就采取限量发售,外国网友们纷纷求购。
以及,智谱公司的大楼现在也成了打卡点:
文章开头提到的GBA模拟器,由于GLM-5持续运行,程序员下班打车时遇到的是一位“Agent乘客”。
GitHub:
github.com/zai-org/GLM…
Hugging Face:
huggingface.co/zai-org/GLM…
ModelScope:
modelscope.cn/models/Zhip…
GameBoy Advance 体验:
e01.ai/gba
欢迎在评论区分享你的看法!
—完—
