游乐游手机版
首页/AI教程/文章详情

GLM-4.5最新发布,全面测评及使用教程

时间:2026-06-23 14:54
智谱发布GLM-4 5旗舰模型,采用MoE架构,总参数3550亿,支持深度思考与即时响应。在推理、代码和智能体测试中达开源模型最优水平,API输入仅0 8元 百万tokens。实测中代码、数学与创意写作表现稳定,可平替Claude作为基座模型,性价比突出。

就在今天,智谱AI正式发布了新一代旗舰模型 GLM-4.5,这是一款专为智能体应用打造的基座大模型。发布节奏紧凑,模型权重也迅速在 Hugging Face 和 ModelScope 两大平台开源,采用 MIT License,开放程度极高。

先为大家提炼几个关键信息:

GLM-4.5 此次主打综合能力,在推理、代码和智能体等测试中达到开源模型 SOTA(最先进水平)。尤其在真实代码智能体的人工对比评测中,实测表现目前国内最佳。技术上采用混合专家(MoE)架构,提供 GLM-4.5(总参数 3550 亿,激活参数 320 亿)和面向轻量场景的 GLM-4.5-Air(总参数 1060 亿,激活参数 120 亿)两种规格。支持两种模式:深度思考模式应对复杂推理和工具调用,非思考模式实现即时响应。最值得关注的是其高速与低成本:API 调用价格低至输入 0.8 元 / 百万 tokens、输出 2 元 / 百万 tokens,高速版最高可达 100 tokens/秒。这样的性价比对开发者极具吸引力。

Datawhale 团队提前获得内测资格,在周末进行了一场深度横评测试。本次主要考察它在代码、数学、创意写作和实际开发(接入 Claude Code)等多个场景的真实表现。文章稍长,大家可根据兴趣直接跳至对应章节。想直接看结论的,文末有总结。

GLM-4.5 全网最全测试:八道关卡见真章

一、生命游戏模拟器

这道题要求处理二维数组与状态同步,核心考察模型对算法逻辑的理解。它不涉及复杂图形引擎,能更纯粹地考验模型的算法思维和边界条件处理能力。我们给模型的需求很明确:用 HTML JS 写一个“生命游戏”,能接受棋盘大小参数、随机生成初始状态,严格遵循康威生命的三条规则(存活、死亡、诞生),并在终端里循环打印下一代状态,每次间隔 0.1 秒。

题目提示词如下:请使用 html js编写一个“生命游戏”(Conway's Game of Life)的模拟器。要求如下:基于终端输出...持续演化: 程序应能持续打印出世界的下一代状态,每次打印之间有短暂的延时(例如0.1秒),直到用户手动中断程序。

GLM-4.5 的回答

Claude Sonnet 4 的回答

Qwen3-coder 的回答

三个模型都圆满完成了基础任务,完成度很高。但从第一印象看,GLM-4.5 确实更讨喜,它的 UI 设计更符合我的视觉习惯。而从“超预期”角度看,Qwen3-coder 给了我意外之喜,额外添加了许多预设的生命演化模式,这点确实加分。

二、小说创作《气味调配师的最后订单》

这场测试旨在考察模型在创意写作上的功力,尤其是对高概念世界的构建能力。题目设定在近未来的赛博都市,气味无法被数据化,于是诞生了“气味调配师”这个职业。要求模型根据一个非常抽象的订单——“调配出‘希望’的气味,它闻起来必须像是‘在彻底的绝望中诞生的、不属于自己的希望’”——来构思开篇,并包含场景氛围、主角内心独白、核心悬念和最终决定。

题目提示词如下:标题: 《气味调配师的最后订单》故事背景: 在一个近未来的赛博都市里...你决定去往城市的哪个角落,寻找一个什么样的故事,来捕捉这种复杂而矛盾的气味?这个决定将开启整个故事的旅程。

GLM-4.5 的回答
\
\
\
左右滑动查看结果

Gemini 2.5 pro 的回答
\
\
左右滑动查看结果

Claude Sonnet 4 的回答
\

Qwen3-235B-A22B-2507 的回答
\

几位选手都很好地构建了独特的世界观和悬念。对我而言,四者表现旗鼓相当——原因是我个人不太能欣赏这类风格的小说。它们都主打场景描写的氛围渲染和心理描写。但从细节的丝滑程度上看,Claude 更胜一筹;Gemini、GLM 和 Qwen 则位于同一梯队。

三、2004年数学一选择题

选择真题是为了检验模型在解决标准化、高难度学术问题上的严谨逻辑推理能力。这部分我们不过多展开专业评估,直接看答案。

题目如下:
ImageImage

GLM-4.5 的答案是 D
ImageImage

Gemini2.5-Pro 的答案是 D
ImageImage

Claude Sonnet 4 的回答是 D
ImageImage

KIMI K2 的答案是 D
ImageImage

Qwen3-235B-A22B-2507 的答案是 C
ImageImage

Qwen3-235B-A22B-2507 的答案是 D(开启思考模式后)
Image

最后公布答案:选择 D!
ImageImage

除 Qwen3 未开启思考模式时首次回答错误外,其他所有模型都一次答对。

四、2004年数学一概率题

题目如下:
ImageImage

GLM-4.5 的答案正确
ImageImage

gemini 2.5 pro 的答案正确
ImageImage

Qwen3-235B-A22B-2507 的答案错误
ImageImage

开启深度思考模式下的 Qwen3-235B-A22B-2507 的答案正确
ImageImage

Claude-Sonnet-4 的答案正确
ImageImage

最终答案:
ImageImage

结果和上一轮类似,Qwen3 不开启思考模式容易出错,其他模型表现稳健。

五、神经网络“梯度消失”交互式可视化

这个项目核心是检验模型化抽象为具体的能力,尤其是在教育和解释性场景下的价值。它并非解决一个有标准答案的问题,而是要求模型创造一个动态工具,解释一个复杂的科学概念。题目要求用 HTML/JS 制作条形图,通过滑块调节“网络深度”和“初始梯度”,模拟反向传播时梯度逐层衰减的过程。

题目提示词如下:项目名称: 神经网络“梯度消失”交互式可视化核心目标: 通过动态图表,直观地展示在深度神经网络中...最终,用户可以直观地看到,从右到左,条形图的高度迅速衰减,接近于零,从而生动地理解“梯度消失”。

GLM-4.5 的回答:
\

Gemini 2.5 Pro 的回答:
\

Claude Sonnet 4 的回答:
\

Qwen3-Coder 的回答:
\

这一轮 GLM-4.5 的表现堪称优秀。其他三者只展示了动画效果,而 GLM-4.5 不仅达成基础要求,还额外添加了衰减率显示等超预期功能。在需要构建教育工具的场景下,它的完成度最高。

六、明天的前天,是昨天的后天么?

这道题看似是脑筋急转弯,但能精准测试模型对自然语言中相对时间概念的理解。模型必须准确理解“明天”、“前天”等词语的关系,以“今天”为参照系进行逻辑换算。

题目提示词如下:明天的前天,是昨天的后天么?

GLM-4.5 的回答正确
ImageImage
不,明天的前天不是昨天的后天。让我一步步解释清楚...

Gemini 2.5 Pro 的回答正确
ImageImage
不是的。这是一个有趣的绕口令式问题...

Claude Sonnet 4 的回答错误
ImageImage
让我来分析一下这个时间逻辑问题:明天的前天...答案是:是的...

Qwen3-235B-A22B-2507 的回答正确
ImageImage
**答案:不是。**...

这一轮,除 Claude Sonnet 4 外,其余模型都给出了正确答案。

七、“推箱子”游戏

这道题在“生命游戏”基础上,进一步测试模型处理更复杂交互逻辑和状态管理的能力。规则涉及玩家、箱子、墙壁和目标点的多元素互动,对模型的逻辑严谨性要求更高。题目要求使用 HTML/JS 编写,包含清晰的地图表示、玩家移动函数和胜利判断函数。

题目提示词如下:题目内容: 请使用 html js编写一个简化的“推箱子”游戏的逻辑...编写一个函数 check_win(map),当所有目标点都被箱子占据(即地图上没有 . 存在)时,返回 True。

GLM-4.5 的回答:

Claude Sonnet 4 的回答:

Qwen3-Coder 的回答:

这一轮平分秋色,各有优势。GLM 的 UI 做得最好,Claude 和 GLM 都实现了“下一关”等超预期功能。在布局设计上,Claude 和 Qwen 更为合理;Qwen 的布局尚可,但颜值稍逊。综合来看,Claude 评分最高,在设计、逻辑和超预期表现上十分均衡。

八、小说创作《退一步,圣宠倾天》

这道题考验模型对“反讽”这一高级文学手法的运用。主角拼命想“失宠”,却越作越受宠。我们期待看到像短篇小说一样的吸引力。题目要求以第一人称视角,详细描写一次完整的“计划通,结果崩”的剧情。

题目提示词如下:小说创作测试题 (宫斗·反套路型)标题: 《退一步,圣宠倾天》...你要在那一刻清醒地意识到:你搞砸了。你不但没能奔向自由,反而一脚踏入了更深的地狱。

GLM-4.5 的回答:
\
\
\
\
左右滑动查看结果

Gemini 2.5 Pro 的回答:
\
\
左右滑动查看结果

Claude Sonnet 4 的回答:
\
\
左右滑动查看结果

Qwen3-235B-A22B-2507 的回答:
\

作为非专业文学评论者,我只能凭直觉判断。这次四个模型写出来的内容,我已很难用眼睛分辨是否为 AI 创作。相比第二轮的小说测试,本轮的题目特意强调“开头要有吸引力”,结果确实更符合网文阅读习惯。细分之下,Claude 的语言表达最丝滑,GLM 和 Gemini 的情节细节设计更出彩,Qwen 的用词则显得更高阶。综合来看,如果 Claude 的情节设计再优化一下,它肯定是最好的。但这一轮,我投 GLM 一票。

GLM-4.5 接入 Claude Code:实战教程与对比

为了测试真实场景下的开发能力,我们将 GLM-4.5 和 Kimi K2 接入了 Claude Code,并在我的实际开源项目 SmartImageFinder 上进行了测试。

首先,需要在电脑上安装 Claude Code。为了方便大家,我们提前准备好了脚本:https://github.com/li-xiu-qi/Eeasy_Claude_Code,里面有 Kimi K2 和 GLM 的接入脚本,按照 readme 说明安装即可。这里也提供简要教程。

项目克隆:
git clone https://github.com/li-xiu-qi/Eeasy_Claude_Code.git
cd Eeasy_Claude_Code

安装脚本说明:
项目包含 install_glm_cc.sh 和 install_kimi_cc.sh 两个脚本。运行 sh install_glm_cc.shsh install_kimi_cc.sh 即可。如果遇到权限问题,先运行 chmod +x install_glm_cc.sh install_kimi_cc.sh,再用 sh install_glm_cc.sh 方式运行。

安装完成后,在终端输入 Claude,就会出现以下页面,显示我们使用的是智谱模型,即 bigmodel 的路线则说明成功。

Kimi K2 的实战表现:
任务是帮我的项目接入一个 AI backend 功能,并修复旧的文档内容。最终任务顺利完成。

GLM 的实战表现:
我要求它帮我更新 README 文件,并重构项目的快速启动脚本,任务也完成了。需要指出的是,最初测试时 GLM 接入 Claude Code 似乎存在一些问题,反馈后智谱应该很快就修复了。

最后我又让它做了一个 notebook 翻译的任务,速度确实快,没有任何加速效果,这值得称赞。对比来看,K2 的自动化程度更高,能一次性改动多处内容后请求反馈;而 GLM 反馈更及时,但往往改一部分就会来征求确认,虽然反馈及时,但改动幅度偏小,有点过于频繁。不过,考虑到它是价格最低、速度最快、性价比最高的 Agentic 模型,这个表现已经相当不错。在实际体验中,GLM-4.5 完全可以平替 Claude 的其他模型作为 Claude Code 的基座模型。

为了更客观地评价,我在另一个新项目 remote_mineru 中全程深度使用了 GLM。在深度体验中,我尽量让模型自己修改代码,不干涉它的编辑能力,只对其行动给出指导。深度体验下来,我觉得两者都不错,很难说谁更好。GLM 反馈频繁,也意味着可控性强。但就我个人的长对话体验来说,K2 的理解能力要优于 GLM——GLM 在复杂的上下文里偶尔会难以理解一个简单需求,需要多次纠正,而 K2 出现这种情况更少。当然,GLM 的速度确实比 K2 快太多。总的来说,GLM 性价比拉满,体验不错,性能相当能打。

总结:评价与定位

这次横评跑下来,GLM-4.5 的综合表现确实让人印象深刻。它给人的总体感觉是:核心能力与国外头部模型看齐,同时在成本上拥有非常明显的优势。

具体来说:

从写代码、解数学题到构思小说,几轮测试下来,它没有表现出明显的短板,性能稳定,能够和 Gemini、Claude 的最新模型同台竞技。这表明它的基础能力已经过关。在需要将抽象概念工具化的“梯度消失”测试中,其完成度最高,甚至超越了要求;在反套路小说的情节设计上,也得到了最高分。最吸引人的地方无疑是成本。如此低的 API 定价,对任何需要控制预算的开发者来说都是极大的利好。在接入 Claude Code 的实测中,它也能胜任基座模型的角色,虽然交互习惯略有不同,但反馈及时、任务完成度高。这意味着在实际开发中,它是一个可靠且极具性价比的选择。

总而言之,这次对 GLM-4.5 的测试结果是积极的。它证明了国产模型在追赶国际先进水平的进程中,已经进入可以在多方面与之直接对话的阶段。对于用户而言,我们多了一个经过验证的、能兼顾性能与成本的优秀选择。这本身就是一件值得高兴的事。

来源:https://cloud.tencent.com.cn/developer/article/2695099
上一篇原生稀疏注意力重塑长上下文大模型效率边界 下一篇企业级大模型API选型:星链4S、OpenRouter与硅基流动对比
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
CapCut AI Docker 一键部署:镜像拉取、端口映射与数据目录配置教程
AI教程 · 2026-06-30

CapCut AI Docker 一键部署:镜像拉取、端口映射与数据目录配置教程

CapCutAI容器化部署需先确认镜像来源与授权范围,再完成环境准备、镜像拉取、端口映射、数据目录挂载和启动验证,适合本地试用、团队内网演示与轻量化AI剪辑服务管理。

CapCut AI Windows本地安装配置2026最新版含下载与环境要求
AI教程 · 2026-06-30

CapCut AI Windows本地安装配置2026最新版含下载与环境要求

CapCutAI与剪映AI在Windows端适合短视频、口播、课程和营销素材剪辑,安装前需确认系统、显卡、存储与网络条件,优先选择官方渠道下载,并完成账号、素材目录、硬件加速和导出参数配置。

Veo新手保姆级安装教程:从下载到首次运行
AI教程 · 2026-06-30

Veo新手保姆级安装教程:从下载到首次运行

Veo适合用文字生成短视频,新手应先确认官方入口、准备账号与设备环境,再按网页或应用方式完成启用。首次运行重点在提示词、参数、素材合规与结果保存,避免使用非官方安装包。

Veo本地模型运行下载路径设置与性能优化指南
AI教程 · 2026-06-30

Veo本地模型运行下载路径设置与性能优化指南

Veo本地模型部署需先确认模型来源与硬件条件,再完成下载校验、目录规划、路径配置和推理参数优化。重点关注显存占用、依赖版本、缓存位置、授权范围与常见报错处理。

Veo安装失败解决指南:常见报错与日志排查及升级回滚方案
AI教程 · 2026-06-30

Veo安装失败解决指南:常见报错与日志排查及升级回滚方案

Veo安装失败通常与系统环境、依赖版本、网络源、权限和缓存有关。排查时应先确认版本要求,再查看安装日志,按报错类型处理,并提前备份项目,确保升级与回滚可控。