国产旗舰AI模型开源，海外网友称中国开源四巨头成型

时间：2026-06-23 14:22

智谱发布新一代旗舰模型GLM-4 5并开源，迅速登顶HuggingFace趋势榜。该模型集成推理、编码与智能体能力，参数效率高，API价格低至0 8元百万tokens。国产模型形成开源四杰，与国际闭源四强分庭抗礼，标志国产AI竞争力显著提升。

最近几周，国产开源模型圈儿可真是热闹。互联网大厂和AI独角兽们像是商量好了似的，一个接一个地甩出自家压箱底的开源作品，轮流登顶全球开源模型榜单的头把交椅。就在这几天，又一款国产模型在网络上引发了不小的轰动。

这次的主角是素有“中国OpenAI”之称的智谱，发布了其新一代旗舰模型GLM-4.5。发布的时间节点也拿捏得相当微妙——恰好赶在坊间传闻的OpenAI GPT-5之前，而且同样把推理、编程和智能体能力作为核心卖点。这背后的竞争意味，不言自明。

从市场表现来看，智谱这波开源策略无疑是成功的。官方推文轻松斩获超过77万的阅读量，就连开源模型托管平台HuggingFace的CEO都主动转发表示支持。

模型发布后不到48小时，GLM-4.5就直接冲上了HuggingFace趋势榜的第一名，成为全球开源社区最受瞩目的模型之一；其精简版GLM-4.5-Air也位列第六。硅谷Benchmark风投公司的合伙人Bil Gurley发帖感叹说，中国开源AI模型目前形成的组合效应异常强大，模型之间可以互相借鉴、迭代，新模型的推出也因此变得更容易。

值得注意的是，自WAIC前后点燃的这波大模型开源潮，参与者陆续出场：月之暗面的K2、阿里的多款模型都表现不俗，智谱的GLM系列则接过了接力棒。就在今天，HuggingFace开源模型榜单前十名几乎被中国模型包揽。连CNBC都评论说，中国企业研发的人工智能模型，不仅智能化水平在提升，其使用成本还在持续降低。

更有意思的是，一位海外AI博主制作了一张非常形象的梗图，来形容当前AI竞争格局的演变：全球AI大模型已然分裂成两大阵营——以中国模型为代表的开源派，和以美国模型为代表的闭源派。继DeepSeek、Qwen之后，Kimi、GLM等国产模型近期也纷纷重磅开源，给中国开源阵营再添猛将。这阵势，仿佛形成了中国AI界的“开源四杰”，与国际上的GPT、Claude、Gemini、Grok组成的“闭源四强”分庭抗礼。

智谱将GLM-4.5定位为融合推理、编码和智能体能力的基座模型。在涵盖这些场景的12项基准测试中，GLM-4.5的综合性能拿到了全球开源模型的SOTA，在国产模型中排名第一，在全球所有模型中位列第三。榜单之外，为了验证模型的真实Agent编程能力，智谱还设置了实战环节，与Claude-4-Sonnet、Kimi-K2、Qwen3-Coder等模型进行平行对比。更重要的是，为确保评测透明度，智谱将测试中涉及的52道题目及Agent轨迹全部公开，供业界验证和复现。这波操作也赢得了社区的不少赞许。

不仅如此，模型的定价策略也极具竞争力。API调用价格低至输入0.8元/百万tokens、输出2元/百万tokens；高速版最高可达100 tokens/秒。当然，用户也可以在智谱清言和z.ai上免费使用完整版的GLM-4.5。

最近，我们也对GLM-4.5的多项能力进行了深度体验，老实说，它在实际生产场景中的表现确实让人有点惊喜。

01. GLM-4.5一手实测：一句话打造完整数据库，思考过程简洁明晰

目前，已经有不少国内外网友上手体验了GLM-4.5，用它打造AI私人健身教练、生成网页游戏、甚至是3D动画。其强大的编程能力和处理长序列复杂任务的能力，给人留下了深刻印象。

这主要得益于本次GLM-4.5主打的智能体能力。与传统的问答、摘要、翻译这类静态任务不同，智能体任务对模型提出了更严苛、更立体的能力要求。它集中展现了大模型在感知、记忆、规划、执行等关键要素上的表现，也为后续更多维度的能力打下了基础。智能体通常面对的是开放式环境，这就要求模型具备持续感知、长期规划以及自我修正的能力。同时，它也是一种复合流程，不仅涉及语言处理，还要统筹调用工具、执行代码、操控接口，甚至进行多轮交互协作。这本质上就是对模型综合调度能力的一次“压力测试”。

全栈开发是典型的智能体任务。为了测试其能力，我们给GLM-4.5提了一个相对完整的开发任务：用PHP+MySQL打造一个具备增删改查功能的中英双语术语库。这项任务的难点在于，模型需要像真正的工程师一样，自行规划项目框架、梳理功能需求、设计数据库结构，然后整体思考如何去解决问题。

此前我们也把类似的题目交给过其他模型，结果不少模型根本无法对项目框架进行合理规划，甚至试图在一个网页文件里塞进所有功能，最终交付的结果自然无法用于生产场景，更不用说后续的修改和扩展了。

让人惊喜的是，GLM-4.5交付的代码非常完整，并且高效地实现了所有既定功能。从提出需求到完成3个核心页面，只用了大约2分钟。最终部署的效果如下：

这个结果或许可以从GLM-4.5开始生成代码前清晰的思考过程中找到答案：它准确地判断了项目性质，知道自己应该生成哪些文件，这为后续的开发提供了非常明确的指引。整个思考过程也不拖泥带水，简洁清晰。

智谱的官方Demo则展示了GLM-4.5的更多能力。比如，它可以根据用户需求，精准复刻YouTube、谷歌、B站等网站的UI界面，用于Demo展示等场景。

或者打造一个让用户自主设计迷宫、再由系统查找路径的互动网页。

这种全栈能力不仅适用于实际生产，拿来“整活儿”也是一把好手。智谱官方就用它打造了一个量子功德箱，不仅可以实际互动，还能将数据保存到后台。

不过，GLM-4.5开发这些项目背后的过程更值得深究。翻看智能体的执行轨迹，可以看到，与开发工具结合后，GLM-4.5几乎能够端到端地完成任务：先创建待办清单，然后逐步推进，总结进展，并在用户提出修改意见时，进行全面的核查和调试。

此外，GLM-4.5在PPT制作场景下也展现了不俗的能力。它能按照用户指定的页数和内容，打造出完整且美观的PPT，还能结合搜索工具丰富视觉体验。比如，下面这个例子中，GLM-4.5为传奇短跑运动员博尔特制作了一份职业生涯回顾的PPT。

我们已经通过上述多个案例直观感受到了GLM-4.5的能力。那么，这款模型背后究竟依靠哪些技术创新才能实现这样的表现？智谱在同期发布的技术博客里给出了答案。

02. 参数效率实现突破，兼容多款编程智能体

GLM-4.5的训练流程整体分三步走，从底层架构、任务选择到优化策略，每一阶段都逐步推动模型能力的提升。

先说预训练阶段。这次GLM-4.5系列在架构上借鉴了DeepSeek-V3的MoE设计，但注意力机制这块，还是沿用了从ChatGLM2时代就深耕的分组查询注意力，并搭配了部分旋转位置编码。之所以不用MLA，主要是为了规避它对张量并行处理带来的挑战。同时，智谱配置了较多的注意力头，因为他们发现这样能在推理基准测试中显著提升模型性能。此外，GLM-4.5和GLM-4.5-Air都配置了MTP层，让模型在一次前向计算中，同时预测多个后续token，实测证明这对推理过程有显著的加速效果。

进入中期训练阶段，智谱开始针对更复杂、更实用的任务进行专项优化，重点强化模型在代码和推理方面的能力。例如，模型针对代码库场景进行了专门优化，学习了跨文件之间的依赖关系；整合了GitHub上的issues和PR，进一步提升软件工程能力；并将训练序列长度扩展到32K，具备了处理大型代码库的能力。这第一部分案例中，GLM-4.5能够自行查找和修改代码的能力，正是来源于此。

为了进一步提升模型处理长上下文的能力，智谱将训练序列长度从32K进一步扩展到128K，并对预训练语料库中的长文档进行了上采样，还加入了编程Agent的轨迹。

到了后训练阶段，GLM-4.5全面引入了强化学习，并围绕高级数学编程推理能力、复杂Agentic任务和通用能力这三大关键领域，进行系统性的优化。

强化学习这部分是分层展开的。针对推理任务，训练时引入了按难度递进的课程学习策略，用动态采样温度来控制探索强度，并通过基于token级熵的PPO自适应裁剪机制，提升策略更新的稳定性。当模型面对的是网页搜索、代码生成这类任务时，训练方式转向了更具Agentic特征的RL，数据不仅来源于自动流程，还引入了人类参与，以构建更真实的复杂多步交互场景。编程任务则直接用GitHub上的真实PR和issues作为标准，训练中结合准确率奖励和格式惩罚，引导模型学会规范、可靠地行动。

在更通用的实际应用场景里，比如工具调用和长文档推理，GLM-4.5又采用了不同的策略来补强。函数调用任务中，使用的是双轨策略：一部分是基于规则的逐步强化学习，确保工具调用的准确性；另一部分则通过奖励最终任务完成效果的方式，引导模型学会自主规划与调用工具。为了让模型更好地理解和利用长文本，智谱还安排了一个专门的长上下文RL阶段，让GLM-4.5在处理大规模文档时具备更强的推理能力。

总体来看，GLM-4.5的整个训练过程高度工程化：架构上通过MoE提升计算效率，训练流程中有针对性地为关键任务注入能力，强化学习阶段进一步拉高推理上限和实用表现，最终实现了推理、编码和智能体能力的原生融合。

也正是得益于在工具调用、网页浏览、软件工程、前端编程等领域的深耕，GLM-4.5系列模型与Claude Code、Cline、Roo Code等主流编程智能体实现了完美兼容，并且也可以通过工具调用接口支持任意的智能体应用。

这里还有一个非常值得关注的点：GLM-4.5展现出了极高的参数效率。其参数量仅为DeepSeek-R1的1/2、Kimi-K2的1/3，但在多项标准基准测试中表现得更为出色。在衡量模型编程能力的SWE-bench Verified榜单上，GLM-4.5系列直接位于性能/参数比的最优前沿，这意味着在相同规模下，它实现了最佳性能。