游乐游手机版
首页/AI教程/文章详情

国产旗舰AI模型开源,海外网友称中国开源四巨头成型

时间:2026-06-23 14:22
智谱发布新一代旗舰模型GLM-4 5并开源,迅速登顶HuggingFace趋势榜。该模型集成推理、编码与智能体能力,参数效率高,API价格低至0 8元 百万tokens。国产模型形成开源四杰,与国际闭源四强分庭抗礼,标志国产AI竞争力显著提升。

最近几周,国产开源模型圈儿可真是热闹。互联网大厂和AI独角兽们像是商量好了似的,一个接一个地甩出自家压箱底的开源作品,轮流登顶全球开源模型榜单的头把交椅。就在这几天,又一款国产模型在网络上引发了不小的轰动。

这次的主角是素有“中国OpenAI”之称的智谱,发布了其新一代旗舰模型GLM-4.5。发布的时间节点也拿捏得相当微妙——恰好赶在坊间传闻的OpenAI GPT-5之前,而且同样把推理、编程和智能体能力作为核心卖点。这背后的竞争意味,不言自明。

从市场表现来看,智谱这波开源策略无疑是成功的。官方推文轻松斩获超过77万的阅读量,就连开源模型托管平台HuggingFace的CEO都主动转发表示支持。

模型发布后不到48小时,GLM-4.5就直接冲上了HuggingFace趋势榜的第一名,成为全球开源社区最受瞩目的模型之一;其精简版GLM-4.5-Air也位列第六。硅谷Benchmark风投公司的合伙人Bil Gurley发帖感叹说,中国开源AI模型目前形成的组合效应异常强大,模型之间可以互相借鉴、迭代,新模型的推出也因此变得更容易。

值得注意的是,自WAIC前后点燃的这波大模型开源潮,参与者陆续出场:月之暗面的K2、阿里的多款模型都表现不俗,智谱的GLM系列则接过了接力棒。就在今天,HuggingFace开源模型榜单前十名几乎被中国模型包揽。连CNBC都评论说,中国企业研发的人工智能模型,不仅智能化水平在提升,其使用成本还在持续降低。

更有意思的是,一位海外AI博主制作了一张非常形象的梗图,来形容当前AI竞争格局的演变:全球AI大模型已然分裂成两大阵营——以中国模型为代表的开源派,和以美国模型为代表的闭源派。继DeepSeek、Qwen之后,Kimi、GLM等国产模型近期也纷纷重磅开源,给中国开源阵营再添猛将。这阵势,仿佛形成了中国AI界的“开源四杰”,与国际上的GPT、Claude、Gemini、Grok组成的“闭源四强”分庭抗礼。

智谱将GLM-4.5定位为融合推理、编码和智能体能力的基座模型。在涵盖这些场景的12项基准测试中,GLM-4.5的综合性能拿到了全球开源模型的SOTA,在国产模型中排名第一,在全球所有模型中位列第三。榜单之外,为了验证模型的真实Agent编程能力,智谱还设置了实战环节,与Claude-4-Sonnet、Kimi-K2、Qwen3-Coder等模型进行平行对比。更重要的是,为确保评测透明度,智谱将测试中涉及的52道题目及Agent轨迹全部公开,供业界验证和复现。这波操作也赢得了社区的不少赞许。

不仅如此,模型的定价策略也极具竞争力。API调用价格低至输入0.8元/百万tokens、输出2元/百万tokens;高速版最高可达100 tokens/秒。当然,用户也可以在智谱清言和z.ai上免费使用完整版的GLM-4.5。

最近,我们也对GLM-4.5的多项能力进行了深度体验,老实说,它在实际生产场景中的表现确实让人有点惊喜。

01. GLM-4.5一手实测:一句话打造完整数据库,思考过程简洁明晰

目前,已经有不少国内外网友上手体验了GLM-4.5,用它打造AI私人健身教练、生成网页游戏、甚至是3D动画。其强大的编程能力和处理长序列复杂任务的能力,给人留下了深刻印象。

这主要得益于本次GLM-4.5主打的智能体能力。与传统的问答、摘要、翻译这类静态任务不同,智能体任务对模型提出了更严苛、更立体的能力要求。它集中展现了大模型在感知、记忆、规划、执行等关键要素上的表现,也为后续更多维度的能力打下了基础。智能体通常面对的是开放式环境,这就要求模型具备持续感知、长期规划以及自我修正的能力。同时,它也是一种复合流程,不仅涉及语言处理,还要统筹调用工具、执行代码、操控接口,甚至进行多轮交互协作。这本质上就是对模型综合调度能力的一次“压力测试”。

全栈开发是典型的智能体任务。为了测试其能力,我们给GLM-4.5提了一个相对完整的开发任务:用PHP+MySQL打造一个具备增删改查功能的中英双语术语库。这项任务的难点在于,模型需要像真正的工程师一样,自行规划项目框架、梳理功能需求、设计数据库结构,然后整体思考如何去解决问题。

此前我们也把类似的题目交给过其他模型,结果不少模型根本无法对项目框架进行合理规划,甚至试图在一个网页文件里塞进所有功能,最终交付的结果自然无法用于生产场景,更不用说后续的修改和扩展了。

让人惊喜的是,GLM-4.5交付的代码非常完整,并且高效地实现了所有既定功能。从提出需求到完成3个核心页面,只用了大约2分钟。最终部署的效果如下:

这个结果或许可以从GLM-4.5开始生成代码前清晰的思考过程中找到答案:它准确地判断了项目性质,知道自己应该生成哪些文件,这为后续的开发提供了非常明确的指引。整个思考过程也不拖泥带水,简洁清晰。

智谱的官方Demo则展示了GLM-4.5的更多能力。比如,它可以根据用户需求,精准复刻YouTube、谷歌、B站等网站的UI界面,用于Demo展示等场景。

或者打造一个让用户自主设计迷宫、再由系统查找路径的互动网页。

这种全栈能力不仅适用于实际生产,拿来“整活儿”也是一把好手。智谱官方就用它打造了一个量子功德箱,不仅可以实际互动,还能将数据保存到后台。

不过,GLM-4.5开发这些项目背后的过程更值得深究。翻看智能体的执行轨迹,可以看到,与开发工具结合后,GLM-4.5几乎能够端到端地完成任务:先创建待办清单,然后逐步推进,总结进展,并在用户提出修改意见时,进行全面的核查和调试。

此外,GLM-4.5在PPT制作场景下也展现了不俗的能力。它能按照用户指定的页数和内容,打造出完整且美观的PPT,还能结合搜索工具丰富视觉体验。比如,下面这个例子中,GLM-4.5为传奇短跑运动员博尔特制作了一份职业生涯回顾的PPT。

我们已经通过上述多个案例直观感受到了GLM-4.5的能力。那么,这款模型背后究竟依靠哪些技术创新才能实现这样的表现?智谱在同期发布的技术博客里给出了答案。

02. 参数效率实现突破,兼容多款编程智能体

GLM-4.5的训练流程整体分三步走,从底层架构、任务选择到优化策略,每一阶段都逐步推动模型能力的提升。

先说预训练阶段。这次GLM-4.5系列在架构上借鉴了DeepSeek-V3的MoE设计,但注意力机制这块,还是沿用了从ChatGLM2时代就深耕的分组查询注意力,并搭配了部分旋转位置编码。之所以不用MLA,主要是为了规避它对张量并行处理带来的挑战。同时,智谱配置了较多的注意力头,因为他们发现这样能在推理基准测试中显著提升模型性能。此外,GLM-4.5和GLM-4.5-Air都配置了MTP层,让模型在一次前向计算中,同时预测多个后续token,实测证明这对推理过程有显著的加速效果。

进入中期训练阶段,智谱开始针对更复杂、更实用的任务进行专项优化,重点强化模型在代码和推理方面的能力。例如,模型针对代码库场景进行了专门优化,学习了跨文件之间的依赖关系;整合了GitHub上的issues和PR,进一步提升软件工程能力;并将训练序列长度扩展到32K,具备了处理大型代码库的能力。这第一部分案例中,GLM-4.5能够自行查找和修改代码的能力,正是来源于此。

为了进一步提升模型处理长上下文的能力,智谱将训练序列长度从32K进一步扩展到128K,并对预训练语料库中的长文档进行了上采样,还加入了编程Agent的轨迹。

到了后训练阶段,GLM-4.5全面引入了强化学习,并围绕高级数学编程推理能力、复杂Agentic任务和通用能力这三大关键领域,进行系统性的优化。

强化学习这部分是分层展开的。针对推理任务,训练时引入了按难度递进的课程学习策略,用动态采样温度来控制探索强度,并通过基于token级熵的PPO自适应裁剪机制,提升策略更新的稳定性。当模型面对的是网页搜索、代码生成这类任务时,训练方式转向了更具Agentic特征的RL,数据不仅来源于自动流程,还引入了人类参与,以构建更真实的复杂多步交互场景。编程任务则直接用GitHub上的真实PR和issues作为标准,训练中结合准确率奖励和格式惩罚,引导模型学会规范、可靠地行动。

在更通用的实际应用场景里,比如工具调用和长文档推理,GLM-4.5又采用了不同的策略来补强。函数调用任务中,使用的是双轨策略:一部分是基于规则的逐步强化学习,确保工具调用的准确性;另一部分则通过奖励最终任务完成效果的方式,引导模型学会自主规划与调用工具。为了让模型更好地理解和利用长文本,智谱还安排了一个专门的长上下文RL阶段,让GLM-4.5在处理大规模文档时具备更强的推理能力。

总体来看,GLM-4.5的整个训练过程高度工程化:架构上通过MoE提升计算效率,训练流程中有针对性地为关键任务注入能力,强化学习阶段进一步拉高推理上限和实用表现,最终实现了推理、编码和智能体能力的原生融合。

也正是得益于在工具调用、网页浏览、软件工程、前端编程等领域的深耕,GLM-4.5系列模型与Claude Code、Cline、Roo Code等主流编程智能体实现了完美兼容,并且也可以通过工具调用接口支持任意的智能体应用。

这里还有一个非常值得关注的点:GLM-4.5展现出了极高的参数效率。其参数量仅为DeepSeek-R1的1/2、Kimi-K2的1/3,但在多项标准基准测试中表现得更为出色。在衡量模型编程能力的SWE-bench Verified榜单上,GLM-4.5系列直接位于性能/参数比的最优前沿,这意味着在相同规模下,它实现了最佳性能。

这种高参数效率的背后,是模型架构和训练策略有效性的有力证明——用更少的参数学到了更多、更有用的能力,这也意味着同等算力预算下GLM-4.5能实现更高的性价比

03. 结语:大模型开源突围,智能体赛道迎来“平替时代”?

说起来,这阵子智能体这个标签被贴得太滥了市面上五花八门的产品层出不穷,但真正能让用户每天都愿意长期信赖身边用下去的其实少之又少这在一定程度上其实是所有AI产品的通病要解决这个问题不仅仅靠打磨用户体验,底层模型能力的提升更是至关重要

随着像Claude、GPT这样的海外大模型获取越来越困难而且价格越来越贵,国产开源模型现在正为开发者们提供一条更高效的本土化解决方案。从这个角度看,GLM-4.5的出现,时机刚刚好。

来源:https://www.aiagiai.com/13438.html
上一篇最新全球AI人才榜单显示中美遥遥领先 下一篇小扎一夜背刺开源亲手葬送Llama神话股价大涨12%
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
RAG四标融合企业知识资产体系四库协同GEO优化实践
AI教程 · 2026-07-01

RAG四标融合企业知识资产体系四库协同GEO优化实践

生成式AI正在彻底改写信息检索的底层逻辑。传统SEO依赖关键词堆砌和外链建设的策略,在大模型的内容采信规则下已经基本失效。取而代之的,是生成式引擎优化(GEO)。它不再关注外链数量,而是重点衡量你的知识是否结构化、证据链是否坚实、信源是否可靠——这些维度才是RAG(检索增强生成)架构真正看重的核心指

一个普通上班人分享WorkBuddy使用心得与真实体验
AI教程 · 2026-07-01

一个普通上班人分享WorkBuddy使用心得与真实体验

前言 最近我开始使用WorkBuddy——这是腾讯推出的一款AI办公工作台。差不多用了一周时间,趁印象还新鲜,把真实的使用感受记录下来,给还在犹豫的朋友做个参考。不吹不黑,只说实际体验。 初印象:不只是聊天机器人 之前用过不少AI工具,大多数就是个对话框,你问它答,答完就结束了。WorkBuddy不

AI幻觉变真功能实战教程:App Inventor 2视频录制拓展一周开发实录
AI教程 · 2026-07-01

AI幻觉变真功能实战教程:App Inventor 2视频录制拓展一周开发实录

先讲一个颇具戏剧性的开端。 这件事的开端颇显荒诞——有用户前来咨询,称AI Pro版的介绍中提到我们有一款“视频录制拓展”。团队全体成员都感到困惑,翻遍产品列表,发现根本不存在该组件。AI那种“一本正经胡说八道”的能力,这次确实让我们陷入尴尬。 按常理,此事到此便可结束——一句“抱歉,暂时没有这个拓

别再混淆OLAP和SQL-on-Hadoop两者查询本质不同
AI教程 · 2026-07-01

别再混淆OLAP和SQL-on-Hadoop两者查询本质不同

OLAP和SQL-on-Hadoop虽都使用SQL查询数据,但本质不同。SQL-on-Hadoop负责海量数据批量计算与ETL,查询速度秒级至分钟级;OLAP通过预聚合实现毫秒级多维分析,适合BI报表。两者在数据平台分工协作,前者是后厨加工,后者是前台快速服务。

GEO优化深度解析:AI偏好FAQ还是长文内容?
AI教程 · 2026-07-01

GEO优化深度解析:AI偏好FAQ还是长文内容?

在GEO优化中,AI对内容形式无统一偏好:FAQ在简单查询中引用率41%,长文在复杂查询中达58%。内容应基于用户意图选择形式,FAQ适配简单事实类问题,长文建立主题权威,两者互补而非替代。