游乐游手机版
首页/科技数码/文章详情

智谱IPO前推出旗舰大模型GLM-4,能力全面升级

时间:2025-12-23 12:58
在推进IPO的关键节点,智谱AI正式上线并开源其最新旗舰模型GLM-4 7,新版本针对Coding场景着重强化了编码能力、长程任务规划与工具协同,标志着该公司技术产品线的又一次重要迭代。12月23日

在推进IPO的关键节点,智谱AI正式上线并开源其最新旗舰模型GLM-4.7,新版本针对Coding场景着重强化了编码能力、长程任务规划与工具协同,标志着该公司技术产品线的又一次重要迭代。

12月23日,智谱正式上线并开源其最新旗舰模型GLM-4.7,在多项主流公开基准测试中,GLM-4.7展现了具有竞争力的性能,部分指标超越了目前市场的领先模型。数据显示,在全球百万用户参与盲测的专业编码评估系统Code Arena中,GLM-4.7位列开源第一、国产第一,并超越了GPT-5.2。同时,该模型在SWE-bench-Verified和LiveCodeBench V6等测试中均取得了开源SOTA(当前最佳)分数,对齐Claude Sonnet 4.5。

在架构上,GLM-4.7引入了“保留式思考”与“轮级思考”机制,显著提升了复杂任务的稳定性与可控性。在前端生成质量方面,模型对UI设计规范的理解得以增强,能够生成审美更佳的网页与PPT。目前,该模型已通过BigModel.cn提供API服务,并在z.ai全栈开发模式中上线Skills模块,支持多模态任务的统一规划。

此次更新标志着国产大模型在“思考”与“行动”协同能力上的进一步突破。随着Coding能力的增强,开发者能够更自然地以“任务交付”为核心组织开发流程,这一进展也被视为智谱在资本市场动作前夕展示技术肌肉的重要举措。

编码与推理能力刷新基准

根据公布的测试数据,GLM-4.7在编程和推理能力上实现了显著提升。在HLE(“人类最后的考试”)基准测试中,该模型获得42.8%的成绩,较上一代GLM-4.6提升41%,并超越了GPT-5.1。

在代码生成领域,GLM-4.7展现了在多语言编码方面的优势。具体评测数据包括:

SWE-bench-Verified:获得73.8%的开源SOTA分数。LiveCodeBench V6:达到84.9%的开源SOTA分数,超过Claude Sonnet 4.5。Terminal Bench 2.0:达到41%,提升幅度达16.5%。

此外,在工具调用能力方面,GLM-4.7在τ²-Bench交互式工具调用评测中得分87.4分,刷新开源记录。

引入可控“思考”模型

为解决复杂任务中的稳定性问题,GLM-4.7强化了思考能力的可控进化,具体体现在三个维度:

交错式思考:模型在每次回答或工具调用前进行预先思考,以提升对复杂指令的遵循能力及代码生成质量。保留式思考:支持在多轮对话中自动保留思考块,提升缓存命中率,从而降低长程任务的推理成本。轮级思考:允许在该会话内按“轮”控制推理开销,简单任务关闭思考以降低时延,复杂任务开启思考以确保准确性。

这种机制使得GLM-4.7能够在Claude Code、TRAE、Kilo Code、Cline和Roo Code等主流编程框架中实现“先思考、再行动”的逻辑,在实际编程任务的稳定性和可交付性上优于前代版本。

前端审美与全栈交付

针对前端开发场景,GLM-4.7提升了对视觉代码的理解力。在实际应用中,模型能够更好地遵循UI设计规范,在布局结构、配色和谐度及组件样式上提供具备美感的默认方案,减少人工微调时间。

据最新演示,该模型在办公创作中的版式审美显著升级,PPT 16:9的适配率从52%跃升至91%,生成结果基本达到“即开即用”标准。


在实际案例演示中,GLM-4.7已能独立完成如“植物大战僵尸”、“水果忍者”等高交互小游戏的开发,显示出较强的任务拆解与技术栈整合能力。


市场反馈:性价比与实战表现

GLM-4.7上线后迅速引起了全球开发者社区的关注,用户反馈主要集中在其实际解决问题的能力与极高的性价比上。

在社交媒体上,网友Diego分享了使用GLM-4.7编写Python代码来可视化单行道红绿灯的案例,评价称结果“整体运行良好”,仅指出车辆颜色随红绿灯变化的细微瑕疵。


网友Alex Fazio则表示在WebDev Arena上的表现令其震惊,直言“GLM-4.7超越了GPT-5.2”。

价格策略也成为市场讨论的焦点。网友Bessi指出,订阅一年GLM-4.7的费用仅相当于Codex或Claude Code最高级计划一个月的价格,并认为这种极具竞争力的定价模式将对西方AI公司构成挑战,直言“无论你是否喜欢,这就是未来”。


针对模型进化速度,网友Chubby评论称,HLE基准测试原本被设计为极其复杂、难以在短期内拟合的最终测试,但业界在短短12个月内通过各类工具将成绩从8%(o1)提升至45.8%,GLM-4.7此次取得的突破表明技术迭代速度正“超出预期”。

来源:https://www.163.com/dy/article/KHF984EU05198NMR.html
上一篇AI浪潮助推PC硬件价格飙升,玩家升级攻略解析 下一篇灰色攻击平台为何造成大规模破坏?专家深度解读
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
年国家能源局充换电服务业用电量增速48.8%
科技数码 · 2026-06-29

年国家能源局充换电服务业用电量增速48.8%

2025年全社会用电量达103682亿千瓦时,同比增长5 0%。充换电服务业用电增速高达48 8%,信息传输与软件服务业增速17 0%。第三产业和居民用电对增长贡献率合计占一半。中国成为全球首个年度用电量超10 4万亿千瓦时的国家。

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元
科技数码 · 2026-06-29

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元

追风者冰川360S25液冷散热器售价429元,三联一体风扇便捷安装,冷头小体积纯铜底座噪音18dB,风扇转速300-2000RPM、风量75CFM、静压2 96mmAq,五年质保漏液包赔。

三星Galaxy Watch8用户反馈谷歌后台组件异常
科技数码 · 2026-06-29

三星Galaxy Watch8用户反馈谷歌后台组件异常

三星GalaxyWatch8、Watch5Pro、Watch6及Watch7用户反映,GooglePlayServices后台耗电异常,电量占比最高达99 97%,远超正常水平,严重影响续航。目前故障原因不明,谷歌尚未发布官方声明。

罗永浩批苹果iOS 27创新不足 盼新CEO改进
科技数码 · 2026-06-29

罗永浩批苹果iOS 27创新不足 盼新CEO改进

罗永浩批评苹果iOS27创新不足,称仅有双iPhone同号、音量分离等数十项细节改进,认为库克时代缺乏突破性创新,股市虽好但消费者只能被迫接受挤牙膏式升级。

年国产车出口710万辆,两家车企销量破百万
科技数码 · 2026-06-29

年国产车出口710万辆,两家车企销量破百万

2025年国产汽车出口总量达710万辆,同比增长21%。奇瑞以134万辆居首,比亚迪105万辆次之,上汽乘用车出口占比60%最高,长城出口51万辆。吉利、长安等主流品牌同步增长,小鹏、零跑等新兴品牌海外拓展加速。