首页 游戏 软件 资讯 排行榜 专题
首页
AI
智谱GLM-4V开源发布:不仅能看懂,更学会了“动手”

智谱GLM-4V开源发布:不仅能看懂,更学会了“动手”

热心网友
83
转载
2025-12-10

时间来到2025年,单纯比拼OCR准确率或识图能力的时代已经成为过去。GLM-4.6V的出现,标志着多模态模型开始向“行动派”转型。对开发者而言,现在最大的问题不再是“模型能不能看懂这张图”,而是“既然它能看懂也能操作,我们能用它创造出什么样的新物种?”。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

2025年12月8日,智谱AI没有预告,直接甩出了一张王牌:GLM-4.6V系列多模态大模型正式上线并全部开源。

如果你还在关注那些只会“看图说话”的模型,那这次你可能要刷新一下认知了。智谱这次的更新,不是简单的参数堆叠,而是试图解决多模态领域一个最尴尬的痛点——大模型不仅要有眼睛,还得有手。

图片

从“解说员”进化为“操作员”

过去我们用视觉大模型,流程通常是这样的:扔一张图给模型,问它“这是什么”,模型回答“这是一个网页报错”。然后呢?然后就没有然后了。你得自己去写代码修复。

GLM-4.6V的核心突破在于“原生多模态工具调用”。这是什么概念?意味着图像、视频不再仅仅是需要被“翻译”成文字的累赘,它们直接成为了函数调用的参数。

模型可以直接读取你的屏幕截图,理解UI布局,然后调用工具去点击、输入,甚至直接生成前端代码并进行视觉修正。它不再是一个站在旁边指指点点的解说员,而是一个能真正下场干活的操作员。对于想做多模态Agent(智能体)的开发者来说,这简直是梦寐以求的基础设施。

图片

两款模型,丰俭由人

这次智谱的刀法依旧精准,推出了两款定位截然不同的模型。

GLM-4.6V (106B):这是给追求极致性能的玩家准备的。虽然参数量高达106B,但激活参数控制在12B(MoE架构),在云端高性能集群上,它能处理复杂的长文档和深度推理任务。根据最新数据,它的表现直接对标行业顶尖闭源模型。

GLM-4.6V-Flash (9B):这是给务实派准备的惊喜。9B的体积意味着它可以轻松部署在本地,甚至是一些端侧设备上。虽然是轻量版,但它在OCR、视频理解等高频场景下的表现并不含糊,甚至在这个尺寸下击败了Qwen3-VL-8B等竞品。

更重要的是,全系模型支持128K的超长上下文。什么概念?你可以一次性扔给它一本150页的技术文档,或者一段1小时的视频,它不仅能读完,还能在里面精准地找到你需要的细节。

图片

价格屠夫与开源诚意

技术再好,用不起也是白搭。智谱这次显然是想快速抢占市场。

相比上一代GLM-4.5V,新版API的价格直接腰斩了50%。输入1元/百万tokens,输出3元/百万tokens。而那个可以在本地跑得飞起的Flash版本,智谱直接宣布:免费。

在开源策略上,智谱也没有藏着掖着。权重、推理代码、示例工程全部推上了GitHub和Hugging Face。MIT协议,允许商业使用。这意味着,明天你可能就会看到一大波基于GLM-4.6V的垂直应用如雨后春笋般冒出来。

图片

写在最后

在2025年这个节点,单纯比拼OCR准确率或者识图能力的时代已经过去了。GLM-4.6V的出现,标志着多模态模型开始向“行动派”转型。

对于开发者而言,现在最大的问题不再是“模型能不能看懂这张图”,而是“既然它能看懂也能操作,我们能用它创造出什么样的新物种?”

大模型的下半场,拼的是落地,而GLM-4.6V,显然已经把梯子架好了。

来源:https://www.51cto.com/article/831564.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

智谱 GLM-5.1 模型公布,所有 Coding Plan 用户均可调用
AI
智谱 GLM-5.1 模型公布,所有 Coding Plan 用户均可调用

智谱 GLM-5 1 模型正式上线:面向所有 Coding Plan 用户全面开放 API 调用 2025年3月27日,智谱AI重磅发布全新一代GLM-5 1大语言模型。对于广大开发者而言,本次更新带来一个利好消息:所有订阅 Coding Plan 的用户(涵盖 Max、Pro 及 Lite 版本)

热心网友
04.01
OpenClaw生态成AI厂商核心,智谱涨幅超20%解析
科技数码
OpenClaw生态成AI厂商核心,智谱涨幅超20%解析

4月1日,截至发稿,智谱(02513 HK)涨21 34%、MINIMAX-W(00100 HK)涨8 88%、迅策(03317 HK)涨7 26%。消息面上,OpenClaw生态持续成为国内AI厂

热心网友
04.01
大模型第一股财报:2025年全年收入翻倍增长,MaaS平台ARR激增
科技数码
大模型第一股财报:2025年全年收入翻倍增长,MaaS平台ARR激增

3月31日盘后,智谱发布了2025年度业绩报告,这是智谱上市后的首份财报。智谱公告称,公司在2025年全年实现总收入7 24亿人民币,同比增长131 9%,这让智谱成为国内收入规模最大的大模型公司。

热心网友
04.01
智谱高层解读模型首份成绩单:Token量价齐升背后的持续性
科技数码
智谱高层解读模型首份成绩单:Token量价齐升背后的持续性

3月31日,“大模型第一股”智谱(2513 HK)发布上市后首份年度业绩公告。财报显示,智谱2025年总营业收入7 24亿元,同比增长131 9%;年内亏损47 18亿元,同比扩大59 5%;经调整

热心网友
03.31
智己汽车2025营收目标7.24亿:同比劲增132%的战略布局
科技数码
智己汽车2025营收目标7.24亿:同比劲增132%的战略布局

3月31日消息,智谱(HK:02513)今日正式发布2025年全年业绩,这是其上市后首份财报。智谱2025年营收7 24亿,较上年同期的3 12亿增131 9%。MaaS商业飞轮全面运转,MaaS

热心网友
03.31

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

《无限轮回》萌新必备小技巧
游戏攻略
《无限轮回》萌新必备小技巧

《无限轮回》新手入门指南:高效开局与核心机制解析 你是否渴望在《无限轮回》中快速成长,成为团队中可靠的伙伴?对于新手而言,正确的开局思路至关重要。切忌盲目拾取未知物品,一个不当操作——例如过早将关键法器“葫芦”交给队友——就可能打乱核心输出的成长节奏,导致团队覆灭。作为团队辅助,你的首要目标并非打出

热心网友
04.03
累计突破82万!《宝可梦Pokopia》Fami通销量四连冠
游戏资讯
累计突破82万!《宝可梦Pokopia》Fami通销量四连冠

Fami通最新销量榜出炉:日本实体游戏软件销量数据解读(2026年3月16日-22日) 日本游戏市场每周的风向变幻,总是由那些长青的头部作品与新晋热作共同书写。根据权威媒体《Fami通》最新发布的实体销量估算数据,在2026年3月16日至3月22日这一周,市场格局呈现出清晰的趋势:任天堂Switch

热心网友
04.03
王者荣耀s43射手梯度排行
游戏攻略
王者荣耀s43射手梯度排行

王者荣耀S43赛季射手梯度排行榜单 新赛季的射手格局已基本定型,可以用一句话概括核心趋势:敖隐与蚩妩两位英雄构成双星闪耀的T0阵营,综合强度堪称断层领先。紧随其后的T1梯队中,公孙离、艾琳、孙权、元流之子(射手)等英雄各怀绝技,或凭借极致的灵活拉扯掌控战局,或依赖无解的持续输出主宰团战。而处于T2梯

热心网友
04.03
《长生:天机降世》游戏玩法介绍
游戏攻略
《长生:天机降世》游戏玩法介绍

长生:天机降世怎么玩:从入门到精通的全面攻略 《长生:天机降世》是一款深度策略卡牌手游。其核心玩法在于通过策略性的卡牌组合与角色搭配,在限定回合内,最大化自身伤害输出并在竞技排行榜上取得优势。想要玩好这款游戏,深入理解其底层机制是关键第一步。 《长生:天机降世》新手入门与高阶玩法解析: 一、游戏核心

热心网友
04.03
本来生活如何查物流信息
手机教程
本来生活如何查物流信息

在本来生活平台下单购物后,及时查询并跟踪物流信息,可以帮助我们准确掌握包裹的预计送达时间,提前做好收货安排。那么,在本来生活应该如何高效地查询快递物流状态呢?下面为您详细介绍几种常用方法。 进行网络购物之后,用户最关心的问题通常是“我的包裹现在运送到哪里了?”实时了解物流进度,不仅能减少等待期间的焦

热心网友
04.03