探秘GLM-4-6V开源发布:多模态AI模型API降价50%开放商用
12月8日,智谱AI正式宣布发布并开源GLM-4.6V系列多模态大模型,具体包含两款:
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
GLM-4.6V(106B-A12B):专为云端服务与高性能集群场景打造的基础版本;
GLM-4.6V-Flash(9B):面向本地部署与低延迟应用场景的轻量化版本。
作为GLM系列在多模态方向上的一次重要升级,GLM-4.6V将训练时上下文窗口提升到128k tokens,其视觉理解精度达到了同参数规模的SOTA水平。此次迭代首次在模型架构中将Function Call(工具调用)能力原生融入视觉模型,打通了从“视觉感知”到“可执行行动(Action)”的链路,为真实业务场景中的多模态Agent提供了统一的技术底座。
除了性能优化,GLM-4.6V系列相较GLM-4.5V价格下降50%,API调用价格低至输入1元 / 百万tokens,输出3元 / 百万tokens。
同时,GLM-4.6V-Flash将免费开放使用。
GLM-4.6V即日起融入GLM Coding Plan,针对用户8大类场景定向开发了专用MCP工具,模型可自主调用最匹配的接口。
智谱AI介绍称,传统工具调用大多基于纯文本,在面对图像、视频、复杂文档等多模态内容时,往往需要多次中间转换,容易导致信息损耗和工程复杂度上升。GLM-4.6V从设计之初就围绕“图像即参数,结果即上下文”的理念,构筑了原生多模态工具调用能力:
输入多模态:图像、截图、文档页面等可以直接作为工具参数,无需先转为文字描述再解析,减少了链路损耗。
输出多模态:对于工具返回的统计图表、渲染后网页截图、检索到的商品图片等结果,模型能够再次进行视觉理解,并将其纳入后续推理链路。
模型原生支持基于视觉输入的工具调用,完整打通从感知到理解再到执行的闭环。这使得GLM-4.6V能够应对图文混排输出、商品识别与好价推荐,以及辅助型Agent场景等更复杂的视觉任务。
GLM-4.6V在MMBench、MathVista、OCRBench等30多个主流多模态评测基准上进行了验证,较上一代模型取得显著提升。在同等参数规模下,模型在多模态交互、逻辑推理和长上下文等关键能力上均取得了SOTA表现。其中,9B版本的GLM-4.6V-Flash整体表现超过Qwen3-VL-8B,而106B参数12B激活的GLM-4.6V表现则比肩2倍参数量的Qwen3-VL-235B。
智谱AI开放了GLM-4.6V的模型权重、推理代码与示例工程,附开源地址如下:
GitHub:https://github.com/zai-org/GLM-V
Hugging Face:https://huggingface.co/collections/zai-org/glm-46v
魔搭社区:https://modelscope.cn/collections/GLM-46V-37fabc27818446
热门专题
热门推荐
任天堂吉祥物马里奥的宿敌酷霸王解析:为何这位反派深受喜爱?宫本茂通过电影揭示角色深层魅力 谈到任天堂的经典形象,马里奥与酷霸王这对宿敌的组合可谓深入人心。一边是永不放弃拯救碧姬公主的英雄,另一边则是不断制造混乱的恶棍,故事框架虽简单却历经三十余年依然人气不减。但仔细品味,酷霸王这个角色颇为值得玩味:
洛克王国神圣狮鹫图鉴:揭秘悬崖之王的飞行奥秘 当冒险者们踏上洛克王国的高耸悬崖,便能感受到猛烈的疾风。呼啸而过的气流远超平地的强度,然而正是这片常年不息的风域,成为了狮鹫一族最卓越的自然训练场。在这个独特的环境中,它们锤炼出了对抗强风与复杂气流的顶级飞行技巧,其背后的生存智慧,实在值得探险者们深入探
4月2日消息,三星电子最新表示,自2019年起连续七年位居全球第一。根据三星援引的市场调研公司IDC数据,2025年三星电子在全球游戏电竞显示器市场的收入占比达到18 9%。从销量来看,2025年三
内存市场因为人工智能高带宽内存的蓬勃需求而陷入供应紧张,传统内存也因大量产线被占用而供不应求。在这种大背景下,苹果似乎采取了一种争议性的商业手段,来进一步扩大其市场份额。据韩国消息人士透露,苹果公司
4月6日消息,近期内存市场风声鹤唳,现货价格小幅回调就引发了内存价格崩盘”的论调,甚至带动相关个股集体下跌,但行业龙头三星却完全不为所动,反而按计划继续上调DRAM内存产品价格,用实际行动打破了市场





