当前位置: 首页 > 科技 > 文章内容页

GLM-4.5V视觉推理模型开源,百亿参数级性能领先

时间:2025-09-03    作者:游乐小编    

8月11日,智谱AI正式发布新一代开源视觉推理模型GLM-4.5V。这款总参数达106B(激活参数12B)的模型,号称是目前全球100B级别中效果最佳的开源视觉推理模型。目前已在魔搭社区和Hugging Face平台同步开源,其API调用价格也相当亲民,输入仅需2元/百万tokens,输出6元/百万tokens。

智谱视觉推理模型

据了解,GLM-4.5V基于智谱新一代旗舰文本基座模型GLM-4.5-Air打造,延续了GLM-4.1V-Thinking的技术路线。在41个公开视觉多模态榜单中,其综合表现达到了同级别开源模型的SOTA水平,涵盖图像、视频、文档理解以及GUI Agent等常见任务场景。

智谱视觉推理模型

除了在标准测试中的优异表现,GLM-4.5V更注重实际应用场景中的可用性。通过高效的混合训练策略,该模型具备了处理多种视觉内容的能力,能够实现全场景的视觉推理,具体包括:

  • 图像推理:场景理解、复杂多图分析、位置识别
  • 视频理解:长视频分镜分析、事件识别
  • GUI任务:屏幕读取、图标识别、桌面操作辅助
  • 复杂图表与长文档解析:研报分析、关键信息提取
  • Grounding能力:视觉元素的精准定位

智谱视觉推理模型

值得一提的是,GLM-4.5V新增了"思考模式"开关功能,用户可以根据实际需求,在快速响应和深度推理之间灵活切换,更好地平衡效率与效果。为了帮助开发者更直观地体验模型能力,智谱AI还同步开源了一款桌面助手应用。

这款桌面应用可以实时截屏、录屏获取屏幕信息,并借助GLM-4.5V的强大能力处理各类视觉推理任务。无论是代码辅助、视频内容分析、游戏解答,还是文档解读等日常需求,它都能成为一个得力的智能助手。智谱AI希望通过模型开源和API服务,赋能更多开发者基于这个多模态基座模型发挥创意,将那些曾经只出现在科幻电影中的场景变为现实。

热门推荐

更多

热门文章

更多

首页  返回顶部

本站所有软件都由网友上传,如有侵犯您的版权,请发邮件youleyoucom@outlook.com