时间:2025-09-03 作者:游乐小编
8月11日,智谱AI正式发布新一代开源视觉推理模型GLM-4.5V。这款总参数达106B(激活参数12B)的模型,号称是目前全球100B级别中效果最佳的开源视觉推理模型。目前已在魔搭社区和Hugging Face平台同步开源,其API调用价格也相当亲民,输入仅需2元/百万tokens,输出6元/百万tokens。
据了解,GLM-4.5V基于智谱新一代旗舰文本基座模型GLM-4.5-Air打造,延续了GLM-4.1V-Thinking的技术路线。在41个公开视觉多模态榜单中,其综合表现达到了同级别开源模型的SOTA水平,涵盖图像、视频、文档理解以及GUI Agent等常见任务场景。
除了在标准测试中的优异表现,GLM-4.5V更注重实际应用场景中的可用性。通过高效的混合训练策略,该模型具备了处理多种视觉内容的能力,能够实现全场景的视觉推理,具体包括:
值得一提的是,GLM-4.5V新增了"思考模式"开关功能,用户可以根据实际需求,在快速响应和深度推理之间灵活切换,更好地平衡效率与效果。为了帮助开发者更直观地体验模型能力,智谱AI还同步开源了一款桌面助手应用。
这款桌面应用可以实时截屏、录屏获取屏幕信息,并借助GLM-4.5V的强大能力处理各类视觉推理任务。无论是代码辅助、视频内容分析、游戏解答,还是文档解读等日常需求,它都能成为一个得力的智能助手。智谱AI希望通过模型开源和API服务,赋能更多开发者基于这个多模态基座模型发挥创意,将那些曾经只出现在科幻电影中的场景变为现实。
2021-11-05 11:52
手游攻略2021-11-19 18:38
手游攻略2021-10-31 23:18
手游攻略2022-06-03 14:46
游戏资讯2025-06-28 12:37
单机攻略