国产AI开源实测:截图转网页、搜图购物,价格减半

智东西
作者 王涵
编辑 心缘
智东西12月9日报道,昨晚,智谱开源了其GLM-4.6V系列多模态大模型,包括面向云端与高性能集群场景的基础版GLM-4.6V(106B-A12B)以及面向本地部署与低延迟应用的轻量版GLM-4.6V-Flash(9B)。
此外,今天上午,智谱还开源了大模型交互智能体AutoGLM,类似于“豆包手机助手”,该智能体在去年10月发布之时曾被业内视为“全球首个具备手机操作能力的AI Agent”。

▲GLM-4.6V开源主页(图源:Hugging Face)

▲AutoGLM开源主页(图源:Hugging Face)
据最新介绍,GLM-4.6V能够完成智能图文混排与内容创作、识图购物与导购、前端复刻与多轮视觉交互开发以及长上下文的文档与视频理解等任务,智东西第一时间对其进行了体验。
在实际体验中,GLM-4.6V的图像搜索、全网比价以及长文本和视频的理解能力表现较为稳定,其生成文字和网页的速度快、内容准。但图文混排能力上,其所生成的图片一直无法显示。对于模糊指令,GLM-4.6V的理解有些许偏差。
GLM-4.6V系列模型将训练时上下文窗口提升到128k tokens,其首次在模型架构中将Function Call(工具调用)能力原生融入视觉模型。
在性能上,在同等参数规模下,GLM-4.6V系列模型在多模态交互、逻辑推理和长上下文等关键能力上取得SOTA表现。
其中,9B版本的GLM-4.6V-Flash在覆盖了通用视觉问答、多模态推理、多智能体、多模态长文本、图表识别以及空间定位能力的34项测试中,有22项的分数超过Qwen3-VL-8B,106B参数12B激活的GLM-4.6V表现则与有着2倍参数量的Qwen3-VL-235B相接近。

▲GLM-4.6V系列模型基准测试(图源:z.ai/blog/glm-4.6v)
价格上,GLM-4.6V系列相较于GLM-4.5V降价50%,API调用价格低至输入1元/百万tokens,输出3元/百万tokens,GLM-4.6V-Flash全面免费。

▲GLM-4.6V系列模型价格表(图源:智谱AI)
GLM-4.6V开源地址:
GitHub:
https://github.com/zai-org/GLM-V
Hugging Face:
https://huggingface.co/collections/zai-org/glm-46v
魔搭社区:
https://modelscope.cn/collections/GLM-46V-37fabc27818446
GLM-4.6V体验地址:
https://c h a t.z.ai/
一、智能图文混排:可生成推文大纲,但无法显示图片
首先是智能图文混排与内容创作能力,GLM-4.6V构建了原生多模态工具调用能力,可以直接理解图像、截图、文档页面等多模态数据,无需先转为文字描述再解析。
我们上传了GLM-4.5V的技术报告,要求其生成一篇图文并茂的微信公众号文章。大约1-2分钟,GLM-4.6V就完成了对整个文档的阅读和理解,输出了包含标题、导语、五个章节以及结语的完整公众号文章,但经过多次尝试,其依旧无法显示出图片。

▲智能图文混排
二、识图购物与导购:自动比价一气呵成,但模糊搜索理解不到位
为了体验GLM-4.6V识图购物与导购功能,我们直接输入“帮我搜索现在iPhone 17 Pro Max在各平台的价格。”
GLM-4.6V会自动调用相关工具在全网中搜索,并且形成商品名、平台、品牌、商品图、商品链接以及店铺名的比价表格,直接点击链接即可跳转到购买页面。
▲商品比价
我们还可以直接让GLM-4.6V搜索《疯狂动物城2》中尼克狐尼克的同款眼镜,其通过图像搜索功能直接搜索出了其同款眼镜的实拍图。

▲模糊搜索导购
三、网页复刻:一张图丝滑生成网页代码,但图标更换不对
我们上传了一张X平台的登录页面截图,要求用户GLM-4.6V生成HTML代码和网页预览。

▲截图生成网页代码

▲生成网页预览
收到指令后,GLM-4.6V就立刻开始逐行生成HTML代码,并显示出预览页面。可以看出,其生成的“仿X”登录网页与原网页几乎一模一样。
此外,GLM-4.6V还支持多轮视觉交互,直接根据结果用自然语言指令修改网页的色彩、调整按钮位置等。
比如,我们在上一轮输出的基础上,要求其将网页主题色改为天蓝色,图标X改为Z,但还保持原风格。可以看到,针对修改主题色的要求,GLM-4.6V完成的很完善,但对于图标X改为Z的指令,其误生成了一个“向上箭头”形状。

▲修改网页元素
四、长上下文的文档理解:可同时处理多篇中英文论文,长文档理解准确
GLM-4.6V将视觉编码器与语言模型的上下文对齐能力提升至128k,在实际应用中,128k上下文约等于150页的文档、200页PPT或一小时视频。
为验证其长上下文的文档理解能力,我们直接甩给GLM-4.6V三篇网络平台治理领域的论文,其中有两篇中文文献和一篇英文文献,让其阅读以上论文,并生成一篇学习笔记。

▲生成论文学习笔记
从GLM-4.6V生成的效果来看,图片依旧没有显示出来,但文字部分内容齐备,逻辑清晰,将每篇文献中的核心观点和结论都清晰地罗列了出来,英文文献处理也没有错漏。
五、视频理解:能快速解析视频内容和拍摄技巧,但视频大小有限制
最后,GLM-4.6V还可以理解长视频内容,用户可以上传一部200M以内的MP4影片,要求其分析视频的拍摄手法和内容、结构等。
比如,我们上传了一段6分48秒的视频制作技巧分享视频,想要其总结一下视频的思路和内容,并给一些做摄影类自媒体的建议。

▲视频内容理解(上下滑动查看完整图片)
GLM-4.6V在几秒钟之内就给出了包含视频思路、叙事技巧、镜头运用和设备选用等的完整详解,并且给出了循序渐进的四条成为摄影博主的建议,回答准确且清晰完整。
结语:GLM-4.6V降低了视觉模型接入门槛
从实际体验来说,GLM-4.6V在日常工作上已经能帮不少忙,但生成效果还不太稳定,生成公众号文章时图片出不来、改网页细节时仍会有瑕疵,但其价格降到了上一个版本的一半,轻量版还免费,对于想尝试多模态AI的个人或小团队来说,门槛确实降低了不少。
在当前各家AI能力越来越接近的情况下,谁能把体验做得更顺畅、成本更低,谁就可能吸引更多开发者。
在最新推文中,智谱团队写到本周是其开源发布周,将会有更多成果开源,值得期待。
相关攻略
角色与核心任务 你是一位顶级的文章润色专家,擅长将AI生成的文本转化为具有个人风格的专业文章。现在,请对用户提供的文章进行“人性化重写”。 你的核心目标是: 在不改动原文任何事实信息、核心观点、逻辑结构、章节标题和所有图片的前提下,彻底改变原文的AI表达腔调,使其读起来像是一位资深人类专家的作品。
从“动口”到“动手”:OpenClaw如何将AI推入“执行时代”? 文|洞见新研社 3月的最后一周,OpenClaw的GitHub社区上演了一出反转剧。往日里忙着报错的开发者们这次成了观众,主角换成了来自蚂蚁、天融信、360等机构的安全研究员,他们密集披露了数十个涉及远程接管、信息泄露的高风险漏洞。
程序员惊喜,每月100美元!OpenAI上线全新Pro方案:Codex限时10倍额度 北京时间4月10日凌晨,OpenAI终于落下了重度用户期盼已久的那只靴子:正式推出每月100美元的全新订阅方案。 至此,OpenAI的商业化版图已经清晰地划分为四个核心层级: ·免费版(接入广告) ·每月8美元的G
2026 04 14 一个核心趋势是:未来的商业竞争,本质上是用户注意力资源的争夺战。谁能更精准、高效地连接信息与用户需求,谁就能在市场中赢得关键优势。 本文配图深刻揭示了这种高效连接的底层逻辑与完整工作流。它系统展示了从数据采集到价值交付的闭环链路,每个环节都紧密耦合。实践证明,其中任一节点的效率
AI行业迎来关键转折:从“烧钱补贴”迈入“商业化定价”新阶段。被市场誉为“Token第一股”的迅策科技(03317)迎来重大利好。近期,国泰君安国际大幅上调其目标价至245港元 股。多重因素驱动下,迅策有望成为AI领域“千亿市值俱乐部”的有力竞争者。 中国AI实现弯道超车:成本优势构筑核心壁垒 全球
热门专题
热门推荐
钉钉文档官网 在探讨企业级协同办公解决方案时,钉钉文档无疑是备受瞩目的核心工具之一。作为阿里巴巴钉钉官方推出的旗舰级应用套件,它深度融合了在线文档编辑、智能表格、思维导图等多种高效创作工具。其核心优势在于与钉钉平台生态的无缝衔接,能够直接同步企业内部组织架构与通讯录,实现团队成员间的即时协作与信息流
在数字化转型浪潮中,高效、易用的数据分析工具已成为企业提升决策效率的关键。商汤科技推出的“办公小浣熊”智能助手,正是基于自研大语言模型打造的一款创新产品,旨在彻底降低数据分析的技术门槛。用户无需掌握编程知识或复杂操作,即可通过自然对话完成从数据查询、处理到可视化洞察的全流程,让数据价值触手可及。 办
在人工智能技术快速发展的今天,MiniMax作为一家专注于全栈自研的AI公司,正以其独特的技术路径和前瞻性的布局,在业界脱颖而出。公司致力于构建覆盖文本、图像、语音和视频的新一代多模态智能模型矩阵,这不仅体现了对核心底层技术自主权的深度掌控,也展现了对未来人机交互与内容生成形态的前瞻思考。 那么,M
ApolloCreditFund(ACRED)作为连接传统信贷与DeFi的桥梁,其价格受市场情绪、协议基本面及宏观环境影响。其价值逻辑根植于现实世界资产(RWA)的收益捕获与链上流动性释放。短期价格波动难以预测,但长期发展取决于信贷资产质量、协议安全性和市场采用度。投资者需关注其底层资产表现、代币经济模型及整个RWA赛道的发展趋势。
在数字化转型浪潮中,一套能够深度适配业务、彰显品牌特色的智能客服系统,已成为企业提升服务效率与用户体验的关键工具。然而,市场上许多解决方案往往模式固化,难以满足个性化需求。如何让AI客服不仅具备基础的自动化应答能力,更能承载独特的品牌文化与服务哲学?其核心在于系统是否支持深度的自定义与持续的AI训练





