首页 游戏 软件 资讯 排行榜 专题
首页
AI
国产AI开源实测:截图转网页、搜图购物,价格减半

国产AI开源实测:截图转网页、搜图购物,价格减半

热心网友
18
转载
2025-12-11


智东西
作者 王涵
编辑 心缘

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

智东西12月9日报道,昨晚,智谱开源了其GLM-4.6V系列多模态大模型,包括面向云端与高性能集群场景的基础版GLM-4.6V(106B-A12B)以及面向本地部署与低延迟应用的轻量版GLM-4.6V-Flash(9B)。

此外,今天上午,智谱还开源了大模型交互智能体AutoGLM,类似于“豆包手机助手”,该智能体在去年10月发布之时曾被业内视为“全球首个具备手机操作能力的AI Agent”。


▲GLM-4.6V开源主页(图源:Hugging Face)


▲AutoGLM开源主页(图源:Hugging Face)

据最新介绍,GLM-4.6V能够完成智能图文混排与内容创作、识图购物与导购、前端复刻与多轮视觉交互开发以及长上下文的文档与视频理解等任务,智东西第一时间对其进行了体验。

在实际体验中,GLM-4.6V的图像搜索、全网比价以及长文本和视频的理解能力表现较为稳定,其生成文字和网页的速度快、内容准。但图文混排能力上,其所生成的图片一直无法显示。对于模糊指令,GLM-4.6V的理解有些许偏差。

GLM-4.6V系列模型将训练时上下文窗口提升到128k tokens,其首次在模型架构中将Function Call(工具调用)能力原生融入视觉模型。

在性能上,在同等参数规模下,GLM-4.6V系列模型在多模态交互、逻辑推理和长上下文等关键能力上取得SOTA表现。

其中,9B版本的GLM-4.6V-Flash在覆盖了通用视觉问答、多模态推理、多智能体、多模态长文本、图表识别以及空间定位能力的34项测试中,有22项的分数超过Qwen3-VL-8B,106B参数12B激活的GLM-4.6V表现则与有着2倍参数量的Qwen3-VL-235B相接近。


▲GLM-4.6V系列模型基准测试(图源:z.ai/blog/glm-4.6v)

价格上,GLM-4.6V系列相较于GLM-4.5V降价50%,API调用价格低至输入1元/百万tokens,输出3元/百万tokens,GLM-4.6V-Flash全面免费。


▲GLM-4.6V系列模型价格表(图源:智谱AI)

GLM-4.6V开源地址:

GitHub:

https://github.com/zai-org/GLM-V

Hugging Face:

https://huggingface.co/collections/zai-org/glm-46v

魔搭社区:

https://modelscope.cn/collections/GLM-46V-37fabc27818446

GLM-4.6V体验地址:

https://c h a t.z.ai/

一、智能图文混排:可生成推文大纲,但无法显示图片

首先是智能图文混排与内容创作能力,GLM-4.6V构建了原生多模态工具调用能力,可以直接理解图像、截图、文档页面等多模态数据,无需先转为文字描述再解析。

我们上传了GLM-4.5V的技术报告,要求其生成一篇图文并茂的微信公众号文章。大约1-2分钟,GLM-4.6V就完成了对整个文档的阅读和理解,输出了包含标题、导语、五个章节以及结语的完整公众号文章,但经过多次尝试,其依旧无法显示出图片。


▲智能图文混排

二、识图购物与导购:自动比价一气呵成,但模糊搜索理解不到位

为了体验GLM-4.6V识图购物与导购功能,我们直接输入“帮我搜索现在iPhone 17 Pro Max在各平台的价格。”

GLM-4.6V会自动调用相关工具在全网中搜索,并且形成商品名、平台、品牌、商品图、商品链接以及店铺名的比价表格,直接点击链接即可跳转到购买页面。

▲商品比价

我们还可以直接让GLM-4.6V搜索《疯狂动物城2》中尼克狐尼克的同款眼镜,其通过图像搜索功能直接搜索出了其同款眼镜的实拍图。


▲模糊搜索导购

三、网页复刻:一张图丝滑生成网页代码,但图标更换不对

我们上传了一张X平台的登录页面截图,要求用户GLM-4.6V生成HTML代码和网页预览。


▲截图生成网页代码


▲生成网页预览

收到指令后,GLM-4.6V就立刻开始逐行生成HTML代码,并显示出预览页面。可以看出,其生成的“仿X”登录网页与原网页几乎一模一样。

此外,GLM-4.6V还支持多轮视觉交互,直接根据结果用自然语言指令修改网页的色彩、调整按钮位置等。

比如,我们在上一轮输出的基础上,要求其将网页主题色改为天蓝色,图标X改为Z,但还保持原风格。可以看到,针对修改主题色的要求,GLM-4.6V完成的很完善,但对于图标X改为Z的指令,其误生成了一个“向上箭头”形状。


▲修改网页元素

四、长上下文的文档理解:可同时处理多篇中英文论文,长文档理解准确

GLM-4.6V将视觉编码器与语言模型的上下文对齐能力提升至128k,在实际应用中,128k上下文约等于150页的文档、200页PPT或一小时视频。

为验证其长上下文的文档理解能力,我们直接甩给GLM-4.6V三篇网络平台治理领域的论文,其中有两篇中文文献和一篇英文文献,让其阅读以上论文,并生成一篇学习笔记。


▲生成论文学习笔记

从GLM-4.6V生成的效果来看,图片依旧没有显示出来,但文字部分内容齐备,逻辑清晰,将每篇文献中的核心观点和结论都清晰地罗列了出来,英文文献处理也没有错漏。

五、视频理解:能快速解析视频内容和拍摄技巧,但视频大小有限制

最后,GLM-4.6V还可以理解长视频内容,用户可以上传一部200M以内的MP4影片,要求其分析视频的拍摄手法和内容、结构等。

比如,我们上传了一段6分48秒的视频制作技巧分享视频,想要其总结一下视频的思路和内容,并给一些做摄影类自媒体的建议。


▲视频内容理解(上下滑动查看完整图片)

GLM-4.6V在几秒钟之内就给出了包含视频思路、叙事技巧、镜头运用和设备选用等的完整详解,并且给出了循序渐进的四条成为摄影博主的建议,回答准确且清晰完整。

结语:GLM-4.6V降低了视觉模型接入门槛

从实际体验来说,GLM-4.6V在日常工作上已经能帮不少忙,但生成效果还不太稳定,生成公众号文章时图片出不来、改网页细节时仍会有瑕疵,但其价格降到了上一个版本的一半,轻量版还免费,对于想尝试多模态AI的个人或小团队来说,门槛确实降低了不少。

在当前各家AI能力越来越接近的情况下,谁能把体验做得更顺畅、成本更低,谁就可能吸引更多开发者。

在最新推文中,智谱团队写到本周是其开源发布周,将会有更多成果开源,值得期待。

来源:https://www.163.com/dy/article/KGC1EEH2051180F7.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

AI时代必懂:揭秘Token,大模型背后的关键计价单位
科技数码
AI时代必懂:揭秘Token,大模型背后的关键计价单位

今日金价,一克1000 06元;95号汽油,每升8块5毛7;电费是阶梯计价,家庭用电最多每千瓦时8毛9;克、升、千瓦时——单位一旦确定,便可以被标注价格,而价格决定了消费,也潜移默化地塑造着每个人的

热心网友
03.29
行业首发:OpenClaw全网刷屏,ClawManager一键收编AI龙虾大军
AI
行业首发:OpenClaw全网刷屏,ClawManager一键收编AI龙虾大军

新智元报道编辑:KingHZ【新智元导读】研究员三个月科研对话记录一夜清零,企业敏感数据公网裸奔……全行业首个企业级OpenClaw服务器部署管理方案ClawManager问世,让OpenClaw真

热心网友
03.29
140万Token之后:中国AI如何从规模领先转向价值跃迁
科技数码
140万Token之后:中国AI如何从规模领先转向价值跃迁

文 | 孙永杰近日,当国家数据局披露“日均Token调用量突破140万亿”的数据时,这个看似技术性的指标,很快被赋予了宏大的意义—中国正在成为AI时代最重要的“算力输出者”。Token(词元)原本只

热心网友
03.29
上海滨江惊进化龙虾,百种虾类上演生存竞争
科技数码
上海滨江惊进化龙虾,百种虾类上演生存竞争

“安装龙虾送Token”“OpenClaw实战应用”“OpenClaw攻防实战”……周六一早,2026全球开发者先锋大会就迎来了汹涌人潮,“龙虾”相关体验区更是人气爆棚,现场一片“百虾大战”的景象。

热心网友
03.29
龙虾养殖为何越养越贵,成本效益如何优化?
科技数码
龙虾养殖为何越养越贵,成本效益如何优化?

前阵子被捧上神坛的OpenClaw,现在已经成了人人喊打的吞金兽。很多人把问题归咎于大模型不够聪明,或者开源项目 Bug 太多。但我们体验一周后,可以明确告诉大家:都不是。核心原因就俩字:错配。龙虾

热心网友
03.28

最新APP

恶魔秘境
恶魔秘境
角色扮演 03-29
猫和老鼠华为
猫和老鼠华为
休闲益智 03-29
暗黑之地
暗黑之地
角色扮演 03-28
你比我猜
你比我猜
休闲益智 03-26
锦绣商铺
锦绣商铺
模拟经营 03-26

热门推荐

彭博社:苹果折叠iPhone将是重大改款,全新设计揭秘
网络安全
彭博社:苹果折叠iPhone将是重大改款,全新设计揭秘

IT之家 3 月 30 日消息,彭博社记者马克 · 古尔曼昨天在最新一期《Power On》通讯中表示,他对苹果首款折叠屏手机 iPhone Fold 寄予厚望。他表示,这款手机将成为“iPhone

热心网友
03.30
Intel新款CPU上市两天即涨17%:剖析首发热销溢价值
电脑教程
Intel新款CPU上市两天即涨17%:剖析首发热销溢价值

3月29日消息,Intel全新的Arrow Lake Refresh系列处理器酷睿Ultra 200S Plus已经于3月26日正式上市,包括酷睿Ultra 5 250K Plus和酷睿Ultra

热心网友
03.30
企查查上线智能体数据平台,Token消耗显著下降
科技数码
企查查上线智能体数据平台,Token消耗显著下降

企查查正式推出智能体数据平台(agent qcc com),可通过标准MCP协议对接阿里云百炼、扣子Coze、飞书集成平台等主流Agent平台。该平台针对AI Agent企业级应用面临的模型幻觉、上

热心网友
03.30
张雪赛车WSBK夺九千万A轮融资,封神夺冠与资本新篇
科技数码
张雪赛车WSBK夺九千万A轮融资,封神夺冠与资本新篇

【张雪机车获世界顶级赛事冠军】在3月28日进行的世界超级摩托车锦标赛(WSBK)中量级赛事(葡萄牙站)中,法国车手Valentin Debise驾驶张雪机车(编号53)820RR-RS车型,以领先近

热心网友
03.30
GoPro新品搭载GP3处理器,4月正式发布
科技数码
GoPro新品搭载GP3处理器,4月正式发布

IT之家 3 月 30 日消息,GoPro 上周(3 月 25 日)宣布将在 4 月 19 日-22 日的 NAB Show 2026 展会上发布新一代相机产品,搭载下一代 GP3 影像处理器。据介

热心网友
03.30