游乐游手机版
首页/AI教程/文章详情

智谱AI开源绘图模型CogView4功能详解与应用指南

时间:2026-05-25 08:49
开源世界的繁荣,似乎正以一种令人应接不暇的速度上演。就在昨天,智谱AI宣布获得杭州10亿融资,而今天,其与清华大学团队联合开源的AI绘图模型CogView4便已正式发布。这节奏,快得让人喘不过气。 回顾上周,从DeepSeek连续五天的硬核技术开源,到阿里通义万相2 1的发布,再到Qwen推理模型的

智谱开源AI绘图CogView4,曾经的开源之光回来了!

开源世界的繁荣,似乎正以一种令人应接不暇的速度上演。就在昨天,智谱AI宣布获得杭州10亿融资,而今天,其与清华大学团队联合开源的AI绘图模型CogView4便已正式发布。这节奏,快得让人喘不过气。

回顾上周,从DeepSeek连续五天的硬核技术开源,到阿里通义万相2.1的发布,再到Qwen推理模型的预览,开源领域的拼图正在被一块块迅速补全。如今,CogView4的到来,无疑为2025年的开源版图增添了关键一块。

模型已在GitHub上公开,地址为:https://github.com/THUDM/CogView4。这是一个60亿参数的模型,根据官方提供的GPU需求估算,在BF16精度、batch size为4的情况下,最低可能仅需一张12GB显存的显卡即可运行。

为了快速验证,我们在一台A800-80G的云服务器上进行了部署测试。生成一张1024*1024分辨率的图像大约需要70秒,考虑到云服务的网络延迟,本地部署的速度预计会更快。当然,对于想直接体验的用户,智谱官方也提供了在线服务:https://modelscope.cn/studios/ZhipuAI/CogView4。

经过初步测试,CogView4有两个特点值得关注。

原生支持中英文字生成

首先,CogView4原生支持在图像中生成中英文字符。这在开源AI绘图模型中尚属首次。虽然市面上已有类似能力的闭源模型,但开源带来的可定制性和透明度是完全不同的。

从测试结果来看,其文字生成能力,尤其是中文,准确率还有提升空间,错别字率相对英文更高。推测其处理方式可能是将文字信息与视觉信息一同输入模型进行端到端生成,而非采用专门的文字渲染模块。这导致其在复杂审美和色彩搭配上,与当前顶尖的闭源模型存在一定差距。

然而,其优势恰恰在于“开源”二字。对于开发者而言,这提供了一个绝佳的基座模型。完全可以基于CogView4,使用更高质量、更具设计感的数据集进行微调,从而训练出专精于海报设计、Logo生成等垂直领域的强大模型。开源释放的正是这种可能性。

强大的语义理解与构图能力

第二个特点是其出色的语义理解和复杂构图能力。在测试中,无论是包含多个时空分区的超宽画卷,还是融合具体诗句意境的场景,模型都能较为准确地理解提示词中的空间关系、物体属性和文化元素,并将其组织到一幅连贯的画面中。

这种能力的提升,很大程度上得益于其文本编码器从T5换成了更强大的GLM4。这使得模型能更精准地捕捉自然语言描述的细微差别。

此外,模型在出图分辨率上提供了较高的灵活性,支持在2048像素以下进行几乎无级的比例调节。官方还表示,后续将支持ComfyUI工作流和ControlNet控制网络套件,并会提供微调脚本。这些工具的支持,将极大地方便开发者和研究者基于CogView4进行二次创作与优化。

目前开源的模型采用Apache 2.0协议。面向普通用户的版本,也计划于3月13日在智谱清言App中上线。

回归的开源之路

最后,不妨将目光放回智谱AI这家公司本身。在国内大模型厂商中,智谱曾是最早、最坚定的开源倡导者之一。早在2023年,其开源的ChatGLM-6B模型便风靡一时,在GitHub上收获了数万星标,成为许多开发者和企业进行模型微调与应用的起点。

随后,GLM-4、GLM-4-Voice、CogVideoX、CogAgent等一系列模型的开源,持续巩固了其“开源先锋”的形象。然而,随着2024年市场竞争加剧,其他厂商在开源领域也频频发力,智谱在开源社区的声量似乎有所减弱。

此次CogView4的发布,或许是一个明确的信号。在官方仓库的一张Demo图中,智谱将2025年定义为自己的“开源年”。这像是一种回归,也是一种宣言。

开源生态的繁荣,最终受益的是整个行业和所有开发者。每一家厂商在技术上的突破与开放,都如同增添了一盏灯火,共同照亮中国AI前行的道路。期待这片江湖,因更多这样的贡献而愈发蓬勃兴盛。

来源:https://www.uisdc.com/cogview4
上一篇大厂AI大模型科普课 零基础入门到精通 下一篇Viggle AI视频生成教程:3D角色动画制作全攻略
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
RAG四标融合企业知识资产体系四库协同GEO优化实践
AI教程 · 2026-07-01

RAG四标融合企业知识资产体系四库协同GEO优化实践

生成式AI正在彻底改写信息检索的底层逻辑。传统SEO依赖关键词堆砌和外链建设的策略,在大模型的内容采信规则下已经基本失效。取而代之的,是生成式引擎优化(GEO)。它不再关注外链数量,而是重点衡量你的知识是否结构化、证据链是否坚实、信源是否可靠——这些维度才是RAG(检索增强生成)架构真正看重的核心指

一个普通上班人分享WorkBuddy使用心得与真实体验
AI教程 · 2026-07-01

一个普通上班人分享WorkBuddy使用心得与真实体验

前言 最近我开始使用WorkBuddy——这是腾讯推出的一款AI办公工作台。差不多用了一周时间,趁印象还新鲜,把真实的使用感受记录下来,给还在犹豫的朋友做个参考。不吹不黑,只说实际体验。 初印象:不只是聊天机器人 之前用过不少AI工具,大多数就是个对话框,你问它答,答完就结束了。WorkBuddy不

AI幻觉变真功能实战教程:App Inventor 2视频录制拓展一周开发实录
AI教程 · 2026-07-01

AI幻觉变真功能实战教程:App Inventor 2视频录制拓展一周开发实录

先讲一个颇具戏剧性的开端。 这件事的开端颇显荒诞——有用户前来咨询,称AI Pro版的介绍中提到我们有一款“视频录制拓展”。团队全体成员都感到困惑,翻遍产品列表,发现根本不存在该组件。AI那种“一本正经胡说八道”的能力,这次确实让我们陷入尴尬。 按常理,此事到此便可结束——一句“抱歉,暂时没有这个拓

别再混淆OLAP和SQL-on-Hadoop两者查询本质不同
AI教程 · 2026-07-01

别再混淆OLAP和SQL-on-Hadoop两者查询本质不同

OLAP和SQL-on-Hadoop虽都使用SQL查询数据,但本质不同。SQL-on-Hadoop负责海量数据批量计算与ETL,查询速度秒级至分钟级;OLAP通过预聚合实现毫秒级多维分析,适合BI报表。两者在数据平台分工协作,前者是后厨加工,后者是前台快速服务。

GEO优化深度解析:AI偏好FAQ还是长文内容?
AI教程 · 2026-07-01

GEO优化深度解析:AI偏好FAQ还是长文内容?

在GEO优化中,AI对内容形式无统一偏好:FAQ在简单查询中引用率41%,长文在复杂查询中达58%。内容应基于用户意图选择形式,FAQ适配简单事实类问题,长文建立主题权威,两者互补而非替代。