智谱AI开源绘图模型CogView4功能详解与应用指南

时间：2026-05-25 08:49

开源世界的繁荣，似乎正以一种令人应接不暇的速度上演。就在昨天，智谱AI宣布获得杭州10亿融资，而今天，其与清华大学团队联合开源的AI绘图模型CogView4便已正式发布。这节奏，快得让人喘不过气。回顾上周，从DeepSeek连续五天的硬核技术开源，到阿里通义万相2 1的发布，再到Qwen推理模型的

智谱开源AI绘图CogView4，曾经的开源之光回来了！

开源世界的繁荣，似乎正以一种令人应接不暇的速度上演。就在昨天，智谱AI宣布获得杭州10亿融资，而今天，其与清华大学团队联合开源的AI绘图模型CogView4便已正式发布。这节奏，快得让人喘不过气。

回顾上周，从DeepSeek连续五天的硬核技术开源，到阿里通义万相2.1的发布，再到Qwen推理模型的预览，开源领域的拼图正在被一块块迅速补全。如今，CogView4的到来，无疑为2025年的开源版图增添了关键一块。

模型已在GitHub上公开，地址为：https://github.com/THUDM/CogView4。这是一个60亿参数的模型，根据官方提供的GPU需求估算，在BF16精度、batch size为4的情况下，最低可能仅需一张12GB显存的显卡即可运行。

为了快速验证，我们在一台A800-80G的云服务器上进行了部署测试。生成一张1024*1024分辨率的图像大约需要70秒，考虑到云服务的网络延迟，本地部署的速度预计会更快。当然，对于想直接体验的用户，智谱官方也提供了在线服务：https://modelscope.cn/studios/ZhipuAI/CogView4。

经过初步测试，CogView4有两个特点值得关注。

原生支持中英文字生成

首先，CogView4原生支持在图像中生成中英文字符。这在开源AI绘图模型中尚属首次。虽然市面上已有类似能力的闭源模型，但开源带来的可定制性和透明度是完全不同的。

从测试结果来看，其文字生成能力，尤其是中文，准确率还有提升空间，错别字率相对英文更高。推测其处理方式可能是将文字信息与视觉信息一同输入模型进行端到端生成，而非采用专门的文字渲染模块。这导致其在复杂审美和色彩搭配上，与当前顶尖的闭源模型存在一定差距。

然而，其优势恰恰在于“开源”二字。对于开发者而言，这提供了一个绝佳的基座模型。完全可以基于CogView4，使用更高质量、更具设计感的数据集进行微调，从而训练出专精于海报设计、Logo生成等垂直领域的强大模型。开源释放的正是这种可能性。

强大的语义理解与构图能力

第二个特点是其出色的语义理解和复杂构图能力。在测试中，无论是包含多个时空分区的超宽画卷，还是融合具体诗句意境的场景，模型都能较为准确地理解提示词中的空间关系、物体属性和文化元素，并将其组织到一幅连贯的画面中。

这种能力的提升，很大程度上得益于其文本编码器从T5换成了更强大的GLM4。这使得模型能更精准地捕捉自然语言描述的细微差别。

此外，模型在出图分辨率上提供了较高的灵活性，支持在2048像素以下进行几乎无级的比例调节。官方还表示，后续将支持ComfyUI工作流和ControlNet控制网络套件，并会提供微调脚本。这些工具的支持，将极大地方便开发者和研究者基于CogView4进行二次创作与优化。

目前开源的模型采用Apache 2.0协议。面向普通用户的版本，也计划于3月13日在智谱清言App中上线。

回归的开源之路

最后，不妨将目光放回智谱AI这家公司本身。在国内大模型厂商中，智谱曾是最早、最坚定的开源倡导者之一。早在2023年，其开源的ChatGLM-6B模型便风靡一时，在GitHub上收获了数万星标，成为许多开发者和企业进行模型微调与应用的起点。

随后，GLM-4、GLM-4-Voice、CogVideoX、CogAgent等一系列模型的开源，持续巩固了其“开源先锋”的形象。然而，随着2024年市场竞争加剧，其他厂商在开源领域也频频发力，智谱在开源社区的声量似乎有所减弱。

此次CogView4的发布，或许是一个明确的信号。在官方仓库的一张Demo图中，智谱将2025年定义为自己的“开源年”。这像是一种回归，也是一种宣言。

开源生态的繁荣，最终受益的是整个行业和所有开发者。每一家厂商在技术上的突破与开放，都如同增添了一盏灯火，共同照亮中国AI前行的道路。期待这片江湖，因更多这样的贡献而愈发蓬勃兴盛。

来源：https://www.uisdc.com/cogview4

上一篇大厂AI大模型科普课零基础入门到精通 下一篇Viggle AI视频生成教程：3D角色动画制作全攻略

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

AI教程 · 2026-07-01

RAG四标融合企业知识资产体系四库协同GEO优化实践

生成式AI正在彻底改写信息检索的底层逻辑。传统SEO依赖关键词堆砌和外链建设的策略，在大模型的内容采信规则下已经基本失效。取而代之的，是生成式引擎优化（GEO）。它不再关注外链数量，而是重点衡量你的知识是否结构化、证据链是否坚实、信源是否可靠——这些维度才是RAG（检索增强生成）架构真正看重的核心指