1月16日,据IT之家消息,智谱在1月14日宣布,联合开源新一代图像生成模型GLM-Image。该模型基于昇腾Atlas 800T A2设备与昇思MindSpore AI框架,实现了从数据到训练的全流程构建,成为首个在国产芯片上完成全程训练的SOTA多模态模型。
开源发布不到24小时,GLM-Image便登上全球AI开源社区Hugging Face Trending榜单首位。这也是完全依托国产芯片训练的国产模型首次在国际舞台上取得榜首位置。

智谱表示,GLM-Image项目的最终目标是实现全流程创新,这是GLM团队面向以Nano Banana Pro为代表的新一代“认知型生成”技术范式的一次探索。
从架构设计来看,GLM-Image并未采用开源领域常用的LDM方案,而是创新性地使用了“自回归+扩散解码器”的混合架构。该架构在主流对齐方案的基础上,验证了其在知识密集型场景下生成内容的优越性。
在训练基础设施上,GLM-Image实现了基于昇腾Atlas 800T A2设备和昇思MindSpore AI框架的全流程训练及推理适配。其实际训练性能足以达到相应计算设备的理论性能上限,验证了在国产算力上训练出SOTA模型的可行性。
从性能表现来看,GLM-Image在CVTG-2K(复杂视觉文本生成)和LongText-Bench(长文本渲染)榜单中均取得开源第一的成绩。它能够准确理解指令、生成对应文字,尤其擅长汉字生成任务,可广泛应用于海报、PPT、科普图等知识密集型场景。
开源项目地址已公布:
GitHub:zai-org/GLM-ImageHugging Face:zai-org/GLM-Image
