1月14日消息,智谱今日正式宣布,其联合华为开源的新一代图像生成模型GLM-Image已正式发布。
该模型基于昇腾Atlas 800T A2设备与昇思MindSpore AI框架,实现了从数据准备到模型训练的全流程国产化,成为首个在国产芯片上完成全程训练的SOTA级别多模态模型。
此举也验证了,在国产全栈算力底座上训练高性能多模态生成模型,是一条完全可行的技术路径。
据介绍,GLM-Image采用了自主创新的自回归与扩散解码器混合架构,能够同时兼顾全局指令理解与局部细节刻画,有效解决了海报、PPT、科普图等知识密集型场景的生成难题。
在CVTG-2K(复杂视觉文本生成)和LongText-Bench(长文本渲染)两大权威榜单上,GLM-Image均取得了开源模型第一的成绩,尤其在汉字生成任务上表现尤为出色。
最新信息显示,在API调用模式下,生成一张图片的成本仅需0.1元,其速度优化版本也即将更新上线。
以下为GLM-Image实测案例

GLM-Image 更擅长绘制包含复杂逻辑流程与文字说明的科普插画及原理示意图
在生成电商图、漫画等多格图画时,GLM-Image能够保持风格和主体的一致性,并保障多处文字生成的准确率

社交媒体图文封面

商业海报
写实摄影
