国产芯片训练SOTA多模态模型：智谱与华为联手取得突破

首页

热心网友

转载

2026-01-14

金磊发自凹非寺
量子位 | 公众号 QbitAI

智谱华为，这个组合刚刚搞了波大的：

开源新一代图像生成模型GLM-Image，是中国首个全程在国产芯片上完成训练的SOTA多模态模型！

GLM-Image尤其擅长文字渲染，像最近很火的AI手抄报、插画、海报都能信手拈来：

不难看出，如此多的汉字，在GLM-Image的手上可以说是轻松拿捏、精准无误。

并且GLM-Image一出道就拿下了CVTG-2K（复杂视觉文字生成）和LongText-Bench（长文本渲染）双榜单的第一

再细分来看，在CVTG-2K中，GLM-Image凭借0.9116的Word Accuracy（文字准确率）和0.9557的NED（归一化编辑距离）拿下双料第一，表明生成的文字在准确性上做到了高度一致。

以及LongText-Bench中的中文、英文或平均分数，都位列开源模型中的第一。

除此之外，再划个重点：

用GLM-Image的API生成图片，现在一张图只要一毛钱（0.1元）！

咱就是说，国产芯+国产模型，这次真的赢麻了。

图片里的汉字，稳稳拿捏住了

天下苦AI生图不识字已经久矣。

以前让AI画个海报，画面虽然美如画，但文字却是乱如麻：不是缺笔少划，就是自创火星文。

这次GLM-Image最大的卖点，可以说就是能读懂且写对

那么接下来，我们就来给GLM-Image一些刁钻的难题，考验考验它的能力。

做小红书封面可以用“说”的

首先是咱们熟悉的“小红书风”。

这种图片不仅要求审美在线，最关键的是标题要大、要醒目，还得和画面完美融合。

我们扔给GLM-Image一段描述比较笼统的描述，让它先来自我发挥一下：

Prompt：生成一张小红书封面，图文并茂，表达泰国旅游最全攻略，要有人物和风景，有趣的设计。

讲真，是有一点惊艳在身上的。

感觉GLM-Image已然get到了小红书封面的奥义，鲜艳的配色、醒目的文字，还有逼真的人物，一下子就让人想点进去了解一番。

还有小红书上比较流行的科普详解图，GLM-Image可以根据智谱最新推文直接生成亮点内容图解：

以后啊，要想做一个小红书或者其它社交媒体的封面，只要0.1元，让GLM-Image来处理就好了。

而且GLM-Image原生支持1024x1024至2048x2048的任意比例输出。智谱开放平台体验中心提供了10个尺寸的选项，可以适配各种类型的社交媒体平台。

商业海报，1毛钱直出

假如你现在想要做一张有艺术感的商业广告大片，那么只要把你的想法转成Prompt即可，例如：

Prompt：大师级摄影，获奖作品，东方禅意，神秘氛围。中心构图，极致负空间留白，一位沉静内省的男性背影，戴浅色宽檐帽，处于绝对静止剪影状态。中景：浓雾弥漫充满全部画面。双重曝光，人物透明叠加于中景，透明晕染重叠，重叠处露出黄昏都市，暖金色暮光逆侧光，建筑轮廓与霓虹因慢门化作动态模糊、拖曳的暖黄色光轨。光影：黑柔滤镜，轮廓光勾勒帽檐肩线，面部阴影中有微妙的深灰至灰渐变，强烈明暗对比。色调：低饱和度暖调（浅棕、暖黄、灰绿，阴影泛青灰），富士怀旧负片胶片质感。后期：空气透视，朦胧诗意，印象派氛围。视觉张力，虚实结合，情绪氛围摄影，电影帧叙事。标语：“流光过隙，我自静观。” 半透明标题“SILENCE”嵌入雾中。

再如我们现在做一个关于白酒的广告片，Prompt如下：

Prompt：以中式酒饮为主题，搭配古朴松枝。场景为白色背景的展示台，营造典雅氛围。构图上，将酒瓶摆放于黑色怪石，白色花艺自然穿插点缀，突出层次。色彩以画面风格追求国风雅韵，借中式元素（传统绘画、松枝）传递东方美学，背景简洁渐变，聚焦产品与国风意境融合，打造具有文化底蕴的茶饮展示效果。酒瓶身自然地嵌入中文“松酒”。

嗯，是有点设计感在身上的。

人物、场景，逼真得分不清是AI

真实性，也是考验图片生成能力的重要因素。

接下来，我们就让GLM-Image生成几张真实人物的照片：

Prompt：一位男模特，行走于都市天台，风衣下摆被大风扬起，动态模糊，大场景，强透视，低角度仰拍，胶片粗颗粒质感，黑金色调，前卫艺术美学，力量感，高级感，时尚大片视角，8K，大师杰作。

像极了在现实生活中拍出来的男模特。

我们再来试试一张有点影视剧照的风格：

Prompt：营造出优雅浪漫的古典闲适氛围。中国宋代古典装束、精致器物，搭配窗外的自然景致，传递出远离尘嚣的诗意与雅致，让观者感受到那份古典浪漫中的松弛感。超写实风格暗黑。

如何？是不是有够逼真的？

哦对了，在GLM-Image这里，多图拼接也是可以的哦~

怎么在华为芯片上训出的SOTA？

看完效果，相信很多小伙伴要不禁问了：这到底是怎么做到的？

尤其是在目前高性能显卡受限的大背景下，GLM-Image不仅做出来了，还号称是首个全程在国产芯片上完成训练的SOTA模型

这背后的技术含金量，值得咱们好好聊一聊。

混血架构：自回归 + 扩散解码器

目前从大方向来看生图领域技术的发展，主要有两大流派：

扩散模型（Diffusion）：比如Stable Diffusion、Flux。擅长画细节，光影质感好，但理解复杂的全局指令（比如空间关系、多物体布局）比较吃力。自回归模型（Autoregressive, AR）：比如DALL·E 3的部分逻辑。擅长理解语言、规划布局，但在生成高分辨率图像的细节上，推理速度慢，且容易崩。

但GLM-Image的玩法是这样的：小孩子才做选择，成年人我全都要。

于是，它搞出了一个“自回归 + 扩散解码器”的混合架构，可以理解为一个大脑和笔画的组合：

大脑（9B 自回归模型）：负责理解和规划。它先读懂你那几百字的复杂Prompt，规划好哪里画人、哪里写字、排版怎么排。画笔（7B DiT 扩散解码器）：负责上色和精修。它接过“大脑”的草图，把细节填充得满满当当，保证画质细腻。

这就是为什么它在处理CVTG-2K这种榜单时能拿第一的原因。因为它不仅仅是在生成像素，而是在先理解布局，再填充内容。

华为A2芯片+Mindspeed-LLM

这或许是这次发布内容中最为硬核的地方。

我们都知道，训练一个几十亿参数的SOTA模型，对算力的稳定性、通信带宽要求极高。以往大家默认只有英伟达的卡能干这事儿。

但GLM-Image却选择了国产：它全程基于华为Ascend A2芯片进行训练。

为了让这套国产硬件发挥出最大效能，智谱和华为配合，深度优化了Mindspeed-LLM框架。

全流程跑通：从海量数据的预处理，到大规模的预训练，再到最后的微调，全部在国产全栈算力底座上完成。算子级优化：针对国产芯片的特性，重新写了底层算子，让训练效率直接起飞。

尤其是最为关键的 RL（强化学习）后训练阶段，在华为Ascend A2算力集群上，智谱团队针对RL训练流程进行了专项优化：

大规模集群的稳定性控制：RL训练容易出现梯度爆炸或不稳定的情况。依托华为全栈算力底座，智谱实现了超大规模集群下的长时间稳定训练，确保了模型收敛的鲁棒性。算子级深度重构：为了适配RL过程中特有的动态计算图，智谱与华为合作，重新编写了底层核心算子。这不仅提升了单卡效率，更让万卡级别的通信带宽利用率显著优化，解决了国产芯片在复杂后训练逻辑中的“水土不服”。异构计算的协同：利用昇思MindSpore框架，GLM-Image在训练时实现了计算与通信的完美并行（Overlap），让模型在处理2048×2048这种超高分辨率图像的RL训练时，依然能保持高效的吞吐量。

这种深度适配带来的结果是显而易见的。GLM-Image 不仅是国产芯片训出来的，更是在国产算力极限压力测试下卷出来的SOTA 模型。

值得一提的是，GLM-Image并非仅在微调阶段使用国产芯片，而是从海量数据预处理、大规模预训练到最后的RLHF过程，全部在华为Ascend A2算力集群上完成。

它证明了国产算力底座+自研架构创新，完全可以支撑起RL这种最前沿、最复杂的模型优化路径。

分辨率的原生支持

还有一个技术细节也值得一提。

传统的模型，如果你想生成个长条图（比如16:9）或者竖图（9:16），往往需要裁剪或者后期重绘，容易变形。

GLM-Image改进了Tokenizer策略，原生支持从1024x1024到2048×2048的任意比例和分辨率。

这意味着你可以直接让它生成一张超长的招牌，或者一张超宽的横幅广告，它都不需要重新训练，直接就能算出来。

国产自信的一次开源

在图像生成这个领域，大家似乎都习惯了盯着国外的Flux、Midjourney、Ideogram看。每当国外发布一个新模型，大家就感叹一句“差距又拉大了”。

但GLM-Image的出现，是一次有力的回应，主要可以从三个方面来看：

打破垄断：它证明了SOTA级的模型效果，完全可以在国产芯片上实现。这给国内其他的AI开发者打了一针强心剂。开源普惠：不仅仅是模型开源，它还把这种“自回归+扩散”的新架构思路分享了出来。对于想要研究下一代生图技术的人来说，这就是最好的教科书。极致性价比：API调用价格极其亲民，生成一张图的成本甚至不到一毛钱。这对于想要接入AI生图能力的中小企业、开发者来说，简直是降维打击。

Nano Banana固然很好，但那毕竟是别人家的，还是闭源的那种。

但现在，我们有了自己的Open Banana——GLM-Image：开源的、国产算力训练的、懂中文、会写汉字的。

无论你是想做个不重样的小红书博主，还是想搞个自动生成海报的创业项目，或者单纯就是想体验一下国产之光的生图能力，GLM-Image都值得你上手一试。

话不多说，赶紧去试试这个“国产大香蕉”到底香不香！

API接入地址：
https://docs.bigmodel.cn/cn/guide/models/image-generation/glm-image

GitHub：
https://github.com/zai-org/GLM-Image

Hugging Face：
https://huggingface.co/zai-org/GLM-Image

魔搭社区：
https://modelscope.cn/models/ZhipuAI/GLM-Image

来源:https://www.163.com/dy/article/KJ88BTAP0511DSSR.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：特斯拉Q4美国电动车份额增至59%，对手承压明显下一篇：豆包AI雅思口语备考技巧：开启对话模式模拟考官实战