首页 游戏 软件 资讯 排行榜 专题
首页
AI
国产芯片训练SOTA多模态模型:智谱与华为联手取得突破

国产芯片训练SOTA多模态模型:智谱与华为联手取得突破

热心网友
36
转载
2026-01-14

金磊 发自 凹非寺
量子位 | 公众号 QbitAI

智谱华为,这个组合刚刚搞了波大的:

开源新一代图像生成模型GLM-Image,是中国首个全程在国产芯片上完成训练的SOTA多模态模型!

GLM-Image尤其擅长文字渲染,像最近很火的AI手抄报、插画、海报都能信手拈来:





不难看出,如此多的汉字,在GLM-Image的手上可以说是轻松拿捏、精准无误。

并且GLM-Image一出道就拿下了CVTG-2K(复杂视觉文字生成)和LongText-Bench(长文本渲染)双榜单的第一



再细分来看,在CVTG-2K中,GLM-Image凭借0.9116的Word Accuracy(文字准确率)和0.9557的NED(归一化编辑距离)拿下双料第一,表明生成的文字在准确性上做到了高度一致。

以及LongText-Bench中的中文、英文或平均分数,都位列开源模型中的第一。

除此之外,再划个重点:

用GLM-Image的API生成图片,现在一张图只要一毛钱(0.1元)!

咱就是说,国产芯+国产模型,这次真的赢麻了。

图片里的汉字,稳稳拿捏住了

天下苦AI生图不识字已经久矣。

以前让AI画个海报,画面虽然美如画,但文字却是乱如麻:不是缺笔少划,就是自创火星文。

这次GLM-Image最大的卖点,可以说就是能读懂且写对

那么接下来,我们就来给GLM-Image一些刁钻的难题,考验考验它的能力。

做小红书封面可以用“说”的

首先是咱们熟悉的“小红书风”。

这种图片不仅要求审美在线,最关键的是标题要大、要醒目,还得和画面完美融合。

我们扔给GLM-Image一段描述比较笼统的描述,让它先来自我发挥一下:

Prompt:生成一张小红书封面,图文并茂,表达泰国旅游最全攻略,要有人物和风景,有趣的设计。



讲真,是有一点惊艳在身上的。

感觉GLM-Image已然get到了小红书封面的奥义,鲜艳的配色、醒目的文字,还有逼真的人物,一下子就让人想点进去了解一番。

还有小红书上比较流行的科普详解图,GLM-Image可以根据智谱最新推文直接生成亮点内容图解:



以后啊,要想做一个小红书或者其它社交媒体的封面,只要0.1元,让GLM-Image来处理就好了。

而且GLM-Image原生支持1024x1024至2048x2048的任意比例输出。智谱开放平台体验中心提供了10个尺寸的选项,可以适配各种类型的社交媒体平台。



商业海报,1毛钱直出

假如你现在想要做一张有艺术感的商业广告大片,那么只要把你的想法转成Prompt即可,例如:

Prompt:大师级摄影,获奖作品,东方禅意,神秘氛围。中心构图,极致负空间留白,一位沉静内省的男性背影,戴浅色宽檐帽,处于绝对静止剪影状态。中景:浓雾弥漫充满全部画面。双重曝光,人物透明叠加于中景,透明晕染重叠,重叠处露出黄昏都市,暖金色暮光逆侧光,建筑轮廓与霓虹因慢门化作动态模糊、拖曳的暖黄色光轨。光影:黑柔滤镜,轮廓光勾勒帽檐肩线,面部阴影中有微妙的深灰至灰渐变,强烈明暗对比。色调:低饱和度暖调(浅棕、暖黄、灰绿,阴影泛青灰),富士怀旧负片胶片质感。后期:空气透视,朦胧诗意,印象派氛围。视觉张力,虚实结合,情绪氛围摄影,电影帧叙事。标语:“流光过隙,我自静观。” 半透明标题“SILENCE”嵌入雾中。



再如我们现在做一个关于白酒的广告片,Prompt如下:

Prompt:以中式酒饮为主题,搭配古朴松枝。场景为白色背景的展示台,营造典雅氛围。构图上,将酒瓶摆放于黑色怪石,白色花艺自然穿插点缀,突出层次。色彩以画面风格追求国风雅韵,借中式元素(传统绘画、松枝 )传递东方美学,背景简洁渐变,聚焦产品与国风意境融合,打造具有文化底蕴的茶饮展示效果 。酒瓶身自然地嵌入中文“松酒”。



嗯,是有点设计感在身上的。

人物、场景,逼真得分不清是AI

真实性,也是考验图片生成能力的重要因素。

接下来,我们就让GLM-Image生成几张真实人物的照片:

Prompt:一位男模特,行走于都市天台,风衣下摆被大风扬起,动态模糊,大场景,强透视,低角度仰拍,胶片粗颗粒质感,黑金色调,前卫艺术美学,力量感,高级感,时尚大片视角,8K,大师杰作。



像极了在现实生活中拍出来的男模特。

我们再来试试一张有点影视剧照的风格:

Prompt:营造出优雅浪漫的古典闲适氛围。中国宋代古典装束、精致器物,搭配窗外的自然景致,传递出远离尘嚣的诗意与雅致,让观者感受到那份古典浪漫中的松弛感。超写实风格暗黑。



如何?是不是有够逼真的?

哦对了,在GLM-Image这里,多图拼接也是可以的哦~



怎么在华为芯片上训出的SOTA?

看完效果,相信很多小伙伴要不禁问了:这到底是怎么做到的?

尤其是在目前高性能显卡受限的大背景下,GLM-Image不仅做出来了,还号称是首个全程在国产芯片上完成训练的SOTA模型

这背后的技术含金量,值得咱们好好聊一聊。

混血架构:自回归 + 扩散解码器

目前从大方向来看生图领域技术的发展,主要有两大流派:

扩散模型(Diffusion):比如Stable Diffusion、Flux。擅长画细节,光影质感好,但理解复杂的全局指令(比如空间关系、多物体布局)比较吃力。自回归模型(Autoregressive, AR):比如DALL·E 3的部分逻辑。擅长理解语言、规划布局,但在生成高分辨率图像的细节上,推理速度慢,且容易崩。

但GLM-Image的玩法是这样的:小孩子才做选择,成年人我全都要。

于是,它搞出了一个“自回归 + 扩散解码器”的混合架构,可以理解为一个大脑和笔画的组合:

大脑(9B 自回归模型):负责理解和规划。它先读懂你那几百字的复杂Prompt,规划好哪里画人、哪里写字、排版怎么排。画笔(7B DiT 扩散解码器):负责上色和精修。它接过“大脑”的草图,把细节填充得满满当当,保证画质细腻。

这就是为什么它在处理CVTG-2K这种榜单时能拿第一的原因。因为它不仅仅是在生成像素,而是在先理解布局,再填充内容。

华为A2芯片+Mindspeed-LLM

这或许是这次发布内容中最为硬核的地方。

我们都知道,训练一个几十亿参数的SOTA模型,对算力的稳定性、通信带宽要求极高。以往大家默认只有英伟达的卡能干这事儿。

但GLM-Image却选择了国产:它全程基于华为Ascend A2芯片进行训练。

为了让这套国产硬件发挥出最大效能,智谱和华为配合,深度优化了Mindspeed-LLM框架。

全流程跑通:从海量数据的预处理,到大规模的预训练,再到最后的微调,全部在国产全栈算力底座上完成。算子级优化:针对国产芯片的特性,重新写了底层算子,让训练效率直接起飞。



尤其是最为关键的 RL(强化学习)后训练阶段,在华为Ascend A2算力集群上,智谱团队针对RL训练流程进行了专项优化:

大规模集群的稳定性控制:RL训练容易出现梯度爆炸或不稳定的情况。依托华为全栈算力底座,智谱实现了超大规模集群下的长时间稳定训练,确保了模型收敛的鲁棒性。算子级深度重构:为了适配RL过程中特有的动态计算图,智谱与华为合作,重新编写了底层核心算子。这不仅提升了单卡效率,更让万卡级别的通信带宽利用率显著优化,解决了国产芯片在复杂后训练逻辑中的“水土不服”。异构计算的协同:利用昇思MindSpore框架,GLM-Image在训练时实现了计算与通信的完美并行(Overlap),让模型在处理2048×2048这种超高分辨率图像的RL训练时,依然能保持高效的吞吐量。

这种深度适配带来的结果是显而易见的。GLM-Image 不仅是国产芯片训出来的,更是在国产算力极限压力测试下卷出来的SOTA 模型。

值得一提的是,GLM-Image并非仅在微调阶段使用国产芯片,而是从海量数据预处理、大规模预训练到最后的RLHF过程,全部在华为Ascend A2算力集群上完成。

它证明了国产算力底座+自研架构创新,完全可以支撑起RL这种最前沿、最复杂的模型优化路径。

分辨率的原生支持

还有一个技术细节也值得一提。

传统的模型,如果你想生成个长条图(比如16:9)或者竖图(9:16),往往需要裁剪或者后期重绘,容易变形。

GLM-Image改进了Tokenizer策略,原生支持从1024x1024到2048×2048的任意比例和分辨率。





这意味着你可以直接让它生成一张超长的招牌,或者一张超宽的横幅广告,它都不需要重新训练,直接就能算出来。

国产自信的一次开源

在图像生成这个领域,大家似乎都习惯了盯着国外的Flux、Midjourney、Ideogram看。每当国外发布一个新模型,大家就感叹一句“差距又拉大了”。

但GLM-Image的出现,是一次有力的回应,主要可以从三个方面来看:

打破垄断:它证明了SOTA级的模型效果,完全可以在国产芯片上实现。这给国内其他的AI开发者打了一针强心剂。开源普惠:不仅仅是模型开源,它还把这种“自回归+扩散”的新架构思路分享了出来。对于想要研究下一代生图技术的人来说,这就是最好的教科书。极致性价比:API调用价格极其亲民,生成一张图的成本甚至不到一毛钱。这对于想要接入AI生图能力的中小企业、开发者来说,简直是降维打击。

Nano Banana固然很好,但那毕竟是别人家的,还是闭源的那种。

但现在,我们有了自己的Open Banana——GLM-Image:开源的、国产算力训练的、懂中文、会写汉字的。

无论你是想做个不重样的小红书博主,还是想搞个自动生成海报的创业项目,或者单纯就是想体验一下国产之光的生图能力,GLM-Image都值得你上手一试。

话不多说,赶紧去试试这个“国产大香蕉”到底香不香!

API接入地址:
https://docs.bigmodel.cn/cn/guide/models/image-generation/glm-image

GitHub:
https://github.com/zai-org/GLM-Image

Hugging Face:
https://huggingface.co/zai-org/GLM-Image

魔搭社区:
https://modelscope.cn/models/ZhipuAI/GLM-Image

来源:https://www.163.com/dy/article/KJ88BTAP0511DSSR.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

摩尔线程完成智谱GLM-5.1适配
科技数码
摩尔线程完成智谱GLM-5.1适配

北京商报讯(记者 陶凤 王天逸) 人工智能领域又传来一条振奋人心的消息。4月8日,摩尔线程正式宣布,其旗舰级AI训推一体全功能GPU——MTT S5000,已经成功完成了对智谱新一代旗舰模型GLM-5 1的Day-0极速适配。这意味着,推理部署与训练复现的全部流程,现在都能在这条国产算力路径上获得支

热心网友
04.15
摩尔线程S5000通过FlagOS训练验证,精度超主流1.65个百分点
科技数码
摩尔线程S5000通过FlagOS训练验证,精度超主流1.65个百分点

北京商报讯(记者 王蔓蕾)近日,北京智源人工智能研究院(以下简称 "智源研究院 ")正式发布重磅验证成果:六款AI芯片、三大模型、同构+异构千卡——众智FlagOS以统一技术栈完成AI训练 "全要素 "验证

热心网友
03.27
Sand.ai开源MagiCompiler:突破编译瓶颈,定义训推性能新高度
AI
Sand.ai开源MagiCompiler:突破编译瓶颈,定义训推性能新高度

机器之心发布大模型开发者常面临一个两难选择:要速度,还是省显存?通常情况下,想要跑得快,显存会爆;想省点显存,计算效率又会被频繁的同步和流水线气泡大幅拖垮。原生的 torch compile 虽然好

热心网友
03.26
英伟达变革:7天进化为智能体,重塑工程师与GPU专家格局
AI
英伟达变革:7天进化为智能体,重塑工程师与GPU专家格局

机器之心编辑部这应该是今天刚刚出炉的、最炸裂的文章。在很多算子开发的微信群组,已经掀起了轩然大波。「这或许是超人类智能在软件领域的真正首次展露。」英伟达许冰刚刚在 X 上发出了如此断言。他所评论的,

热心网友
03.26
Sand.ai发布MagiAttention,定义分布式注意力性能新标杆
AI
Sand.ai发布MagiAttention,定义分布式注意力性能新标杆

机器之心编辑部2025 年 4 月,Sand ai 开源了 MagiAttention v1 0 0,定义了下一代分布式 Attention 的全新设计和系统框架。历经一年的深耕,今天Sand ai

热心网友
03.26

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

《Zero Parades: For Dead Spies》游戏评分与媒体评价汇总
游戏攻略
《Zero Parades: For Dead Spies》游戏评分与媒体评价汇总

《Zero Parades: For Dead Spies》的媒体评测已经解禁,结果相当亮眼。这款被许多人视为《极乐迪斯科》精神续作的作品,在OpenCritic上拿到了86分的媒体均分,在Metacritic上也有83分。游戏将于5月21日正式登陆PC平台,看来2026年的必玩叙事RPG名单上,又

热心网友
05.18
Excel多级分类汇总一句话快速完成
AI
Excel多级分类汇总一句话快速完成

目录 你是否也遇到过这些问题 处理效果 前置准备 超简单AI自动化解决方案 第1步:准备好你的原始数据 第2步:针对指定的文件下达指令 第3步:验收 还能解决这些同类问题 指令为什么这么有用? 更多场景直接抄作业 销售数据三级汇总 成本数据多级汇总 库存数据汇总 员工薪资汇总 常见问题答疑 核心价值

热心网友
05.18
Kimi K2.6 智能体功能深度解析与体验评测
AI
Kimi K2.6 智能体功能深度解析与体验评测

AI Agent 的发展,正迎来一个关键的转折点,从概念验证迈向真正的生产力交付。 想象一下,当一个 AI 智能体能够在无需人工介入的情况下,独立完成一个复杂项目的全流程,并将成功经验固化为可随时调用的“技能”——这是否标志着 AI 在职场中的角色,已经从辅助工具演变为自主的生产力单元? 随着 Op

热心网友
05.18
苹果WWDC26前瞻 iOS27新Siri界面交互升级预测
AI
苹果WWDC26前瞻 iOS27新Siri界面交互升级预测

彭博社的马克・古尔曼在最新报道中透露了一个有趣的发现:苹果为WWDC 26发布的宣传海报,其设计细节可能暗藏玄机,指向了即将在iOS 27中亮相的全新Siri交互界面。 根据古尔曼的分析,新版Siri的核心变化在于与灵动岛的深度融合。唤醒时,它将不再以传统的全屏或底部卡片形式出现,而是会以一个扩展的

热心网友
05.18
GitHub刷星乱象调查 AI项目成虚假评分重灾区
AI
GitHub刷星乱象调查 AI项目成虚假评分重灾区

GitHub 的 Star 数量还值得信赖吗?真相可能比你想象的更严峻。 开源社区中“购买 Star”的现象早已不是秘密,其便捷程度甚至超过点外卖,单价低廉且支持批量折扣。然而,卡内基梅隆大学(CMU)一项被 ICSE 2026 顶会收录的最新研究,首次系统性地揭示了这场“造假生意”的惊人规模:Gi

热心网友
05.18