当文本生成图像模型的能力从“会画图”迅速跃升至足以参与专业摄影与艺术创作时,一个关键问题逐渐凸显:我们该如何客观、科学地评估一个AI图像生成模型的“真实创作水平”?
当前,业界主流的T2I(文生图)评测体系大多仍停留在基础语义匹配、图像质量与美学打分的层面。然而,在实际工作流中——无论是影像叙事、品牌设计、游戏美术还是漫画创作——模型真正需要的,不仅是理解提示词,而是能够输出具备专业视听语言、逻辑推理能力以及对文字渲染精准控制的成品。
正是基于这一考量,一支专业的影像与美学团队深度参与并开发了Qwen-Image-Bench。这一评测基准由专业影像与艺术设计团队精心打造,涵盖了56个细粒度的创作考点,并配套开源了自动化评估模型Q-Judger。它的核心目标,是填补“基础生成”能力与“专业创作”需求之间的评测鸿沟,让模型能力评估回归到真实的创作语境中。



Q-Judger:开源“AI阅卷机”,大幅提升评测效率
有了高质量的考题还不够,评测结果的可靠性最终还取决于阅卷机制。为此,团队同步开源了Q-Judger——一个支持多维度细粒度评分的自动化评估模型。
多维度、细粒度评估
围绕图像质量、图像美学、图文一致性、创作推理能力与现实复现这五大核心能力,Q-Judger在56个三级维度上建立了清晰的评分标准。实验数据表明,经过精细化训练后,它的评估结果与资深人类艺术家的专业评价之间显示出高度相关性——Spearman相关系数达到了0.92。

从“评测”到“优化”的完整闭环
这套评测体系的独特之处在于,它不仅可以用来“打分”,更能直接帮助算法人员定位模型的薄弱环节。评测结果显示,目前存在明显的短板领域:文字准确性、信息可视化、跨语言生成、影像分镜、平面设计、漫画创作、游戏设计等。在这些方向上,当前主流T2I模型之间的能力差异依然显著。
世界知识与逻辑推理能力、创作能力,正是决定T2I模型能否跻身全球第一梯队的关键分水岭。(详见以下方差图)

Qwen-Image-Bench提供的不仅是一把用于衡量模型能力的“度量衡”,更是一套辅助模型持续优化的“方法论”。
Benchmark展示:实战对比,直观呈现能力分水岭
为了让对比更加直观,专业艺术家团队从真实创作场景出发,精心设计了1000条中英文双语分层提示词。每条提示词都精准覆盖4个以上的三级维度考点,并具备对模型差异化能力的强区分度。
维度考点:时尚造型、接触互动、艺术设计、摄影机/镜头风格、构图、物理逻辑。
提示词示例:模拟拍摄一张中央圣马丁艺术与设计学院White show秀场后台抓拍图:后台化妆间镜前灯泡发光;造型师正在为面容姣好的模特系紧束腰并用别针固定披风。要求:手部与接触互动准确、别针与织物拉力真实、镜面反射合理;构图以镜中倒影形成二次画面。


GPT Image2.0(左)vs Nano banana 2.0(右)
维度考点:色彩、构图、情绪表达、光影氛围。
提示词示例:印象派风格的午后咖啡馆,笔触松散、色彩并置、光影颤动,人物与建筑均以莫奈式手法处理。


GPT Image2.0(左)vs FLUX.2 Max(右)
维度考点:产品设计、文化元素、色彩、想象力。
提示词示例:文创文具系列“敦煌飞天”,包括笔记本、书签与胶带,图案提取壁画经典纹样,配色复刻矿物颜料古韵,兼具文化性与实用性。


GPT Image2.0(左)vs Qwen-Image 2.0 pro(右)
维度考点:游戏设计、艺术设计、文字准确性、二维空间、清晰度/分辨率、风格控制。
提示词示例:2D像素风RPG的城镇场景截图:包含喷泉、武器店、旅馆、NPC三名;要求像素风格统一、可读性强;画面左上角有简洁UI:HP 100/100、Gold 250(文字需清晰)。


GPT Image2.0(左)vs Seedream 4.0(右)
维度考点:艺术设计、情绪表达、色彩、风格控制。
提示词示例:毕加索蓝色时期风格的流浪艺人,冷色调主导,人物瘦削忧郁,笔触沉郁,全图情绪与形式统一。


GPT Image2.0(左)vs Kling Image 2.1(右)
维度考点:风格控制、虚拟场景、全身动作、表情、景别、构图。
提示词示例:创作1:1美漫超级英雄风格漫画,粗犷有力的线条勾勒肌肉轮廓,鲜艳夺目的颜色区分正邪势力,剧情精彩,战斗场面热血沸腾。


GPT Image2.0(左)vs Seedream 5.0(右)
说到底,“画得对”和“画得美”只是起点,“懂创作”才是最终目标。当基础生成能力逐渐趋同,文生图模型的下一场竞争将向认知层面升级——模型能否理解创作者的意图、调用自身专业知识进行逻辑推理,并将抽象概念转化为具有专业价值的视觉表达。
这套评测基准揭示了一条清晰的进化路径:从“感知驱动”迈向“认知驱动”。顶尖模型需要理解人类创作需求,并调动自身知识与逻辑推理能力。这背后,是语言理解、知识整合与模型审美、创意执行的深度协同。未来属于那些能够完成“感知→认知→创造”全链路闭环的多模态模型。
Qwen-Image-Bench提供的不仅是一份考卷,更是一套可量化、可迭代的优化坐标系。目前,完整数据集与Q-Judger已同步开源。让评测回归创作场景,让模型进化有据可依。
