时间飞逝,AI绘画技术从初步探索到日趋成熟,转眼间已迭代了整整三年。
回望三年前,那时的AI绘画作品处于何种水平?人物多出几根手指是常见现象,左右脚时常混淆,图片中的文字更是清一色的乱码……当时的创作更像一场“猜猜我画的是什么”的趣味游戏。
短短三年间,AI绘画的能力已经跨越了多个层级。尤其是2025年底谷歌推出的Nano Banana Pro,一度被公认为当时最强的AI绘画模型。然而,就在前几天,OpenAI发布了一款全新的AI绘画模型,直接终结了Nano Banana Pro的统治地位。
这款模型就是GPT-image-2。此前它处于灰度测试阶段,现在终于面向所有用户全面开放。
它的图像生成水平究竟有多强?不妨从几个核心维度来一次实测。
测试一:文字生成能力
首先考察文字生成能力。我们输入这样一组提示词:
“书桌上摆着两本摊开的书,一本书是小学语文课本,一本是小学数学课本,课本内容清晰,写实风格。”
生成结果如下:
可以看到,模型在一张图中同时呈现了数学和语文两个科目的文字内容,书页上几乎没有错别字。能做到这一步,确实相当不易。如果非要挑点瑕疵——数学课本的内容进度稍微有些跳跃,前一页还在讲数字,后一页已经在讲图形了。
测试二:世界知识理解能力
接下来,考验模型对民族文化的认知能力。提示词如下:
“在一张图里展现中国56个民族的全身服饰,新中式水墨风,9:16”
生成结果:
出乎意料的是,图中展示的民族不多不少,正好56个,而且每个民族的名称也完全正确。唯一的不足是,个别民族的服饰细节与实际略有差异。但对于“一次性生成”而言,这个表现已经相当惊艳。
测试三:代码逻辑能力
可能有人会问:测试AI绘画模型,跟代码能力有什么关系?别急,看看生成的结果就明白了。提示词如下:
“在计算机博物馆里,一个程序员在展厅中央,正在演示C语言编程,很多参观者在围观,屏幕上的代码清晰可见。旁边的牌子写着:‘古法编程,现场表演’。2D卡通画风,16:9”
生成结果:
画面很有质感,但这还不是最关键的。更令人惊讶的是,屏幕上显示的代码并不是随意填充的乱码,而是正确可运行的C语言代码。这意味着模型不仅在“画画”,更在一定程度上理解了代码的逻辑结构。
测试四:漫画创作能力
专门测试一下漫画创作能力。提示词如下:
“生成一页漫画,全面讲解Claude Code,漫画的主角是两只可爱的2D卡通小仓鼠,一只灰色,一只橙色。”
生成结果:
漫画中的两只小仓鼠非常可爱,内容表达也十分清晰。拥有这样的AI模型在手,未来的教育方式恐怕将被改写——毕竟,用漫画形式讲解复杂概念,一直是教学中的高难度动作。
测试五:空间布局与元素一致性能力
最后一项测试,我们让模型“拆解”一下程序员的穿搭风格,考验它的空间布局和多元素一致性。提示词如下:
“用一张图拆解男程序员的穿搭风格,从物件名称,材质,价格等多个维度详细拆解,少用文字,多用图表达。”
生成结果:
这张图清晰拆解了穿搭元素,布局合理,各元素之间保持了不错的一致性。能做到这一点,说明模型在多元素协同和空间关系理解上已经达到了相当高的水准。
以上五项测试,每一项考查的不仅是模型的单一能力,更是解决实际问题的综合能力。从这些实测结果来看,可以明确地说:GPT-image-2是目前最强大的AI绘画模型,没有之一。
2026年已经过去三分之一,后续还有哪些更强的AI模型和工具将登场,值得持续期待。
