一个让人又惊又喜的消息。
听说 OpenAI 官方已经和某个中文社区达成了合作?当然是假的。这几天怕是患上了“看图多疑症”,每刷到一张图都得先琢磨一下:这是不是 AI 生成的?
这些让人真假难辨的图,背后正是 OpenAI 最新发布的生图模型 GPT-Image-2。
2026 年 4 月 21 日,OpenAI 正式发布了 GPT-Image-2,在 ChatGPT 里被称为 Images 2.0。它在 Arena.AI 的 Text-to-Image 排行榜上以 1512 分登顶,比第二名谷歌的 Nano-Banana-2 高出整整 242 分。官方评价只有一句话:从未有任何模型能以如此悬殊的优势排名第一。
作为 Nano-Banana-2 的长期用户(之前的文章配图大部分来自它),可以负责任地说:GPT-Image-2 是迄今为止最强大的图像生成模型,大部分场景下效果碾压 Nano-Banana。
接下来,从以下几个角度彻底讲透 GPT-Image-2:
- 它究竟强在哪里?
- 哪里可以用?
- 有哪些有意思的玩法?
- 使用时的最佳实践是什么?
同时,还会介绍专门为其搭建的玩法网站和配套的生图 Skill。
[]一、GPT-Image-2 究竟强在哪?
从大量实践来看,GPT-Image-2 的核心优势集中在三个方面。
首先是文字渲染。过去 AI 生成图最让人头疼的就是图里的文字东倒西歪。英文还好,中文、日文、韩文这些非拉丁字符简直就是翻车重灾区。这次 GPT-Image-2 明显把“图中文字”当成了重点攻关方向,海报、封面、菜单、招牌、PPT 风格图、UI 标签和信息图,统统能拿得出手。
文字渲染示例:
其次是指令遵循能力。你可以给它非常具体的要求:主体放哪、背景什么风格、文案怎么排版、整体偏杂志还是电商风、哪些元素不能动。虽然还做不到 Figma 那样像素级可控,但已经非常接近“按 brief 出图”的感觉了。
指令遵循示例:
最后是编辑能力。支持图像输入和编辑,而且能以高保真方式处理输入图片。这意味着它可以胜任产品换背景、局部替换、风格统一、Logo/包装保留、以及以参考图为基础的延展创作。
编辑能力示例:
二、GPT-Image-2 哪里可以用?
官方渠道
最直接的入口当然是 ChatGPT。Plus、Pro、Business 等付费订阅用户可以直接使用。
ChatGPT 使用界面:
另外,GPT-Image-2 已经整合进了 OpenAI 的 Codex 开发环境。开发者可以在写代码的同时,用自然语言让 AI 生成 UI 界面图、游戏贴图、应用图标等视觉资产,这种体验相当丝滑。
Codex 集成示例:
三方平台
Lovart 是目前最火的 AI 设计平台之一,已经第一时间接入了 GPT-Image-2。它的核心产品 ChatCanvas 是一个支持视觉反馈的 AI 设计协作画布,你可以把 GPT-Image-2 和其他模型串联使用,在同一个画布上完成从草图到成品的全流程。
Lovart 使用界面:
API 调用
对于开发者,官方渠道是在 OpenAI 的 Image API 里用 model: "gpt-image-2" 来调用 images.generate 或 images.edit。这种方式适合把图像生成能力接入自己的产品,比如营销工具、电商后台、设计平台或自动化工作流。
如果不想直接对接 OpenAI 的 API,还有更灵活的选择。OpenRouter 是目前最热门的模型路由平台,已上线 GPT-Image-2(通过 openai/gpt-5.4-image-2 调用),优势是统一 API 格式、自动负载均衡、支持多模型切换。
OpenRouter 界面:
302.AI 是国内开发者更熟悉的平台,按用量付费,支付简单,对新手比较友好。
302.AI 界面:
三、GPT-Image-2 有哪些有意思的玩法?
案例网站
因为玩法实在太多,专门搭建了一个使用指南网站来系统展示。实际跑了大量案例,覆盖多个分类、大量结构化模板,全部收录在网站里。
案例网站首页:
这个站点不是简单的图库。每张图点开后,能看到完整的生成 prompt(可一键复制)、用了哪个模板、模板里哪些字段可以改、怎么对着 Agent 说一句话就能复现。支持瀑布流和按分类浏览两种模式,翻起来很快。
案例详情页:
典型案例
挑几个比较有代表性的方向,每个都能发挥 GPT-Image-2 的长项。
1. UI 界面样机
生成“看起来像真实截图”的 UI 界面效果非常不错。跑了一系列 UI 样机 prompt,包括直播电商界面、社交平台动态页、短视频封面、聊天对话界面。
UI 样机示例:
看完这些图,恐怕真的要感叹:有图有真相的时代,确实结束了。
2. 海报与品牌视觉
品牌主海报、Campaign KV、Web Banner、杂志封面都可以搞定。在 prompt 里指定品牌名、slogan、配色方案、人物站位,出来的结果在排版合理性上比以前强很多。
品牌视觉示例:
测试了 Nike × LeBron James 运动海报、Apple Vision Pro 产品季 KV、《时代》杂志风格封面,完成度都比较高。
3. 信息图与数据可视化
文字渲染能力的提升,让信息图变得非常稳定。可以做便当格布局、手绘风信息图、步骤教程图、KPI 仪表盘。像“iPhone 16 Pro 全方位解析”这种高密度多模块的图,也能把各个区块的中文标签渲染清楚。
信息图示例:
4. 学术配图
这个方向可能出乎很多人意料。它可以生成论文级别的方法总览图(pipeline figure)、神经网络架构图、机理示意图、Graphical Abstract。风格偏白底、出版物字体、低饱和工程色,看起来就像正经投稿论文里的 figure。
学术配图示例:
测试了 CS/CV/ML 方向的 pipeline 图、工程方向的机理图、答辩首页的研究总览图,效果都不错。
5. 漫画与角色
四格漫画、跨页分镜、角色设定表、角色关系图——这些以前需要画师才能完成的东西,GPT-Image-2 也能交出像样的结果。测试了“程序员与合并不了的周一”四格漫画、仙侠少年的 8 格跨页彩色分镜、《三体》核心人物关系图。人物一致性虽然还不完美,但作为快速出概念、跑 MVP 来说已经够用。
漫画示例:
6. 技术架构图
没错,它还能画系统架构图、流程图、时序图、ER 图、状态机、思维导图、网络拓扑图。当然这些图是 PNG 位图,不是可编辑的 SVG,更适合用在文档配图、技术分享 PPT 或者快速表达架构思路的场景,而不是替代 draw.io 或 Excalidraw。
技术架构图示例:
7. 头像与贴纸
风格化头像、角色网格肖像、3D 拟物图标、贴纸套装、历史人物系列,这个方向很适合拿来玩。
头像与贴纸示例:
上面这些只是一部分方向。完整的几百个案例,覆盖地图、产品视觉、绘本、极简氛围图、包装设计等 18 个分类,在网站上都可免费查看。
四、GPT-Image-2 使用的最佳实践?
你大概已经注意到了,上面这些案例有个共同特点:prompt 都比较长、结构化程度很高。如果只是随口说一句“帮我画个海报”,出来的效果肯定差得很远。区别就在 prompt 的工程化程度。
这就引出了配套开发的另一个资源——GPT-Image-2 生图 Skill。
生图 Skill 介绍
简单来说,Skill 是一套给 AI Agent 看的“工作手册”。把 Skill 放到 Agent 的工作环境(比如 Claude Code、Cursor、Codex)里,Agent 就会按照 Skill 定义的流程来干活。对于生图这件事,流程是这样的:
- 判断当前运行模式(有 API Key 吗?宿主有图像工具吗?)
- 分析用户的需求属于哪个视觉类型
- 找到对应的结构化模板
- 把用户输入填进模板里
- 渲染出一个高质量 prompt
- 调用图像工具出图(或者把 prompt 直接给你)
这套 Skill 覆盖了 18 大类、79 个结构化模板。每个模板都是一份 Markdown 文件,里面定义了 JSON 或结构化自然语言模板、参数表、变体说明、典型案例。前面介绍的典型案例图,全部是用这套模板体系生成的。
三种运行模式
Skill 设计了三种运行模式,适配不同环境。
三种模式示意图:
Mode A:Garden 本地模式
如果你有可以调用 gpt-image-2 的 API Key,Skill 会完整跑通整个流程——选模板、渲染 prompt、调用生图脚本、图片自动落盘。这是最全自动的模式,适合在 Claude Code、Cursor 等支持自定义工具但不具备生图能力的 Agent 环境里使用。
Mode B:Host-Native 委托宿主
在 Codex 这类环境里,Skill 会退化成提示词工程指引——帮你选模板、填参数、渲染出最终 prompt,然后交给宿主自带的图像工具去执行。好处是不需要自己配 API Key,直接用平台的能力就行。
Mode C:Advisor 顾问模式
如果 Agent 环境完全没有图像工具(比如纯文本的 Agent),你也没有 gpt-image-2 的 API Key,Skill 会变成一个高质量的生图 prompt 顾问。依然会帮你走完模板选择和参数填充的流程,最终把渲染好的 prompt 打印出来,你自己拿去 ChatGPT 或 Lovart 这些平台使用。
怎么用?
具体安装和运行方式取决于用的 Agent 环境,下面按常见场景说明。
场景一:Codex
Codex 自带图像生成工具,属于 Mode B。只需把 garden-skills 仓库中的 gpt-image-2 Skill 安装到 Codex 的工作目录(放在 .claude/skills 目录下),然后直接对 Codex 说出想生成的图即可。
Codex 安装示例:
场景二:Claude Code / Cursor 等 Agent(自配 API)
这类环境通常没有内置图像工具,但可以自己配 OpenAI API Key。首先把 garden-skills 仓库中的 gpt-image-2 Skill 安装到 Agent 工作目录,然后配置环境变量:ENABLE_GARDEN_IMAGEGEN=true、OPENAI_BASE_URL、OPENAI_API_KEY。配置好后,Skill 进入 Mode A,完整跑通全流程。
环境配置示例:
之后对 Agent 说出想生成的图,Skill 会自动处理后的一切。任务完成后,图片和原始提示词会统一保存到本地固定目录中。
输出示例:
场景三:ChatGPT Web / Lovart / 任何有生图能力的对话界面
这个场景下可以把 Skill 当作 prompt 工程参考手册。同样在 Claude Code / Cursor 等 Agent 中配置好 Skill,但不配置任何环境变量。直接向 Agent 发出绘图需求,Agent 会返回结构化的提示词,将其粘贴到 ChatGPT 或 Lovart 的对话框中使用。虽然多了一步手动操作,但 prompt 质量会高很多。
返回提示词示例:
模板体系一览
整个 Skill 的模板按 18 个分类组织,完整列表如下:
| 分类 | 模板数 | 案例数 | 典型方向 |
|---|---|---|---|
| 学术配图 | 9 | 18 | pipeline 图、架构图、Graphical Abstract、答辩首页 |
| 素材资产 | 2 | 4 | 拟物图标集、游戏截图 mockup |
| 头像人设 | 5 | 10 | 风格迁移头像、角色网格、3D 图标、贴纸、历史系列 |
| 品牌包装 | 4 | 8 | 品牌识别板、吉祥物套装、化妆品包装、饮料标签 |
| 图像编辑 | 5 | 10 | 背景替换、局部替换、杂物去除、产品精修、人像修改 |
| 网格拼贴 | 4 | 8 | 2×2 套装、lookbook、多风格拼贴、动漫立项板 |
| 信息图 | 6 | 12 | 手绘风、便当格、对比图、步骤教程、KPI 仪表盘 |
| 地图 | 4 | 8 | 美食地图、旅行路线、城市风貌、门店分布 |
| 人物肖像 | 4 | 8 | 商务肖像、创始人大片、虚拟主播、角色设定表 |
| 海报活动 | 4 | 8 | 品牌海报、Campaign KV、Web Banner、杂志封面 |
| 产品视觉 | 5 | 10 | 爆炸视图、白底主图、影棚大片、礼盒展示、生活场景 |
| 场景插画 | 4 | 8 | 治愈日常、概念大场景、绘本内页、极简氛围 |
| 演示文档 | 4 | 8 | 高密度讲解 Slide、政策风、商业报告页、教学示意图 |
| 叙事序列 | 5 | 10 | 四格漫画、漫画分镜、动漫 KV、人物关系图、步骤流程 |
| 技术架构图 | 7 | 14 | 系统架构、流程图、时序图、状态机、ER 图、思维导图、拓扑 |
| 字体排版 | 2 | 4 | 大字主张海报、中英双语版式 |
| UI 样机 | 5 | 10 | 直播电商、社交平台、落地页、聊天界面、短视频封面 |
| 编辑工作流 | 5 | 10 | 背景替换、局部替换、杂物去除、精修、人像编辑 |
全部模板和案例都可以在 Skill 仓库和案例网站上直接查看和使用。模板和案例会持续更新。
