凌晨突发！ChatGPT Images 2.0发布，实测后发现：这次最狠的，不是画得更像了

时间：2026-04-22 09:36

编辑 | 王凤枝 AI画图领域，再次迎来了一次关键转折。 4月22日凌晨，OpenAI正式发布了ChatGPT Images 2 0。消息一出，圈内讨论的焦点，并非仅仅是其画功的精进，而在于它工作方式的根本性转变：它终于开始“先想后画”了。这意味着，模型在落笔之前，会先进行推理、搜索、解读文件，然后

编辑 | 王凤枝

AI画图领域，再次迎来了一次关键转折。

4月22日凌晨，OpenAI正式发布了ChatGPT Images 2.0。消息一出，圈内讨论的焦点，并非仅仅是其画功的精进，而在于它工作方式的根本性转变：它终于开始“先想后画”了。这意味着，模型在落笔之前，会先进行推理、搜索、解读文件，然后再交出成品。过去那些最容易“翻车”的精细场景——比如菜单、海报、信息图表里的小字和复杂排版——如今看来，已经具备了直接投入使用的潜力。

从今天起，所有ChatGPT和Codex用户都能使用其基础版本，而付费订阅用户则可以解锁“思考模式”等高级功能。与此同时，其底层模型gpt-image-2也已通过API对外开放。

01 两年前拼错菜名，现在菜单可以直接挂上墙

还记得2024年用DALL-E 3生成墨西哥餐厅菜单的窘境吗？那些凭空捏造的菜名，诸如“enchuita”、“churiros”、“burrto”甚至“margartas”，几乎没有一个单词的拼写是正确的。当时的扩散模型在处理图像中的文字时，本质上是在从噪声中重建像素，文字只是画面中微不足道的一小部分，模型很难学会将这些特定模式的像素排列正确。

如今，情况已截然不同。向ChatGPT Images 2.0索要同样一份墨西哥菜单，得到的成品几乎可以直接送去印刷。不仅菜品名称拼写准确、排版清晰规整，连价格都老老实实地标注在上面。当然，一份标价13.5美元的酸橘汁腌鱼可能会让你对食材分量产生一丝怀疑——在旧金山，这个价格买到的海鲜大概只够喂猫——但至少从菜单本身来看，已经找不出明显的破绽。

这种跨越，源于底层架构的彻底重构。OpenAI GPT图像生成技术研究负责人陈博远在媒体简报会上，将新模型描述为一个“通才模型”，或者说，是“图像的生成式预训练变换器”。他强调，新模型能够通过文本提示，处理三维风格的视角转换和复杂的空间推理。

虽然他没有明确确认具体使用的是扩散模型还是自回归技术，但效果是实打实的。小号文字、图标、用户界面元素、密集构图以及微妙的风格限制，这些过去让图像模型频频“翻车”的精细内容，现在都能被稳定渲染，且最高支持2K分辨率。

更直观的对比来自开发者西蒙·威利森的测试。他让新旧模型分别生成一张《沃利在哪里》风格的寻物图，目标是找到一只拿着业余无线电的浣熊。旧版模型生成的画面内容丰富，但翻遍整张图也找不到目标浣熊。而新模型在设置为高画质及3840×2160像素后，生成了一张17MB的复杂图像，那只浣熊正安安静静地坐在左下角的业余无线电摊位里，清晰可辨。

AI计算服务公司Hyperbolic Labs联合创始人金宇宸试用后表示：“刚刚试了ChatGPT Images 2.0，真的非常棒。”他惊叹于OpenAI终于再次在图像生成领域引领了方向。

02 生成之前先打草稿：模型会搜索、会推理、会自己检查作业

ChatGPT Images 2.0最关键的升级，并非画得更精细，而是多了一套“思考”流程。

传统图像模型的工作方式像一个黑箱：输入提示词，直接输出图像。而ChatGPT Images 2.0的“思考模式”（面向付费用户开放）在渲染第一个像素之前，会先花时间做准备工作。它会搜索网络获取最新信息，分析用户上传的文件内容，通过推理规划图像的结构布局，甚至对生成结果做一遍自我检查。

OpenAI ChatGPT Images产品负责人李·艾德丽在媒体演示中，上传了一份关于内部产品策略的复杂演示文稿。模型没有简单地配一张相关图片了事，而是综合了文档里的核心数据，识别了正确的标志，最终生成了一张专业海报，且完整保留了原始文件的风格特征。

这种能力让模型可以承担从想法到图像之间更多的“中间活”。例如，当用户需要一张旧金山次日天气预报及推荐活动信息图时，模型会主动去获取当地的实时天气数据，在图像中准确呈现雨天的细节，同时画出渡轮大厦、卡斯特罗剧院、彩绘仕女屋和泛美金字塔等旧金山地标的轮廓。用户不再需要事无巨细地描述每个元素，模型用自己的知识储备填补了空白。

模型的知识截止日期更新至2025年12月，这意味着它能处理涉及近期事件和当下语境的图像需求。对于需要事实基础的视觉任务，比如制作教育资料、产品宣传物料和内部培训图表，这一能力大幅降低了用户的工作量。

沃顿商学院教授伊桑·莫利克过去几周一直在测试新模型。他表示，自己原本不觉得更好的图像生成器是什么大事，但事实证明，存在一个他没预料到的“质量门槛”，一旦跨过去，就能生成高质量的文字内容、幻灯片以及学术海报。

他以自己著名的“水獭测试”做了演示，展示了模型生成复杂教学材料的能力。不过，莫利克同时提醒，模型仍然有典型的图像生成通病。它在反复编辑修改时会变得“非常顽固”，前两次调整效果不错，之后就开始“磨洋工”，这时候把图像放进新对话重新开始，往往更有效。

03 一次生成八张图：漫画、绘本和社交素材的流水线来了

对于需要批量产出视觉内容的创作者来说，ChatGPT Images 2.0提供了一个立竿见影的效率工具：一个提示词，可以一次性生成最多八张图，而且系列之间的角色、物体和风格能保持高度一致。

这意味着什么？以前生成一个儿童绘本的故事板，需要一次一次地生成，每次都要重新描述主角长相、衣着、背景色调，并祈祷模型记住之前的设定。现在，只需要一次提示，八张连贯的画面同时出炉，角色从第一页到最后一页都能保持一致。

同样的逻辑适用于漫画分镜、社交媒体多图发布，以及房屋各房间的设计方案。艾德丽指出，这解决了用户过去必须一次提示一张图，然后手动拼接的繁琐流程。OpenAI在最新发布说明中写道：“图像是一种语言，而非装饰。一幅好图像所做的，正如一个好句子所做的：选择、安排、揭示。”

OpenAI联合创始人兼CEO山姆·奥特曼在社交媒体上发布了一部由ChatGPT Images 2.0生成的漫画，内容是他和另一位用户“寻找更多GPU”的故事。

OpenAI总裁格雷格·布罗克曼也评论道：“真的难以置信，你现在用一点计算资源就能造出这样的东西。”他表示，自己对教育、专业环境（比如幻灯片和营销材料），以及生产力领域（比如给代码文档配图表）的新应用感到“极度兴奋”。

04 从日语菜单到印地语海报：非拉丁文字终于不用再“鬼画符”

OpenAI在发布说明中，将ChatGPT Images 2.0的多语言文本渲染能力称为“显著进步”，具体点名了日语、韩语、中文、印地语和孟加拉语。在最新展示的样本中，水循环教育图表的韩文标注清晰工整，字符结构完整，且与画面融合自然。

但样本归样本，实际表现如何？《连线》杂志记者里斯·罗杰斯让模型生成了一张提莫西·查拉梅主题的中国粉丝拼贴海报。输出画面包含超过二十处中文文本片段，以及饺子、珍珠奶茶和熊猫等图像，视觉效果繁复热闹。

罗杰斯随后让聊天机器人翻译这些文字，机器人的回复倒是很诚实，它指出其中有些文本并非准确的中文句子，部分混入了日语字符，还有一些更像是模仿东亚粉丝文化风格的装饰性文字。不过，从视觉完成度来看，模型生成的中文图像已经相当“能打”，在日常使用中完全可以接受。

这与两年前的情况形成了鲜明对比。彼时，AI图像里的中文连基本的笔画结构都难以维持，一眼就能看出是机器“瞎编”的。现在，模型不仅能正确渲染大部分常用汉字，在排版、字号搭配和画面融合上也明显更自然了。当然，如果拿着放大镜逐字检查，偶尔还是会发现个别字符不够规范，但对于海报、社交素材、信息图这类实际使用场景来说，已经跨过了“可用”的门槛。OpenAI所说的多语言“质的飞跃”，在中文上或许还不算满分，但已经是一个扎实的高分。

05 手外科医生的非正式评估：X光片好得吓人，但解剖图还是别用

前面讨论的多是创意、设计、营销场景，如海报、菜单、漫画、社交媒体素材。这些场景对图像的容错率相对宽松，排版好看、氛围到位就算合格。但如果把模型扔进一个容错率几乎为零的领域，它还扛不扛得住？

美国知名显微外科与手外科专科医疗机构The Buncke Clinic的手部医生布莱恩·普里根对新模型做了自己的非正式评估。他生成了一张手部X光片和一份腕管综合征信息传单。结论是喜忧参半。

好消息是，那张AI生成的X光片，是他“见过的最好的AI手部X光片”。腕骨区域的解剖结构尤其复杂，而模型处理得相当不错。他指出，桡骨远端有一个奇怪的特征，但不确定自己能不能一眼认出这是AI画的。医疗图像里“看起来正确”和“实际上正确”之间的差距，正在迅速缩小。

坏消息是，那份腕管信息传单虽然设计精致，但解剖结构过于不准确，完全无法使用。这提醒人们，在高专业门槛的场景里，模型的视觉表现力和事实准确性之间，仍然存在巨大鸿沟。它可以把一件事画得很“像”那么回事，但当细节关系到诊断、教学或实际操作时，“像”绝对不等于“对”。

在LMArena人工智能匿名测试平台上，ChatGPT Images 2.0以化名“duct tape”进行了数周的秘密测试。研究者阿纳斯塔西奥斯·安杰洛普洛斯评价道，这个模型“把竞技场排行榜搞得天翻地覆”，并创造了竞技场历史上最大的评分差距。

早期测试用户已经用它生成了包含长篇文本块或不同文本面板的复杂图像、逼真的界面截图、真实人物肖像，以及融入网络搜索结果的综合图像。

06 安全与定价：三层权限体系下，生成一张高清图约0.4美元

在能力大幅跃升的同时，OpenAI同步调整了使用权限和定价策略。

基础版ChatGPT Images 2.0向所有ChatGPT和Codex用户开放。这包括更好的指令遵循、更强的文本渲染、多语言能力、从三比一宽幅到一比三高幅的更广泛宽高比，以及更精致的输出质量。

“思考”功能面向ChatGPT Plus、Pro和Business用户开放（企业版即将推出）。这包括工具使用、网络搜索和多图像生成能力。在此之上，Pro用户还能用到更高级的图像生成功能。OpenAI没有公布三个层级之间精确的功能边界，但从现有信息看，“思考模式”是绝对的核心分水岭。它让模型从“画得快”变成“想得深”，代价是生成速度变慢，因为背后多了推理和搜索的步骤。

API用户可以接入gpt-image-2模型，支持最高4K分辨率（测试阶段）和灵活的宽高比选项。定价方面，图像输出按每百万token收费30美元。以威利森的浣熊沃利测试为例，那张高清图消耗了13342个输出token，总成本约为0.4美元。

OpenAI同时确认，GPT-Image-1.5将不再作为默认模型，但仍可通过API获取以提供旧版支持。这一过渡，充分说明了公司对2.0模型的信心。

结语：AI画图正式进入“推理时代”

ChatGPT Images 2.0的发布，不只是参数或画质的提升。它标志着图像生成从“根据提示画画”向“理解任务并系统执行”的转变。

过去，用户和AI图像工具之间始终存在一个“意图差距”。脑子里想要的是一张结构清晰、信息准确、可直接拿来用的图，但模型只能吐出一个“差不多”的画面，剩下的细节得自己开设计软件修补。ChatGPT Images 2.0试图用推理能力，彻底填上这个差距。

当用户上传一份文档要求做成信息图，模型不再只是画一张看起来相关的图片，而是分析文档里的数据结构，规划信息层级，安排图文布局，最后生成一张逻辑自洽的成品。OpenAI管这个叫“从工具到视觉系统”的跨越式转变。

这对商业用户来说，意义很直接。营销团队可以用它快速产出不同尺寸的广告素材，教育工作者可以用它制作包含测验题的多页学习手册，产品经理可以把内部文档直接转成演示用的视觉方案。等待模型“思考”多花的那一分钟，跟手动设计要花的几个小时比起来，怎么算都划算。

当然，问题依然存在。模型在反复编辑时的“顽固”倾向、非英语语言的准确度波动，以及专业领域知识的可靠性边界，这些都需要在实际使用中认真对待。

威利森的测试还揭示了一个有趣的陷阱。当他要求模型在自己生成的那张“找不到浣熊”的图里，用红圈标出浣熊时，模型居然在画面中凭空画出了一只原本不存在的浣熊，然后圈了出来。这说明，在涉及自身输出的自检任务中，模型的可靠性仍然需要打个问号。

但无论如何，ChatGPT Images 2.0把图像生成带进了一个全新的竞争阶段。在谷歌Nano Banana 2于今年2月发布，以及微软MAI-Image-2等竞品相继出现的背景下，OpenAI用这款产品强势回应了市场对“更聪明”而不仅仅是“更精细”的图像工具的期待。

从工具到视觉系统，这一步跨过去之后，用户不再需要学习怎么跟机器说话，因为机器已经开始学习怎么听懂你的话了。

来源：https://www.163.com/tech/article/KR3UCAM800097U7T.html

ChatGPT

上一篇2026 新装修甲醛超标：母婴空气净化器机型推荐 | 除醛效果实测 下一篇雷军为新一代小米 SU7 首批车主交车，亲自开车门

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。