凌晨突发!ChatGPT Images 2.0发布,实测后发现:这次最狠的,不是画得更像了
编辑 | 王凤枝
AI画图领域,再次迎来了一次关键转折。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
4月22日凌晨,OpenAI正式发布了ChatGPT Images 2.0。消息一出,圈内讨论的焦点,并非仅仅是其画功的精进,而在于它工作方式的根本性转变:它终于开始“先想后画”了。这意味着,模型在落笔之前,会先进行推理、搜索、解读文件,然后再交出成品。过去那些最容易“翻车”的精细场景——比如菜单、海报、信息图表里的小字和复杂排版——如今看来,已经具备了直接投入使用的潜力。

从今天起,所有ChatGPT和Codex用户都能使用其基础版本,而付费订阅用户则可以解锁“思考模式”等高级功能。与此同时,其底层模型gpt-image-2也已通过API对外开放。
01 两年前拼错菜名,现在菜单可以直接挂上墙
还记得2024年用DALL-E 3生成墨西哥餐厅菜单的窘境吗?那些凭空捏造的菜名,诸如“enchuita”、“churiros”、“burrto”甚至“margartas”,几乎没有一个单词的拼写是正确的。当时的扩散模型在处理图像中的文字时,本质上是在从噪声中重建像素,文字只是画面中微不足道的一小部分,模型很难学会将这些特定模式的像素排列正确。

如今,情况已截然不同。向ChatGPT Images 2.0索要同样一份墨西哥菜单,得到的成品几乎可以直接送去印刷。不仅菜品名称拼写准确、排版清晰规整,连价格都老老实实地标注在上面。当然,一份标价13.5美元的酸橘汁腌鱼可能会让你对食材分量产生一丝怀疑——在旧金山,这个价格买到的海鲜大概只够喂猫——但至少从菜单本身来看,已经找不出明显的破绽。
这种跨越,源于底层架构的彻底重构。OpenAI GPT图像生成技术研究负责人陈博远在媒体简报会上,将新模型描述为一个“通才模型”,或者说,是“图像的生成式预训练变换器”。他强调,新模型能够通过文本提示,处理三维风格的视角转换和复杂的空间推理。
虽然他没有明确确认具体使用的是扩散模型还是自回归技术,但效果是实打实的。小号文字、图标、用户界面元素、密集构图以及微妙的风格限制,这些过去让图像模型频频“翻车”的精细内容,现在都能被稳定渲染,且最高支持2K分辨率。
更直观的对比来自开发者西蒙·威利森的测试。他让新旧模型分别生成一张《沃利在哪里》风格的寻物图,目标是找到一只拿着业余无线电的浣熊。旧版模型生成的画面内容丰富,但翻遍整张图也找不到目标浣熊。而新模型在设置为高画质及3840×2160像素后,生成了一张17MB的复杂图像,那只浣熊正安安静静地坐在左下角的业余无线电摊位里,清晰可辨。

AI计算服务公司Hyperbolic Labs联合创始人金宇宸试用后表示:“刚刚试了ChatGPT Images 2.0,真的非常棒。”他惊叹于OpenAI终于再次在图像生成领域引领了方向。

02 生成之前先打草稿:模型会搜索、会推理、会自己检查作业
ChatGPT Images 2.0最关键的升级,并非画得更精细,而是多了一套“思考”流程。
传统图像模型的工作方式像一个黑箱:输入提示词,直接输出图像。而ChatGPT Images 2.0的“思考模式”(面向付费用户开放)在渲染第一个像素之前,会先花时间做准备工作。它会搜索网络获取最新信息,分析用户上传的文件内容,通过推理规划图像的结构布局,甚至对生成结果做一遍自我检查。
OpenAI ChatGPT Images产品负责人李·艾德丽在媒体演示中,上传了一份关于内部产品策略的复杂演示文稿。模型没有简单地配一张相关图片了事,而是综合了文档里的核心数据,识别了正确的标志,最终生成了一张专业海报,且完整保留了原始文件的风格特征。
这种能力让模型可以承担从想法到图像之间更多的“中间活”。例如,当用户需要一张旧金山次日天气预报及推荐活动信息图时,模型会主动去获取当地的实时天气数据,在图像中准确呈现雨天的细节,同时画出渡轮大厦、卡斯特罗剧院、彩绘仕女屋和泛美金字塔等旧金山地标的轮廓。用户不再需要事无巨细地描述每个元素,模型用自己的知识储备填补了空白。
模型的知识截止日期更新至2025年12月,这意味着它能处理涉及近期事件和当下语境的图像需求。对于需要事实基础的视觉任务,比如制作教育资料、产品宣传物料和内部培训图表,这一能力大幅降低了用户的工作量。
沃顿商学院教授伊桑·莫利克过去几周一直在测试新模型。他表示,自己原本不觉得更好的图像生成器是什么大事,但事实证明,存在一个他没预料到的“质量门槛”,一旦跨过去,就能生成高质量的文字内容、幻灯片以及学术海报。

他以自己著名的“水獭测试”做了演示,展示了模型生成复杂教学材料的能力。不过,莫利克同时提醒,模型仍然有典型的图像生成通病。它在反复编辑修改时会变得“非常顽固”,前两次调整效果不错,之后就开始“磨洋工”,这时候把图像放进新对话重新开始,往往更有效。
03 一次生成八张图:漫画、绘本和社交素材的流水线来了
对于需要批量产出视觉内容的创作者来说,ChatGPT Images 2.0提供了一个立竿见影的效率工具:一个提示词,可以一次性生成最多八张图,而且系列之间的角色、物体和风格能保持高度一致。
这意味着什么?以前生成一个儿童绘本的故事板,需要一次一次地生成,每次都要重新描述主角长相、衣着、背景色调,并祈祷模型记住之前的设定。现在,只需要一次提示,八张连贯的画面同时出炉,角色从第一页到最后一页都能保持一致。
同样的逻辑适用于漫画分镜、社交媒体多图发布,以及房屋各房间的设计方案。艾德丽指出,这解决了用户过去必须一次提示一张图,然后手动拼接的繁琐流程。OpenAI在最新发布说明中写道:“图像是一种语言,而非装饰。一幅好图像所做的,正如一个好句子所做的:选择、安排、揭示。”
OpenAI联合创始人兼CEO山姆·奥特曼在社交媒体上发布了一部由ChatGPT Images 2.0生成的漫画,内容是他和另一位用户“寻找更多GPU”的故事。

OpenAI总裁格雷格·布罗克曼也评论道:“真的难以置信,你现在用一点计算资源就能造出这样的东西。”他表示,自己对教育、专业环境(比如幻灯片和营销材料),以及生产力领域(比如给代码文档配图表)的新应用感到“极度兴奋”。

04 从日语菜单到印地语海报:非拉丁文字终于不用再“鬼画符”
OpenAI在发布说明中,将ChatGPT Images 2.0的多语言文本渲染能力称为“显著进步”,具体点名了日语、韩语、中文、印地语和孟加拉语。在最新展示的样本中,水循环教育图表的韩文标注清晰工整,字符结构完整,且与画面融合自然。
但样本归样本,实际表现如何?《连线》杂志记者里斯·罗杰斯让模型生成了一张提莫西·查拉梅主题的中国粉丝拼贴海报。输出画面包含超过二十处中文文本片段,以及饺子、珍珠奶茶和熊猫等图像,视觉效果繁复热闹。

罗杰斯随后让聊天机器人翻译这些文字,机器人的回复倒是很诚实,它指出其中有些文本并非准确的中文句子,部分混入了日语字符,还有一些更像是模仿东亚粉丝文化风格的装饰性文字。不过,从视觉完成度来看,模型生成的中文图像已经相当“能打”,在日常使用中完全可以接受。
这与两年前的情况形成了鲜明对比。彼时,AI图像里的中文连基本的笔画结构都难以维持,一眼就能看出是机器“瞎编”的。现在,模型不仅能正确渲染大部分常用汉字,在排版、字号搭配和画面融合上也明显更自然了。当然,如果拿着放大镜逐字检查,偶尔还是会发现个别字符不够规范,但对于海报、社交素材、信息图这类实际使用场景来说,已经跨过了“可用”的门槛。OpenAI所说的多语言“质的飞跃”,在中文上或许还不算满分,但已经是一个扎实的高分。
05 手外科医生的非正式评估:X光片好得吓人,但解剖图还是别用
前面讨论的多是创意、设计、营销场景,如海报、菜单、漫画、社交媒体素材。这些场景对图像的容错率相对宽松,排版好看、氛围到位就算合格。但如果把模型扔进一个容错率几乎为零的领域,它还扛不扛得住?
美国知名显微外科与手外科专科医疗机构The Buncke Clinic的手部医生布莱恩·普里根对新模型做了自己的非正式评估。他生成了一张手部X光片和一份腕管综合征信息传单。结论是喜忧参半。

好消息是,那张AI生成的X光片,是他“见过的最好的AI手部X光片”。腕骨区域的解剖结构尤其复杂,而模型处理得相当不错。他指出,桡骨远端有一个奇怪的特征,但不确定自己能不能一眼认出这是AI画的。医疗图像里“看起来正确”和“实际上正确”之间的差距,正在迅速缩小。
坏消息是,那份腕管信息传单虽然设计精致,但解剖结构过于不准确,完全无法使用。这提醒人们,在高专业门槛的场景里,模型的视觉表现力和事实准确性之间,仍然存在巨大鸿沟。它可以把一件事画得很“像”那么回事,但当细节关系到诊断、教学或实际操作时,“像”绝对不等于“对”。
在LMArena人工智能匿名测试平台上,ChatGPT Images 2.0以化名“duct tape”进行了数周的秘密测试。研究者阿纳斯塔西奥斯·安杰洛普洛斯评价道,这个模型“把竞技场排行榜搞得天翻地覆”,并创造了竞技场历史上最大的评分差距。

早期测试用户已经用它生成了包含长篇文本块或不同文本面板的复杂图像、逼真的界面截图、真实人物肖像,以及融入网络搜索结果的综合图像。
06 安全与定价:三层权限体系下,生成一张高清图约0.4美元
在能力大幅跃升的同时,OpenAI同步调整了使用权限和定价策略。
基础版ChatGPT Images 2.0向所有ChatGPT和Codex用户开放。这包括更好的指令遵循、更强的文本渲染、多语言能力、从三比一宽幅到一比三高幅的更广泛宽高比,以及更精致的输出质量。
“思考”功能面向ChatGPT Plus、Pro和Business用户开放(企业版即将推出)。这包括工具使用、网络搜索和多图像生成能力。在此之上,Pro用户还能用到更高级的图像生成功能。OpenAI没有公布三个层级之间精确的功能边界,但从现有信息看,“思考模式”是绝对的核心分水岭。它让模型从“画得快”变成“想得深”,代价是生成速度变慢,因为背后多了推理和搜索的步骤。
API用户可以接入gpt-image-2模型,支持最高4K分辨率(测试阶段)和灵活的宽高比选项。定价方面,图像输出按每百万token收费30美元。以威利森的浣熊沃利测试为例,那张高清图消耗了13342个输出token,总成本约为0.4美元。
OpenAI同时确认,GPT-Image-1.5将不再作为默认模型,但仍可通过API获取以提供旧版支持。这一过渡,充分说明了公司对2.0模型的信心。
结语:AI画图正式进入“推理时代”
ChatGPT Images 2.0的发布,不只是参数或画质的提升。它标志着图像生成从“根据提示画画”向“理解任务并系统执行”的转变。
过去,用户和AI图像工具之间始终存在一个“意图差距”。脑子里想要的是一张结构清晰、信息准确、可直接拿来用的图,但模型只能吐出一个“差不多”的画面,剩下的细节得自己开设计软件修补。ChatGPT Images 2.0试图用推理能力,彻底填上这个差距。
当用户上传一份文档要求做成信息图,模型不再只是画一张看起来相关的图片,而是分析文档里的数据结构,规划信息层级,安排图文布局,最后生成一张逻辑自洽的成品。OpenAI管这个叫“从工具到视觉系统”的跨越式转变。
这对商业用户来说,意义很直接。营销团队可以用它快速产出不同尺寸的广告素材,教育工作者可以用它制作包含测验题的多页学习手册,产品经理可以把内部文档直接转成演示用的视觉方案。等待模型“思考”多花的那一分钟,跟手动设计要花的几个小时比起来,怎么算都划算。
当然,问题依然存在。模型在反复编辑时的“顽固”倾向、非英语语言的准确度波动,以及专业领域知识的可靠性边界,这些都需要在实际使用中认真对待。
威利森的测试还揭示了一个有趣的陷阱。当他要求模型在自己生成的那张“找不到浣熊”的图里,用红圈标出浣熊时,模型居然在画面中凭空画出了一只原本不存在的浣熊,然后圈了出来。这说明,在涉及自身输出的自检任务中,模型的可靠性仍然需要打个问号。
但无论如何,ChatGPT Images 2.0把图像生成带进了一个全新的竞争阶段。在谷歌Nano Banana 2于今年2月发布,以及微软MAI-Image-2等竞品相继出现的背景下,OpenAI用这款产品强势回应了市场对“更聪明”而不仅仅是“更精细”的图像工具的期待。
从工具到视觉系统,这一步跨过去之后,用户不再需要学习怎么跟机器说话,因为机器已经开始学习怎么听懂你的话了。
相关攻略
ChatGPT数不对单词字母?深度解析其根本原因 让AI数一数单词有几个字母,听起来是个简单的任务,结果却常常出错。这背后并非模型“粗心”,而是一系列技术本质与任务需求错位导致的必然结果。根本原因在于,其依赖分词器将单词切分为子词单元(如“straw”“berry”),丢失了原始字符的线性序列;训练
微软GitHub推出跨模型AI审查:Claude Sonnet 4 6搭配GPT-5 4,弥补74 7%性能差距 最近,GitHub Copilot团队放出了一个有意思的新实验。4月6日,他们正式为Copilot CLI推出了一个名为“Rubber Duck”的实验性功能。这个功能的核心理念很直观:
4月7日消息,没人愿意读生硬刻板、满是企业腔的AI生成内容。读者只要察觉到文本里那些标志性的AI写作痕迹,页面跳出率就会直线飙升。油管发布的一项调研结果显示,目前已有92%的内容创作者在使用生成式A
OpenClaw 从零到一:完整安装教程与常见问题解决 想要快速上手 OpenClaw 智能体开发平台?本文将为你提供一份详尽的安装使用指南,涵盖从系统环境准备、核心安装步骤、关键配置到实战应用的完整流程。我们将重点解析安装过程中的常见“坑点”与解决方案,助你高效部署,顺利开启 AI 智能体开发之旅
IT之家 4 月 1 日消息,OpenAI 已更新 ChatGPT ,新增了对苹果 CarPlay 的支持。这意味着 CarPlay 用户如今可以直接在汽车中控屏上向 ChatGPT 提问并下达指令
热门专题
热门推荐
不再区分社区 旗舰版:IntelliJ IDEA 2025 3 正式统一,免费功能扩展、使用体验更顺畅 就在昨天,也就是12月8日,开发者工具领域的标志性事件发生了——IntelliJ IDEA 2025 3版本正式与大家见面。 从这个版本开始,一个持续多年的历史性划分被打破了。JetBrain
HOME币:当区块链叩开房地产的大门 在加密货币的浪潮中,总有一些项目试图解决现实世界的真问题。HOME币便是这样一个存在——它不满足于仅仅作为一种数字资产,而是将目光投向了价值数十万亿美元的全球房地产市场,试图用区块链技术重构这个古老行业的交易逻辑。 那么,这个由匿名创始人“Homer”发起的项目
Windows 11中如何开启Telnet服务? 在进行远程连接或设备调试时,有时会需要用到Telnet这个经典的工具。不过,升级到Windows 11后,不少朋友发现这个功能“藏”得更深了,一时找不到开启的入口。其实,它并没有消失,只是需要通过“可选功能”来手动添加。下面这个清晰的步骤指南,能帮你
“倾家荡产”为结婚!宝可梦粉丝拍卖价值30万稀有卡牌 最近有个挺有意思的事儿:一位宝可梦粉丝在自家阁楼里翻出了三张稀有卡牌,结果拍卖所得,正好够支付他今年夏天的婚礼费用。这事儿听起来像电影情节,但还真就发生了。 主角是来自英国多塞特郡温伯恩的安德鲁·布劳德。就在上周,他在英格兰萨里郡的伊班克拍卖行,
希望城官网首页登录入口网址 在当下竞争激烈的模拟经营手游市场中,《希望城》以其独特的“反内卷”设计理念脱颖而出,为玩家精心打造了一个远离现实压力的数字疗愈空间。其官方网站登录入口为:https: www hope-city cn。在这里,你将告别体力值限制的束缚,无需被强制任务追赶进度,更能彻底摆





