
OpenAI正式推出了全新的图像生成模型 gpt-image-1.5,旨在强化其在人工智能图像领域的技术实力,以应对近期在该领域表现突出的 Google Gemini 系列模型 Nano Banana 所带来的竞争压力。此次推出的新模型将同时服务于开发者群体与广大终端用户,并全面取代原有系统,成为 ChatGPT 中图像生成功能的核心支持。
今年3月,OpenAI 曾对 ChatGPT 的图像生成能力进行重大升级,新功能上线后迅速获得用户青睐,仅一周时间就在平台内催生出超过7亿张图像。紧随其后,公司在4月推出 gpt-image-1 接口,将这一代图像生成技术开放给外部开发者,使其能够将图像合成功能集成至各类第三方应用与服务平台之中。
然而自9月起,随着 Google 推出 Gemini Nano Banana 模型,市场格局发生变化。该模型凭借更出色的图像生成质量与编辑灵活性,迅速赢得关注并扩大用户基础,在专业开发者社区中也获得了广泛认可。随后在上个月,Google 进一步推出升级版本 Gemini 3 Pro Image,内部代号为 Nano Banana Pro,依托其在逻辑推理和现实知识理解方面的积累,显著提升了图像生成内容的准确性和上下文一致性。
面对这一趋势,OpenAI 将 gpt-image-1.5 定位为应对挑战的关键产品。新模型在多个维度实现突破,尤其在图像编辑的精细控制、品牌标识及人脸等关键视觉元素的还原精度方面表现更为优异。同时,系统对用户指令的理解能力和执行准确性也得到加强,特别是在处理图像中包含的文字内容时进步明显,无论是高密度排版还是小字号文本,均可实现更清晰、更正确的呈现。
在开发支持层面,gpt-image-1.5 带来了更具吸引力的成本结构。相较于前代模型,图像输入与输出的调用费用降低约20%,有效减轻了开发者的使用负担。开发者仍可通过 quality 参数灵活调节生成质量以平衡性能与开销,而 OpenAI 指出,即使在较低设定下,新模型依然能维持较高的输出水准。
对于普通用户而言,gpt-image-1.5 已全面融入 ChatGPT 的交互体验,成为其图像功能的底层驱动。最新测试显示,新模型可在保留原始画面光影、构图布局及人物特征的基础上,实现更加精准的内容修改,整体处理效率最高可达此前版本的四倍,响应速度显著加快,带来更流畅自然的生成与编辑体验。
