苹果公司近日发布了一款名为Pico-Banana-400K的图像研究数据集,其中收录了40万张经过精心编辑处理的图像样本。该数据集致力于为文本引导的图像编辑技术提供更可靠的训练与评估资源。这项研究成果已通过预印本平台arXiv正式发表,完整数据集也在GitHub上向全球研究人员开放。该项目采用非商业性研究许可协议,允许学术机构自由使用相关素材,但明确禁止商业用途。
研究团队指出,当前图像编辑领域虽然技术发展迅猛,但在开放研究方面仍面临数据质量参差不齐的挑战。现有数据集大多依赖专用模型合成的生成数据,或仅包含有限的人工筛选样本,普遍存在领域偏差、编辑类型分布不均以及质量控制不一致等问题。这些局限严重制约了高质量图像编辑模型的迭代发展。为突破这一瓶颈,苹果团队决定构建一个覆盖更全面、更具代表性的标准化数据集。
Pico-Banana-400K的构建始于对OpenImages数据集中真实照片的筛选,确保样本涵盖人物、物体及含文字场景等多样化内容。研究团队设计了35种不同类型的图像编辑指令,并将其归纳为八大类别,包括像素与光度调整(如添加复古滤镜)、以人为中心的编辑(将人物转化为卡通风格)、场景构成与多主体编辑(改变天气条件)、对象级语义修改(移动物体位置)、图像缩放(放大画面尺寸)等。
在编辑流程中,研究人员将原始图像与编辑指令同时输入谷歌的Gemini 2.5 Flash图像模型(内部代号Nanon-Banana)进行生成,随后利用Gemini 2.5 Pro模型对结果进行自动评估,确保编辑效果既精准遵循指令要求,又具备良好的视觉品质。只有通过双重验证的样本才会被纳入最终数据集。
该数据集不仅包含单轮编辑样本,还涵盖了多轮连续编辑序列,以及"偏好对比"样本——即成功与失败编辑结果的成对对比,帮助模型学习区分理想与不良输出。这种设计使Pico-Banana-400K能够支持更复杂的编辑任务,并为模型训练提供更丰富的反馈信号。
尽管研究团队承认Nanon-Banana模型在精细空间控制、布局外推和文字排版处理方面仍存在局限,但他们强调,Pico-Banana-400K的核心目标是为下一代文本引导图像编辑模型建立坚实可靠的基础。通过公开这一资源,苹果希望推动图像编辑领域的技术进步,同时为研究人员提供更高效的工具,以应对开放研究中面临的数据挑战。
