苹果发布40万张图像的Pico-Banana数据集,助力AI图片编辑模型训练
10月29日,苹果公司正式推出名为Pico-Banana-400K的大规模研究数据集,其中包含40万张经过处理的图像样本。值得注意的是,该数据集的构建过程采用了谷歌最新发布的Gemini 2.5模型作为核心技术支撑。
据悉,这项研究成果以《Pico-Banana-400K:面向文本引导图像编辑的大规模数据集》为题发布,同时苹果还公开了基于该研究生成的完整图像资源。该数据集采用非商业研究许可协议发布,意味着学术机构与研究团队可自由使用其中的数据资源,但禁止将其应用于商业场景。
数月前,谷歌推出的Gemini 2.5-Flash-Image模型(内部代号Nanon-Banana)在图像编辑任务中表现卓越,被业界视为当前最先进的视觉内容处理工具之一。尽管近年来各类生成式模型在图像处理领域进步显著,但苹果研究团队指出:"虽然技术持续革新,开放研究仍受限于缺乏大规模、高质量且可自由共享的图像编辑数据集。现有数据集往往依赖专有模型生成的合成数据,或仅包含有限的人工筛选样本。此外,这些数据普遍存在领域偏移、编辑类型分布不均以及质量控制不一致等问题,严重制约了高质量图像编辑模型的研发进程。"
为突破这一瓶颈,苹果团队着手构建更具全面性与代表性的图像编辑数据集。
Pico-Banana-400K的构建流程
研究团队首先从OpenImages数据集中筛选了大量真实照片,确保样本涵盖人物肖像、实体物体及含文字场景等多样化内容。

随后,团队设计了35种不同类型的图像修改指令,并将其归类为八大编辑类别,具体包括:
像素与光度调整:如添加胶片颗粒质感或复古滤镜效果;
以人为中心的编辑:例如将人物形象转化为Funko Pop风格的玩具造型;
场景构图与多主体编辑:如改变天气条件(晴天/雨天/雪天);
对象级语义修改:如移动物体位置或调整空间关系;
图像缩放处理:如局部画面放大等操作。
接下来,研究人员会将原始图像连同编辑指令输入至Nanon-Banana模型执行图像编辑。生成结果随后交由Gemini 2.5-Pro模型进行自动化评估,判断其是否准确遵循指令并具备良好的视觉质量。只有通过双重验证的结果才会被纳入最终数据集。

Pico-Banana-400K不仅包含单轮编辑(即通过单次提示完成修改)的样本,还涵盖多轮连续编辑序列,以及"偏好对比"样本——即成功与失败的编辑结果对比,帮助模型学习区分理想与不良输出。
尽管研究团队承认Nanon-Banana在精细空间控制、布局推理和文字排版处理方面仍存在局限,但他们强调,Pico-Banana-400K的核心目标是为下一代文本引导图像编辑模型提供坚实、可复现的训练与评测基础。
目前,相关研究论文已发表于预印本平台arXiv,完整的Pico-Banana-400K数据集也在GitHub上面向全球研究者免费开放。
相关攻略
 
			
            10月31日消息,博主数码闲聊站表示,经过苹果检验,超轻薄旗舰的市场认可度不够,国内某厂商原定明年上半年的轻薄Air项目已暂停。此前分析师郭明錤表示,iPhone Air需求低于预期,导致供应链已经
 
			
            10月31日消息,据媒体报道,有网友近日发文称,在苹果正式买新机参与换购活动,结果反被“坑”。网友表示,自己花11999元购买了一台iPhone 17 Pro Max,用旧机iPhone 14 Pr
 
			
            10 月 29 日消息,苹果公司发布了 Pico-Banana-400K,这是一个包含 40 万张图像的研究数据集,有趣的是,该数据集是利用谷歌的 Gemini-2 5 模型构建的。据了解,苹果的
 
			
            最近,苹果亲自上场,用一篇论文展示了其可行性。在这篇论文中,苹果提出了一种内存高效型反向传播(MeBP)。 用 iPhone 本地跑大模型已经不是新鲜事了,但能不能在 iPhone 上微调模型呢?最
 
			
            10 月 29 日消息,企业监督组织 Corporate Europe Observatory 最新报告显示,苹果过去一年在欧盟的游说支出达 700 万欧元(注:现汇率约合 5790 6 万元人民
热门专题
 
					
					 
					
					热门推荐
 
			
            在新能源汽车领域,自主品牌长期占据主导地位,合资品牌曾一度被边缘化,甚至被部分消费者视为“杂牌”。然而,近年来合资品牌开始加速转型,逐渐适应中国市场的新能源需求。广汽丰田铂智3X、日产N7等车型凭借
 
			
            10月31日消息,今天,小米汽车向大家汇报小米汽车开店新进展。10月新增22家门店,全国125城已有424家门店。11月计划新增17家门店,预计覆盖吉安、临汾、南阳、十堰、渭南、宜宾6座新城市。据了
 
			
            AI赋能区块链在DeFi、安全与数据分析领域实现突破:1 在DeFi中,AI实现智能投顾、风险管理、流动性优化与跨链互操作性;2 在安全方面,AI提升智能合约审计、节点行为检测、零知识证明效率与链上身份认证;3 在数据应用中,AI推动链上洞察、资产定价、网络监测与反洗合规,全面增强区块链系统的智能化水平。
 
			
            关于在vivo手机上获取应用的几点思考 前几天帮亲戚调试新买的vivo手机,遇到个挺有意思的情况。他想安装某个特定用途的应用,但在官方应用
 
			
            保卫萝卜4胡桃夹子第七十二关是一个颇具挑战性的关卡。要顺利通关,需要精心规划布局,合理运用各种道具和炮塔。开局时,场上有一些初始的道具和炮塔。我们首先要利用好这些资源,在怪物出现的





