苹果发布Pico-Banana数据集:40万图片助力AI图像模型训练
苹果公司近日在学术研究领域取得重大突破,正式发布了名为《Pico-Banana-400K:面向文本引导图像编辑的大规模数据集》的研究成果,并同步公开了包含40万张图像的完整数据集。该数据集采用非商业性研究许可协议,全球研究人员和学术机构均可自由将其用于非盈利目的的研究探索。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
研究团队指出,当前图像编辑领域面临三大关键瓶颈:现有公开数据集普遍依赖专用模型生成的合成数据、人工筛选子集规模有限、质量评估标准不统一。这些问题导致领域偏移、编辑类型分布失衡等长期疑难,严重制约了鲁棒性图像编辑模型的开发进程。为此,苹果选择以开源方式构建更全面的基准数据集。
数据集构建流程体现了严谨的学术规范。研究人员首先从OpenImages数据集中精选涵盖人物、物体、文字场景等多元内容的真实照片,随后设计了35种细分编辑指令并划分为八大类别:包括像素级调整(如添加复古滤镜)、人物形象转换(如生成Funko Pop玩具风格)、场景重构(如天气条件变化)、对象语义修改(如物体空间关系调整)等典型场景。
在技术实现层面,项目采用谷歌开发的Gemini-2.5系列模型完成核心工作流。每张原始图像与编辑指令输入Nanon-Banana模型(即Gemini 2.5 Flash Image)生成候选结果,再由Gemini 2.5 Pro进行双重验证:既检查指令遵循度,也评估视觉质量。只有通过严格筛选的样本才能进入最终数据集。
该数据集的创新性体现在结构化设计:除包含单轮编辑样本外,特别收录多轮连续编辑序列,完整呈现图像逐步演变过程;同时设置"偏好对"样本,通过成功与失败案例的对比,为模型提供明确的优化方向。这种设计使数据集既能用于基础训练,也可支撑复杂的评测任务。
研究团队坦言当前模型在空间控制精度、布局外推能力等方面仍有提升空间,但强调Pico-Banana-400K的核心价值在于建立标准化基准。通过提供大规模、高质量且完全开放的训练资源,该项目有望推动文本引导图像编辑领域进入新的发展阶段。目前完整数据集与学术论文已分别在GitHub和arXiv平台公开,供全球研究者下载使用。
热门专题
热门推荐
加密货币行业翘首以盼的监管里程碑,终于有了实质性进展。美国证券交易委员会(SEC)主席保罗·阿特金斯(Paul Atkins)近日证实,那份允许加密项目在早期获得注册豁免权的“安全港”框架提案,已经正式送抵白宫,进入了最终审查阶段。 在范德堡大学与区块链协会联合举办的数字资产峰会上,阿特金斯透露了这
微策略Strategy报告:第一季录得144 6亿美元浮亏 再斥资约3 3亿美元买进4871枚比特币 市场震荡的威力有多大?看看Strategy的最新季报就明白了。根据其最新向美国证管会(SEC)提交的8-K报告,受市场剧烈波动影响,这家公司所持的比特币在第一季度录得了一笔惊人的数字——144 6亿
稳定币巨头Tether的动向,向来是加密世界的风向标。这不,它向Web3基础设施的版图扩张,又迈出了关键一步。公司执行长Paolo Ardoino在社交平台X上透露,其工程团队正在全力“烹制”一个新项目——去中心化搜索引擎 “Hypersearch”。这个消息一出,立刻引发了行业的广泛猜想。 采用D
基地位于Coinbase旗下以太坊Layer2网络Base的Seamless Protocol,日前正式宣告了服务的终结。这个曾经吸引了超过20万用户的原生DeFi借贷协议,在运营不到三年后,终究没能跑赢时间。它主打的核心产品是Integrated Leverage Markets(ILMs)——一
PAAL代币揭秘:深度解析Web3社区治理的核心钥匙 在去中心化自治组织的浪潮中,谁真正掌握了项目的话语权?PAAL代币提供了一套系统化的答案。它不仅是生态内流转的价值媒介,更是开启链上治理大门的核心凭证。通过持有并质押PAAL代币,用户能够对协议升级、资金分配乃至战略方向等关键事务投出决定性的一票





