苹果发布Pico-Banana 40万数据集,为AI图像模型注入新素材
苹果公司近日发布了一款名为Pico-Banana-400K的图像研究数据集,其中收录了40万张经过精心编辑处理的图像样本。该数据集致力于为文本引导的图像编辑技术提供更可靠的训练与评估资源。这项研究成果已通过预印本平台arXiv正式发表,完整数据集也在GitHub上向全球研究人员开放。该项目采用非商业性研究许可协议,允许学术机构自由使用相关素材,但明确禁止商业用途。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
研究团队指出,当前图像编辑领域虽然技术发展迅猛,但在开放研究方面仍面临数据质量参差不齐的挑战。现有数据集大多依赖专用模型合成的生成数据,或仅包含有限的人工筛选样本,普遍存在领域偏差、编辑类型分布不均以及质量控制不一致等问题。这些局限严重制约了高质量图像编辑模型的迭代发展。为突破这一瓶颈,苹果团队决定构建一个覆盖更全面、更具代表性的标准化数据集。
Pico-Banana-400K的构建始于对OpenImages数据集中真实照片的筛选,确保样本涵盖人物、物体及含文字场景等多样化内容。研究团队设计了35种不同类型的图像编辑指令,并将其归纳为八大类别,包括像素与光度调整(如添加复古滤镜)、以人为中心的编辑(将人物转化为卡通风格)、场景构成与多主体编辑(改变天气条件)、对象级语义修改(移动物体位置)、图像缩放(放大画面尺寸)等。
在编辑流程中,研究人员将原始图像与编辑指令同时输入谷歌的Gemini 2.5 Flash图像模型(内部代号Nanon-Banana)进行生成,随后利用Gemini 2.5 Pro模型对结果进行自动评估,确保编辑效果既精准遵循指令要求,又具备良好的视觉品质。只有通过双重验证的样本才会被纳入最终数据集。
该数据集不仅包含单轮编辑样本,还涵盖了多轮连续编辑序列,以及"偏好对比"样本——即成功与失败编辑结果的成对对比,帮助模型学习区分理想与不良输出。这种设计使Pico-Banana-400K能够支持更复杂的编辑任务,并为模型训练提供更丰富的反馈信号。
尽管研究团队承认Nanon-Banana模型在精细空间控制、布局外推和文字排版处理方面仍存在局限,但他们强调,Pico-Banana-400K的核心目标是为下一代文本引导图像编辑模型建立坚实可靠的基础。通过公开这一资源,苹果希望推动图像编辑领域的技术进步,同时为研究人员提供更高效的工具,以应对开放研究中面临的数据挑战。
热门专题
热门推荐
任天堂吉祥物马里奥的宿敌酷霸王解析:为何这位反派深受喜爱?宫本茂通过电影揭示角色深层魅力 谈到任天堂的经典形象,马里奥与酷霸王这对宿敌的组合可谓深入人心。一边是永不放弃拯救碧姬公主的英雄,另一边则是不断制造混乱的恶棍,故事框架虽简单却历经三十余年依然人气不减。但仔细品味,酷霸王这个角色颇为值得玩味:
洛克王国神圣狮鹫图鉴:揭秘悬崖之王的飞行奥秘 当冒险者们踏上洛克王国的高耸悬崖,便能感受到猛烈的疾风。呼啸而过的气流远超平地的强度,然而正是这片常年不息的风域,成为了狮鹫一族最卓越的自然训练场。在这个独特的环境中,它们锤炼出了对抗强风与复杂气流的顶级飞行技巧,其背后的生存智慧,实在值得探险者们深入探
4月2日消息,三星电子最新表示,自2019年起连续七年位居全球第一。根据三星援引的市场调研公司IDC数据,2025年三星电子在全球游戏电竞显示器市场的收入占比达到18 9%。从销量来看,2025年三
内存市场因为人工智能高带宽内存的蓬勃需求而陷入供应紧张,传统内存也因大量产线被占用而供不应求。在这种大背景下,苹果似乎采取了一种争议性的商业手段,来进一步扩大其市场份额。据韩国消息人士透露,苹果公司
4月6日消息,近期内存市场风声鹤唳,现货价格小幅回调就引发了内存价格崩盘”的论调,甚至带动相关个股集体下跌,但行业龙头三星却完全不为所动,反而按计划继续上调DRAM内存产品价格,用实际行动打破了市场





