游乐游手机版
首页/科技数码/文章详情

Stability AI教AI自动拆解图片分层

时间:2026-06-11 12:41
提出Stable-Layers框架,利用视觉语言模型作为裁判对候选分层方案进行两阶段打分,解决分数压缩问题,通过组相对策略优化驱动模型迭代。该方法无需人工标注,显著减少空白层与损坏层,背景修复更自然,图像层分解质量有效提升。

试想这样一个画面:你手机相册里的一张照片,对你而言,不过是蓝天、白云、人物与背景的自然融合。然而,在专业的图像处理流程中,这张照片必须被“分解”——人物单独一层,背景单独一层。这种“拆图”在行业里被称为“图像层分解”,听起来简单,但对AI来说,却是难题,因为“如何拆分”这件事本身充满了主观性和不确定性。

Stability AI的研究团队这次挑战的正是这块硬骨头。他们推出了一套名为 **Stable-Layers** 的训练框架,核心思路非常巧妙:无需人工标注“标准答案”,而是引入一个能理解图片的AI大模型作为“裁判”。让候选的分层方案进行比拼,裁判负责打分,模型则依据分数持续迭代进化。最终效果显著——层与层之间的内容更加纯净,过去常见的空白层与损坏层大幅减少,背景修复不再是生硬的“补丁”,而是实现了“自然填充”。

一、为什么“分层”对AI来说是个难题?

要理解这项研究的价值,首先需要感受这个问题的难度。不妨将“图像层分解”想象成拆解拼图。拼图原本完整,现在要拆解成若干组。听起来直接,但关键难点在于:**同一张拼图,存在无数种同样合理的拆法。** 一棵树及其下方的阴影,应算一层还是两层?前景人物与身后的栏杆,该不该分开?

对于人类而言,答案取决于后续目标。正因如此,过去的训练方法大多依赖人工合成的“配对数据”——人为制作原图与各层的完美样本,让AI进行机械记忆。但问题在于,当某张照片存在多种同样合理的分层方式时,强行让AI拟合某一个固定答案,反而会惩罚其他同样正确的方案。

Stability AI团队跳出这一思维定式:与其给AI一个固定答案让它死记硬背,不如让它先生成多种可能,再找一个“懂行的裁判”判断哪个更优。这个裁判就是视觉语言模型(VLM),一种既能“看”图又能“读”文本的大模型。

二、如何让裁判打出有区分度的分数?

我们把训练过程想象成一个绘画选拔赛。分层模型是选手,每次对同一张照片画出多幅“分层作品”。VLM就是考官,负责给每幅作品打分。

然而,直接用VLM打分,团队很快遇到了麻烦:考官单独看每幅作品时,给出的分数往往非常接近。比如同一组四幅作品,分数分别为0.72、0.74、0.71、0.73,差距极小,训练算法完全无从下手——这就像老师给四篇作文打了89、90、89、90分,你根本无法判断哪篇才是真正的优胜者。

这个问题有一个专业名称叫**“分数压缩”**,是整个研究的核心难点之一。为此,团队设计了一套两阶段评分流程。

第一阶段,考官对每幅作品进行结构化的逐项打分,评估五个维度:

  • 语义分离度:前景层是否清晰地包含了一个完整的独立对象。
  • 透明度清洁度:前景边缘是否干净,有没有半透明的“幽灵”残影。
  • 背景修复质量:去掉前景后,背景填充区域是否自然合理。
  • 特征分布均匀性:内容是否合理地分散在各层,而不是全部堆积在一层。
  • 内容有效性:有没有空白层或仅包含噪点的无效层。

每个维度0-5分,满分25分,再归一化到0-1之间。

第二阶段才是点睛之笔。系统将同组所有候选的分层结果拼成一张对比网格图,每个候选用数字标签标注,然后再次请考官看图,并告知其第一阶段的分数,要求它进行**相对比较**,重新给出分数。这就像告诉考官:“这四篇作文第一轮分数都差不多,但请把它们放在一起再看一遍,谁才是真正的赢家?” 结果,原本被压缩在0.71-0.74之间的分数,经过校准后可能变成0.38, 0.45, 0.82, 0.91——差距瞬间拉开,训练算法终于能学到有用的信息了。

三、训练机制:模型如何从“打分”中学习?

整个训练流程是一个循环:生成 → 打分 → 学习。

  • 生成:模型对同一张图片生成若干候选分层结果。
  • 打分:使用上述两阶段VLM评分流程给候选结果打分。
  • 学习:根据组内候选的相对分数差距,计算每个候选的“优势值”,再用这个优势值来更新模型。

这里使用的核心优化算法叫**GRPO**(组相对策略优化)。它的精妙之处在于,不需要绝对正确的答案,只需要知道在同一组里谁比谁好。分数高于组内平均水平的候选,其生成方式受到鼓励;低于平均水平的,则被抑制。就像一个厨师,听食客说“第二道比第一道好,第三道最差”,然后据此调整烹饪方式,即便食客没有给出精确的配方建议。

训练的底座模型是**Qwen-Image-Layered**,一个能把普通RGB图片分解成多个带透明通道的RGBA图层的流匹配变换器。为了节约算力,团队只对模型的部分层应用了LoRA微调,大部分参数保持冻结。

四、一个额外的工程挑战:稳定强化学习

将强化学习应用到图像生成模型,历来面临一个稳定性难题。GRPO算法的稳定依赖一个叫“重要性比率”的量,但Qwen-Image-Layered模型的结构特殊——它将多个RGBA图层打包成一个超长的潜在向量序列,序列长度远超普通单图模型。对极高维度序列取平均值,会让每一步的对数概率值被稀释得趋近于零,导致比率信号消失,训练无法进行。

团队针对这个问题做了一个聪明的数学调整:**把对空间维度取平均值改为先求和,再除以维度数的平方根。** 这个看似简单的改动,让比率的量级恢复到正常范围,同时保留了稳定性优势。这对于未来想将强化学习应用到其它高维生成模型的研究者来说,是一个极具参考价值的实用技巧。

五、效果如何?从数据中找答案

研究团队在两个场景中验证了效果。一个是用Crello数据集做定量比较,另一个是用LAION-Aesthetics图片集追踪训练过程。

在定量评估中,他们使用“每层与最匹配的参考层之间的RGB L1误差”来衡量重建质量。结果显示,在生成2、3、4层时,Stable-Layers的平均误差均低于基础模型,说明整体质量确实提升了。

从追踪的三个指标来看,变化趋势更为直观:

  • “不良层数”(空白层+半透明模糊层)从约1.65个下降到约0.4个,废层问题被大幅消除。
  • “特征分布均匀性”从约0.53上升到约0.73,内容开始合理分散到各层。
  • “背景层修复质量”从约0.38上升到约0.62,背景填充更加自然。

这些变化在训练前100步内最显著,之后趋于平稳,符合GRPO算法的预期行为。

六、与其他方法的对比:不同的设计哲学

研究团队还将Stable-Layers与另一款工具**LayerD**进行了对比。两者的区别,体现了处理“不确定性”时截然不同的哲学。

LayerD的策略是“保守主义”:它觉得图片难分时,宁可返回一张基本不变的完整图片,也不冒险给出错误的多层分解。因此它在“背景层质量”指标上表现亮眼,但“特征分布均匀性”得分只有可怜的0.06。

Stable-Layers的策略是“积极填充”:不论难易,都尽力把请求的层数全部填满有意义的内容。对于真正需要可编辑分层的设计工作流来说,显然是更实用的选择。

七、两项消融实验揭示的规律

团队还通过两组对照实验,验证了两个关键设计选择的有效性。

第一组实验:比较不同文字提示对训练的影响。结果出乎意料,使用包含详细评分标准的复杂提示,反而导致所有指标变差。团队分析认为,当提示内容与评分标准高度重叠时,模型可能形成混淆,把理想状态的描述误解为输入场景的描述,干扰了学习方向。

第二组实验:比较“用不用第二阶段相对校准”的区别。结果显示,在消除空白层和损坏层方面,两者效果相当。但在背景层质量的精细提升上,加入相对校准的那组优势明显。这验证了团队的核心判断:当明显缺陷被消除后,候选差异变得微妙,绝对打分无法区分好坏,必须依靠相对比较来提供有效训练信号。

八、边界与局限

当然,这套方法并非没有代价。评分用的VLM是商业API服务,带来较高的使用成本,且其判断标准可能随模型版本更新而偏移。评估体系基于自动化指标和视觉检查,没有进行正式的人工研究,指标与实际编辑体验的关联度有待验证。此外,训练阶段只使用了最多5层的分解,而基础模型支持最多20层。

归根结底,Stable-Layers的核心贡献不仅是改进了一个图像分层工具,更是提供了一个更通用的思路:对于那些无法获得“标准答案”的生成任务,可以通过让VLM充当裁判,精心设计评分机制让它打出有区分度的分数,然后用这些相对分数来驱动强化学习,在完全没有人工标注的情况下提升生成质量。这个思路在原则上可以应用于风格迁移、图像补全等一系列任务,任何一个能被VLM评估的条件生成问题,都可能从中受益。正是这种“以评分代替标注”的自我提升路径,让它具有了超越“分层”本身的深远意义。

Q&A

Q1:Stable-Layers训练时为什么不需要人工标注的分层数据?

A:因为它使用视觉语言模型(VLM)作为裁判来评分。模型对同一张图片生成多个候选分层,VLM比较这些候选并给出相对好坏的判断,训练算法从分数差异中学习,全程不依赖人工制作的参考分层答案。

Q2:Stable-Layers的两阶段打分流程解决了什么问题?

A:解决的是“分数压缩”问题。VLM单独给每个候选打分时,分数往往集中在很窄的范围里,训练算法无法区分好坏。第二阶段把所有候选拼成网格图让VLM进行相对比较,强制拉开分数差距,训练才能获得有效信号。

Q3:Stable-Layers和LayerD相比各有什么优缺点?

A:LayerD在背景层像素质量上略高,因为它遇到难以分层的图片时倾向于返回原图不做修改。而Stable-Layers则始终尝试生成请求数量的完整层数,特征分布均匀性远高于LayerD,对需要多个可编辑层的设计工作流更实用。

来源:https://www.163.com/dy/article/KV3FDVKG0511DTVV.html
上一篇瑞士苏黎世联邦理工学院实现3D场景重建效率提升33倍 下一篇现货黄金价格今日下跌3% 行情动态
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
年国家能源局充换电服务业用电量增速48.8%
科技数码 · 2026-06-29

年国家能源局充换电服务业用电量增速48.8%

2025年全社会用电量达103682亿千瓦时,同比增长5 0%。充换电服务业用电增速高达48 8%,信息传输与软件服务业增速17 0%。第三产业和居民用电对增长贡献率合计占一半。中国成为全球首个年度用电量超10 4万亿千瓦时的国家。

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元
科技数码 · 2026-06-29

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元

追风者冰川360S25液冷散热器售价429元,三联一体风扇便捷安装,冷头小体积纯铜底座噪音18dB,风扇转速300-2000RPM、风量75CFM、静压2 96mmAq,五年质保漏液包赔。

三星Galaxy Watch8用户反馈谷歌后台组件异常
科技数码 · 2026-06-29

三星Galaxy Watch8用户反馈谷歌后台组件异常

三星GalaxyWatch8、Watch5Pro、Watch6及Watch7用户反映,GooglePlayServices后台耗电异常,电量占比最高达99 97%,远超正常水平,严重影响续航。目前故障原因不明,谷歌尚未发布官方声明。

罗永浩批苹果iOS 27创新不足 盼新CEO改进
科技数码 · 2026-06-29

罗永浩批苹果iOS 27创新不足 盼新CEO改进

罗永浩批评苹果iOS27创新不足,称仅有双iPhone同号、音量分离等数十项细节改进,认为库克时代缺乏突破性创新,股市虽好但消费者只能被迫接受挤牙膏式升级。

年国产车出口710万辆,两家车企销量破百万
科技数码 · 2026-06-29

年国产车出口710万辆,两家车企销量破百万

2025年国产汽车出口总量达710万辆,同比增长21%。奇瑞以134万辆居首,比亚迪105万辆次之,上汽乘用车出口占比60%最高,长城出口51万辆。吉利、长安等主流品牌同步增长,小鹏、零跑等新兴品牌海外拓展加速。