Stability AI教AI自动拆解图片分层

时间：2026-06-11 12:41

提出Stable-Layers框架，利用视觉语言模型作为裁判对候选分层方案进行两阶段打分，解决分数压缩问题，通过组相对策略优化驱动模型迭代。该方法无需人工标注，显著减少空白层与损坏层，背景修复更自然，图像层分解质量有效提升。

试想这样一个画面：你手机相册里的一张照片，对你而言，不过是蓝天、白云、人物与背景的自然融合。然而，在专业的图像处理流程中，这张照片必须被“分解”——人物单独一层，背景单独一层。这种“拆图”在行业里被称为“图像层分解”，听起来简单，但对AI来说，却是难题，因为“如何拆分”这件事本身充满了主观性和不确定性。

Stability AI的研究团队这次挑战的正是这块硬骨头。他们推出了一套名为 **Stable-Layers** 的训练框架，核心思路非常巧妙：无需人工标注“标准答案”，而是引入一个能理解图片的AI大模型作为“裁判”。让候选的分层方案进行比拼，裁判负责打分，模型则依据分数持续迭代进化。最终效果显著——层与层之间的内容更加纯净，过去常见的空白层与损坏层大幅减少，背景修复不再是生硬的“补丁”，而是实现了“自然填充”。

一、为什么“分层”对AI来说是个难题？

要理解这项研究的价值，首先需要感受这个问题的难度。不妨将“图像层分解”想象成拆解拼图。拼图原本完整，现在要拆解成若干组。听起来直接，但关键难点在于：**同一张拼图，存在无数种同样合理的拆法。** 一棵树及其下方的阴影，应算一层还是两层？前景人物与身后的栏杆，该不该分开？

对于人类而言，答案取决于后续目标。正因如此，过去的训练方法大多依赖人工合成的“配对数据”——人为制作原图与各层的完美样本，让AI进行机械记忆。但问题在于，当某张照片存在多种同样合理的分层方式时，强行让AI拟合某一个固定答案，反而会惩罚其他同样正确的方案。

Stability AI团队跳出这一思维定式：与其给AI一个固定答案让它死记硬背，不如让它先生成多种可能，再找一个“懂行的裁判”判断哪个更优。这个裁判就是视觉语言模型（VLM），一种既能“看”图又能“读”文本的大模型。

二、如何让裁判打出有区分度的分数？

我们把训练过程想象成一个绘画选拔赛。分层模型是选手，每次对同一张照片画出多幅“分层作品”。VLM就是考官，负责给每幅作品打分。

然而，直接用VLM打分，团队很快遇到了麻烦：考官单独看每幅作品时，给出的分数往往非常接近。比如同一组四幅作品，分数分别为0.72、0.74、0.71、0.73，差距极小，训练算法完全无从下手——这就像老师给四篇作文打了89、90、89、90分，你根本无法判断哪篇才是真正的优胜者。

这个问题有一个专业名称叫**“分数压缩”**，是整个研究的核心难点之一。为此，团队设计了一套两阶段评分流程。

第一阶段，考官对每幅作品进行结构化的逐项打分，评估五个维度：

语义分离度：前景层是否清晰地包含了一个完整的独立对象。
透明度清洁度：前景边缘是否干净，有没有半透明的“幽灵”残影。
背景修复质量：去掉前景后，背景填充区域是否自然合理。
特征分布均匀性：内容是否合理地分散在各层，而不是全部堆积在一层。
内容有效性：有没有空白层或仅包含噪点的无效层。

每个维度0-5分，满分25分，再归一化到0-1之间。

第二阶段才是点睛之笔。系统将同组所有候选的分层结果拼成一张对比网格图，每个候选用数字标签标注，然后再次请考官看图，并告知其第一阶段的分数，要求它进行**相对比较**，重新给出分数。这就像告诉考官：“这四篇作文第一轮分数都差不多，但请把它们放在一起再看一遍，谁才是真正的赢家？” 结果，原本被压缩在0.71-0.74之间的分数，经过校准后可能变成0.38, 0.45, 0.82, 0.91——差距瞬间拉开，训练算法终于能学到有用的信息了。

三、训练机制：模型如何从“打分”中学习？

整个训练流程是一个循环：生成 → 打分 → 学习。

生成：模型对同一张图片生成若干候选分层结果。
打分：使用上述两阶段VLM评分流程给候选结果打分。
学习：根据组内候选的相对分数差距，计算每个候选的“优势值”，再用这个优势值来更新模型。

这里使用的核心优化算法叫**GRPO**（组相对策略优化）。它的精妙之处在于，不需要绝对正确的答案，只需要知道在同一组里谁比谁好。分数高于组内平均水平的候选，其生成方式受到鼓励；低于平均水平的，则被抑制。就像一个厨师，听食客说“第二道比第一道好，第三道最差”，然后据此调整烹饪方式，即便食客没有给出精确的配方建议。

训练的底座模型是**Qwen-Image-Layered**，一个能把普通RGB图片分解成多个带透明通道的RGBA图层的流匹配变换器。为了节约算力，团队只对模型的部分层应用了LoRA微调，大部分参数保持冻结。

四、一个额外的工程挑战：稳定强化学习

将强化学习应用到图像生成模型，历来面临一个稳定性难题。GRPO算法的稳定依赖一个叫“重要性比率”的量，但Qwen-Image-Layered模型的结构特殊——它将多个RGBA图层打包成一个超长的潜在向量序列，序列长度远超普通单图模型。对极高维度序列取平均值，会让每一步的对数概率值被稀释得趋近于零，导致比率信号消失，训练无法进行。

团队针对这个问题做了一个聪明的数学调整：**把对空间维度取平均值改为先求和，再除以维度数的平方根。** 这个看似简单的改动，让比率的量级恢复到正常范围，同时保留了稳定性优势。这对于未来想将强化学习应用到其它高维生成模型的研究者来说，是一个极具参考价值的实用技巧。

五、效果如何？从数据中找答案

研究团队在两个场景中验证了效果。一个是用Crello数据集做定量比较，另一个是用LAION-Aesthetics图片集追踪训练过程。

在定量评估中，他们使用“每层与最匹配的参考层之间的RGB L1误差”来衡量重建质量。结果显示，在生成2、3、4层时，Stable-Layers的平均误差均低于基础模型，说明整体质量确实提升了。

从追踪的三个指标来看，变化趋势更为直观：

“不良层数”（空白层+半透明模糊层）从约1.65个下降到约0.4个，废层问题被大幅消除。
“特征分布均匀性”从约0.53上升到约0.73，内容开始合理分散到各层。
“背景层修复质量”从约0.38上升到约0.62，背景填充更加自然。

这些变化在训练前100步内最显著，之后趋于平稳，符合GRPO算法的预期行为。

六、与其他方法的对比：不同的设计哲学

研究团队还将Stable-Layers与另一款工具**LayerD**进行了对比。两者的区别，体现了处理“不确定性”时截然不同的哲学。

LayerD的策略是“保守主义”：它觉得图片难分时，宁可返回一张基本不变的完整图片，也不冒险给出错误的多层分解。因此它在“背景层质量”指标上表现亮眼，但“特征分布均匀性”得分只有可怜的0.06。

Stable-Layers的策略是“积极填充”：不论难易，都尽力把请求的层数全部填满有意义的内容。对于真正需要可编辑分层的设计工作流来说，显然是更实用的选择。

七、两项消融实验揭示的规律

团队还通过两组对照实验，验证了两个关键设计选择的有效性。

第一组实验：比较不同文字提示对训练的影响。结果出乎意料，使用包含详细评分标准的复杂提示，反而导致所有指标变差。团队分析认为，当提示内容与评分标准高度重叠时，模型可能形成混淆，把理想状态的描述误解为输入场景的描述，干扰了学习方向。

第二组实验：比较“用不用第二阶段相对校准”的区别。结果显示，在消除空白层和损坏层方面，两者效果相当。但在背景层质量的精细提升上，加入相对校准的那组优势明显。这验证了团队的核心判断：当明显缺陷被消除后，候选差异变得微妙，绝对打分无法区分好坏，必须依靠相对比较来提供有效训练信号。

八、边界与局限

当然，这套方法并非没有代价。评分用的VLM是商业API服务，带来较高的使用成本，且其判断标准可能随模型版本更新而偏移。评估体系基于自动化指标和视觉检查，没有进行正式的人工研究，指标与实际编辑体验的关联度有待验证。此外，训练阶段只使用了最多5层的分解，而基础模型支持最多20层。

归根结底，Stable-Layers的核心贡献不仅是改进了一个图像分层工具，更是提供了一个更通用的思路：对于那些无法获得“标准答案”的生成任务，可以通过让VLM充当裁判，精心设计评分机制让它打出有区分度的分数，然后用这些相对分数来驱动强化学习，在完全没有人工标注的情况下提升生成质量。这个思路在原则上可以应用于风格迁移、图像补全等一系列任务，任何一个能被VLM评估的条件生成问题，都可能从中受益。正是这种“以评分代替标注”的自我提升路径，让它具有了超越“分层”本身的深远意义。

Q&A

Q1：Stable-Layers训练时为什么不需要人工标注的分层数据？

A：因为它使用视觉语言模型（VLM）作为裁判来评分。模型对同一张图片生成多个候选分层，VLM比较这些候选并给出相对好坏的判断，训练算法从分数差异中学习，全程不依赖人工制作的参考分层答案。

Q2：Stable-Layers的两阶段打分流程解决了什么问题？

A：解决的是“分数压缩”问题。VLM单独给每个候选打分时，分数往往集中在很窄的范围里，训练算法无法区分好坏。第二阶段把所有候选拼成网格图让VLM进行相对比较，强制拉开分数差距，训练才能获得有效信号。

Q3：Stable-Layers和LayerD相比各有什么优缺点？

A：LayerD在背景层像素质量上略高，因为它遇到难以分层的图片时倾向于返回原图不做修改。而Stable-Layers则始终尝试生成请求数量的完整层数，特征分布均匀性远高于LayerD，对需要多个可编辑层的设计工作流更实用。

来源：https://www.163.com/dy/article/KV3FDVKG0511DTVV.html

上一篇瑞士苏黎世联邦理工学院实现3D场景重建效率提升33倍 下一篇现货黄金价格今日下跌3% 行情动态

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。