前言
要真正读懂这篇文章,关键在于搞清楚它试图解决什么核心问题。
在之前的系列文章中,我们深入探讨了【文档智能】领域中的布局识别,也就是常说的“版式分析”技术路径。简单来说,版式分析教会机器识别一张文档图片上:哪里是标题、哪里是正文、哪里是图片。而本文提供了一个颇为新颖的视角——它反过来思考:如果我们已经知道每个元素的类型,能否利用这些已知信息,主动生成一份文件的整体布局?

在正式介绍之前,有必要先厘清几个关键概念,这对后续理解大有裨益。
可控布局生成:简言之,就是在图形设计(如文档排版、网页设计)中,让众多元素在视觉上排列得合理有序,同时满足设计师施加的各种约束条件。这里的“约束”,本质上就是设计师脑中的创意意图。
FID评价指标:这是衡量生成模型质量的重要指标。其核心逻辑是比较生成数据的分布与真实数据分布的相似度——它不仅比较均值,还比较协方差矩阵,因此比简单的相似度计算更精准。通常,FID值越低,说明模型生成的布局越“接近真实”。
布局生成扩散模型架构:普通的Transformer模型难以直接处理时间序列,但扩散过程天然是时间依赖的——每一步都在“破坏”数据,随后再“修复”。因此,模型必须通过时间嵌入,将时间信息作为输入特征融入其中。
背景
现有的扩散模型在处理布局属性时,有两种常见做法:要么将其视为离散数值(例如坐标被限定在固定的几个格子内),要么视为连续变量(例如坐标是0到1之间的任意实数)。这两种方式对应着完全不同的数据破坏机制——一种是添加类别噪声或高斯噪声,另一种是纯粹的连续扰动。
这导致了两条截然不同的生成路径:离散扩散更像是从一张白纸开始,一个元素一个元素地逐个添加;而连续扩散则像是先随机撒下一堆元素,然后通过揉搓、拖动、排列,最终形成一个整齐的布局。显然,后者在建模上更加灵活,可调的参数也更多。
然而,事情并没有那么简单。尽管连续扩散模型在FID分数上大幅领先对手,但在“对齐”和“最大交并比(MaxIoU)”这两个指标上——尤其是在无条件生成场景中——它们反而常常不如老派的基于Transformer的模型。好比短跑选手在百米冲刺中表现优异,但铅球项目却不一定擅长。
这两个指标为什么重要?因为它们可以在连续扩散模型中作为约束优化手段,简单说就是让布局看起来更协调、更专业。但问题在于,离散模型由于量化属性不可微分,根本无法使用这种优化方式。另一方面,连续扩散模型在“任务统一”方面也存在硬伤——高斯噪声的样本空间与实际数据分布(如画布范围和概率单纯形)并不一致。
为了同时解决这些问题,学术界提出了一个统一模型——LACE。其思路非常直接:在连续空间中,同时处理各种生成任务中的几何属性和分类属性。LACE以连续扩散模型为骨架,并集成了可微的美学约束函数。此外,研究人员还设计了全局对齐损失和成对重叠损失,使这两种损失在训练和后处理阶段都能切实发挥作用。
一、方法
1.1 连续扩散模型
连续扩散模型的核心,是通过一个正向过程和一个逆向过程的马尔可夫链来描述数据的生成。不过这里有一处关键区别:传统扩散模型通常处理图像这类连续张量,而布局生成更像是处理一个集合,每个元素都带有自己的位置和类别。因此,LACE的模型设计需要将时间嵌入、类别嵌入和边界框嵌入一并输入给Transformer,然后输出预测的噪声和类别。
1.2 连续布局生成
这里的核心词是“连续”。传统方法将布局元素的位置和尺寸锁定在有限的选项内,而LACE采用连续变量表示——例如中心坐标 (cx, cy) 和宽高比例 (w, h),每个值都被限制在0到1之间。这意味着模型可以在一个更精细、更宽广的搜索空间里寻找最优的美学组合。
具体而言,一个布局由多个元素构成,每个元素包含两类核心信息:它的类别标签,以及它的边界框。连续变量表示法的目的,就是让边界框的每一个细微调整都能被模型感知和优化。
至于条件生成任务,LACE的做法也很巧妙——使用条件掩码作为数据增强手段。我们可以掩码掉部分元素的标签或大小,或者干脆固定住所有属性,让模型仅根据剩余信息去推测完整布局。
1.3 重建和美学约束
为了让模型在每个时间步上都能准确还原原始数据,作者引入了重建损失。总损失由简化损失和重建损失两部分组成。但仅仅重建得准还不够——还需要重建得美观。为此,他们在重建损失中加入了两种美学约束:全局对齐约束和重叠约束。
对齐约束:用于评估元素之间是否“对齐”。一共定义了六种对齐方式:左对齐、水平中心对齐、右对齐、顶部对齐、垂直中心对齐、底部对齐。别小看这些细节——专业排版最讲究的就是对齐。
重叠约束:顾名思义,防止生成的元素相互重叠。实现方式是通过均值成对交并比损失函数来量化重叠程度。
时间依赖的约束权重:这里涉及一个微妙的问题。约束函数会在参数空间里引入大量局部最小值——想象一下,如果布局本身就很杂乱,硬性要求它“对齐”且“不重叠”,反而会阻碍模型的正常学习。为了缓解这一问题,作者只在时间步数较小的阶段施加约束。也就是说,当布局已经接近成形、噪声很低时,才使用对齐和重叠损失进行最后的微调。具体操作上,他们设定了一个常数 β 计划:当时间步足够小、损坏过程尚未引入太多重叠时,权重才正式激活。
二、实验
2.1 定量结果
从实验数据来看,LACE在多个公开数据集上的表现确实亮眼。无论在无条件生成还是条件生成任务中,它在FID指标上都取得了显著提升。但更关键的是,在之前连续扩散模型一直不太擅长的对齐和MaxIoU指标上,LACE也弥补了这一短板,追平甚至超越了部分早期的Transformer模型。可以说,美学约束的加入带来了实实在在的收益。
2.2 LACE 和 LayoutDM 在条件生成任务中的定性比较
除了定量数据,直观效果同样具有说服力。相比LayoutDM,LACE生成的布局在元素排布上更加紧凑、规整,很少出现元素交错或“无主”的凌乱感。尤其是在给定部分框约束的情况下,LACE模型更容易“猜出”设计师的意图,生成视觉上更舒适的版面。
局限性及展望
不过,LACE也并非完美无缺。首先,它将布局元素限制为矩形框——这虽然简化了建模,但也限制了表达的灵活性。其次,它缺乏对背景和内容的感知,换句话说,只关心“框如何排列”,而不关心框里装的是什么。最后,该模型目前只能处理有限数量的元素,且高度依赖标签集。这些缺陷在复杂、多变的设计场景中,可能成为实际应用的硬伤。
未来的发展方向也很明确:能否用任意形状替代矩形框?这显然更贴近真实世界的图形设计场景,因为在大多数时候,我们面对的并非清一色的方块。
参考文献
- paper:TOWARDS ALIGNED LAYOUT GENERATION VIA DIFFUSION MODEL WITH AESTHETIC CONSTRAINTS,https://arxiv.org/pdf/2402.04754
- code:https://github.com/puar-playground/LACE
