多模态自动布局技术发展及淘内内容场应用_AI热点日报

多模态自动布局技术发展及淘内内容场应用

类型：热点整理2026-07-03

内容正在全面重塑手淘的每一个角落，从信息流种草、搜索决策到详情页带货，几乎贯穿了用户的全流程动线。过去这一年，通过持续攻关视频生成、图文联合生成等核心技术，AIGC内容在手淘多个场景里已经实现了规模化落地。这篇文章属于《淘宝的AIGC内容生成技术总结》系列，我们会逐步展开，聊聊摸索出来的实践经验。

先说几个核心判断。传统的手工设计方式显然已经跟不上大规模、多样化的内容创作需求了。多模态自动布局技术就是在这个背景下应运而生的——它利用计算机视觉和自然语言处理，实现从输入图像素材到输出包含图文的海报布局的自动生成。深度学习模型能够理解图像和文本之间的语义关联，智能地进行元素排布与优化，这直接拉高了设计效率和一致性。

近年来，深度神经网络、生成对抗网络以及强化学习不断进化，多模态自动布局的精度和适应性有了显著提升。用户个性化需求的增多，更推动了它在电商、广告、社交媒体等领域的广泛应用。尤其在淘内内容场域，这项技术能辅助生成高质量的视觉内容，极大地释放了内容产出效率。所以，无论是优化生产流程还是提升视觉传播效果，研究多模态自动布局都意义重大。

这篇文章会先从技术路线出发，聊聊在多模态技术日新月异的环境下怎么选型——包括不同模型架构的比较与评估。然后，我们会面对实际应用时遇到的技术和业务挑战，从数据策略、模型训练优化等方面展示解决思路。随着自动布局技术在内容生成与展示中的成功落地，生产效率和内容质量得到了实实在在的提升。最后，我们再看看多模态自动布局技术未来的发展方向。

技术路线

多模态自动布局模型以图像和文本素材作为输入，根据指令生成包含所有素材并满足要求的定制化布局模板。布局信息天然有多种表示形式，比如图像直接显示、结构化文本描述，还有HTML这种自带结构信息的代码表示。那么，技术选型就成了算法研发和业务落地中关键的一步。

从布局的表示形式来区分，技术路线主要分为基于图像生成和基于坐标预测两种模式：

（1）基于图像生成的方案，将布局表示为图像，通过diffusion等模型输出。图像形式很直观，但难以直接转化为模板进行后续渲染，所以需要进一步解析生成图像里的模板元素，得到结构化的布局输出。完整链路可以表示为：

基于图像生成的方案流程

这个方案先合成初版海报再解析，能为设计人员提供布局图片参考，结合结构化初始布局，能形成更直观的对照。但海报合成模型和布局解析模型串联生成最终布局信息，链路可能较长，而且受解析模型精度影响，最终效果可能会有损失。

（2）基于坐标预测的方法，将布局中各元素直接表示为归一化坐标，可以基于LLM或diffusion模型进行预测。基于diffusion的模型通过逐步对初始化元素框的坐标去噪来实现预测；而基于LLM的方法将布局表示为结构化文本，由语言模型以自回归方式预测。模型输出的结果可以作为初始布局建议，直接嵌入后续MAI结构化模板的生产链路。架构如下：

基于LLM坐标预测的方案经典流程

基于坐标预测的方法可以端到端地进行布局生成，易于优化，无需训练额外的解析模块。但缺点也很明显：它不能生成初版的布局图片展示，设计同学少了直观的参考信息。

业务落地

不管是LLM还是diffusion，训练和推理成本都不小，路线的选择就显得格外重要。想在业务中成功落地，要面对几个实打实的挑战：

文案类别多：海报涉及标题、副标题、正文、标语等多种文案类型，风格、长度和语义各不相同。不同类别的文案需要模型有强大的理解和生成能力，确保每种文案在视觉和内容上都能有效传达信息。更要命的是，文案的多样性要求模型能适应时尚、科技、教育等不同行业和主题，对泛化能力提出了极高的要求。处理多类别文案的复杂性不仅增加了训练难度，也对实际应用中的表现是个严苛的考验。
可扩展性要求高：用户需求不断增长和多样化，系统必须高度可扩展，能快速集成新功能和新模块。比如实际场景中，可能会根据需求引入贴纸、Logo等新元素。传统模型在扩展时往往面临训练时间长、资源消耗大的问题。选择具备良好扩展性的模型架构和优化算法，就变得至关重要。
场景多样：布局设计应用覆盖商品海报、广告宣传、笔记封面等多种场景，每种场景都有特定的设计需求和视觉风格。模型需要在元素位置、颜色、文字长度等多个维度灵活适应，保持一致性同时满足不同场景的独特需求。跨场景的一致体验也是个挑战，要确保生成布局在各种应用场景中都有足够的可用性。

多模态大模型近年来的快速发展，为布局生成业务提供了新的契机。选择多模态大模型，核心理由是它能同时处理和理解文本与图像信息，实现文案与视觉元素的无缝融合。这对于应对文案类别多样和场景复杂的需求尤其重要。多模态模型具备强大的泛化能力和灵活性，能适应不同行业和主题的设计需求，提升系统可扩展性。而且，这类模型在预训练阶段已经积累了丰富的跨模态知识，具有较好的指令跟随能力，相比传统方法更适合生成不同指令下的定制化结果。

数据和训练

我们的方案以多模态大模型为基础，接受图像和文本素材作为输入，根据指令直接产生布局的结构化文本。大模型需要大量训练数据——获取高质量的大规模训练数据，是任务的关键和基础。为此，我们收集了大量开源海报数据和淘内图像布局数据。布局数据作为对图像的细粒度解析，对素材坐标框和文本内容的准确性要求很高，现有数据十分匮乏。在准确性要求高的前提下，最可靠的方式就是人工标注，但人工标注的低效和巨大时间成本限制了模型快速迭代。目前，现有预训练多模态大模型对图像的理解能力已经达到可靠水平，使用更强大的多模态大模型进行自动化标注，是个快速有效的方法。综合计算成本和准确性要求，我们在少量人工指导的基础上，使用internvl2对大规模海报数据进行自动化标注，标注示例如下：

原始布局图片	标注结构化数据
	{"文本": {"主标题": [{"ocr": "关键包品: 编织手法","box": "[137, 126, 851, 207]","文本语言": "中文","文本主体色调": "黑",}],"卖点": [{"ocr": "柔软皮革",......

权衡了大模型的能力和推理成本后，我们选择qwen-vl-7b作为基座模型，在deepspeed框架下进行基于LoRA的微调。为了减小数据偏见，增强模型处理多样性需求的能力——比如现有不完整布局下的内容补全、封面自适应突出主体等——我们对布局的素材框进行了随机加噪和随机部分掩蔽。这个策略让模型的训练结果更具鲁棒性。

业务应用

自动布局技术在淘内内容场域有着广泛的应用。在营销图生成业务中，自动布局技术是关键一环。处理链路中，我们通过布局生成模型生成商品位置的参考，指导文生图模型根据商品生成具有丰富背景的海报底图，再通过文本自动布局模型自适应排版宣传文案，满足视觉效果需求。

自动布局技术在视频封面中也有广泛应用。比如在主搜智能封面业务中，需要将花字自动放置在封面中合适的位置，避免遮挡图中关键元素和已有文字。视频封面图的重点不仅在于图像主体（比如占据大部分空间的人物），更需要突出人物所介绍的商品。模型需要有理解商品信息的能力，才能更好地实现主体突出。此外，模型在该场景下还需要对图像风格、色调等整体风格信息有理解力，以选择更适合的文字样式，而不是预先固定的广告字体。目前，结合花字自动布局的主搜封面产出业务采纳率达到90%以上，显著提升了封面生产效率和美观度。

未来发展方向

随着人工智能技术的不断进步，多模态布局生成技术在海报设计等视觉创作领域展现出巨大的潜力和应用前景。未来，随着算法优化和计算能力提升，这项技术将更加智能化、个性化和高效化，满足日益多样化的用户需求，推动视觉设计的创新与变革。根据当前的技术路线和业务痛点，未来发展方向可以总结为以下几点：

多图布局生成技术：未来多模态布局生成技术将进一步发展多图布局生成能力，实现对多个图像元素的协调和集成。通过智能识别和理解不同图像之间的关系，系统可以自动生成复杂且美观的多图布局，适用于广告展示、产品组合展示等场景。这不仅提升了设计效率，也增强了视觉表现力，使海报更加丰富多样，满足用户对复杂信息展示的需求。
具有个性化和风格化的布局建议：个性化和风格化是目前布局生成较为缺乏的特性。未来需要系统能根据用户偏好、品牌风格及特定需求，提供量身定制的布局建议，提升品牌识别度和用户满意度。同时，这也让布局设计更加多样化和富有创意，满足不同用户群体的个性化需求。
结合人工反馈的布局优化：为了进一步提升生成布局的整体协调性和艺术性，我们将更加注重与人工反馈的结合。设计师和用户通过反馈机制，对生成的布局进行评价和调整，帮助模型优化和提升艺术表现力。这使得系统不仅能学习和模仿人类的设计风格，还能在反馈基础上不断迭代和改进。

来源：https://www.53ai.com/news/MultimodalLargeModel/2025031273409.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。