首页 游戏 软件 资讯 排行榜 专题
首页
AI
小红书AIGC团队提出布局控制新算法InstanceAssemble,入选NIPS2025

小红书AIGC团队提出布局控制新算法InstanceAssemble,入选NIPS2025

热心网友
14
转载
2025-11-04

这项研究聚焦于图像可控生成技术,主要应用于小红书图文发布等场景中的视觉素材生产需求。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

随着文本到图像生成领域的扩散模型取得显著突破,引入布局控制功能(Layout-to-Image,简称L2I)成为可能的发展方向。

然而,现有布局到图像生成方法在复杂场景中的表现仍不尽如人意:一方面,如何在严格遵循给定布局的同时保持出色的图像质量成为关键挑战;另一方面,在扩散模型逐步去噪的过程中,确保每个目标对象的位置与语义属性不发生偏移同样面临困难。此外,布局控制通常需要支持多模态条件输入(包括文本描述、参考图像等要素),这进一步增加了技术实现的复杂性。

各类技术方案各有所短:无训练方法虽无需调整基础模型参数,但在处理复杂布局时效果明显下降,且存在对超参数敏感、推理速度缓慢等问题;有训练方法通过额外模块注入布局信息,但往往引入大量参数,导致训练成本高昂。在评估体系方面,传统指标也存在明显偏差,难以准确衡量布局对齐程度。

这些挑战与不足表明,要实现稳健高效的布局可控图像生成,亟需推进算法层面的创新突破。

为此,小红书智能创作团队提出了InstanceAssemble创新框架,从模型架构和评估标准两个维度全面应对上述难题,实现了复杂布局条件下的精准图像生成。

方法

InstanceAssemble在架构设计上创新性地引入了级联结构,将全局文本提示与实例级布局条件进行分阶段处理。

具体而言,模型先利用现有DiT架构获取全局图像背景和整体语义语境,再通过全新设计的实例组装注意力模块逐个整合各布局实例信息,实现局部精细化控制。这样的级联设计确保了全局质量与局部对齐两个维度的平衡兼顾,避免了同时处理所有实例可能产生的特征冲突。在实例组装注意力机制中,每个目标实例的注意力计算仅在其对应图像区域内进行,有效防止不同实例间的相互干扰。

这种独立注意力机制使模型能够有效处理重叠区域或微小物体等复杂布局情形,同时通过权重融合机制保持各实例特征,确保画面整体协调统一。

此外,InstanceAssemble采用LoRA模块进行轻量级模型适配。通过在基础扩散模型中注入少量LoRA参数(仅增加基础模型约3%的参数规模),实现了对现有DiT架构文本到图像模型的灵活扩展。LoRA技术的引入使模型在保持原有生成能力的同时,能够高效学习布局控制,无需大规模重训整个模型,并具备良好的兼容性(例如可灵活加载不同风格的LoRA权重)。

最终,该方法还支持多模态的布局输入:每个实例既可通过文本描述指定,也能利用额外的图像信息(如参考图片、深度图、边缘轮廓图等)来丰富内容表示。

效果与对比

为全面评估模型在复杂布局下的性能表现,研究者构建了全新的基准数据集DenseLayout,包含5000张高质量图像和约90000个标注实例(平均每图18个目标对象),专门用于测试高密度布局场景下的生成效果。同时创新性地提出LGS(布局对齐分数)作为新的评估指标,将空间精度和语义一致性相结合,更准确地衡量生成图像对布局指令的满足程度。其中空间精度通过检测目标位置与给定边界框的IoU计算得到,语义一致性则利用视觉问答模型判断颜色、材质、形状等属性匹配度。

在上述严格评估标准下,InstanceAssemble展现出卓越的性能表现。实验结果表明,该方法在DenseLayout基准上的布局对齐指标(mIoU)显著优于现有方案,综合性的LGS评分稳居当前最优水平,同时全局图像质量保持良好。特别是在稠密布局场景下(远超常规训练时的实例密度),InstanceAssemble仍能准确地将每个目标生成在指定位置,并正确呈现其语义属性,验证了模型具备优秀的泛化能力。

而对比较的方法在相同条件下往往出现漏生成、位置紊乱或风格不一致的问题。定性分析结果同样佐证了这一点。

此外,得益于LoRA轻量架构,InstanceAssemble相比其他有训练方案在参数规模和推理耗时上更具优势,在效率与效果之间取得了良好平衡。

应用

InstanceAssemble的设计在兼顾性能的同时,非常注重兼容扩展性。由于采用LoRA作为插件式适配方案,研究者和从业者可以方便地为模型赋予多样化的风格迁移能力。例如,将经过特定画风微调的LoRA模块(如油画风格、3D渲染风格等)加载到InstanceAssemble中,模型即可在保持布局精准对齐的前提下,生成带有对应风格特征的图像。

这种对多种风格LoRA的高度兼容性使得模型能够跨越不同领域,实现跨风格、跨领域的布局图像创作。

综上所述,InstanceAssemble通过其独特的架构和模块设计,实现了精细布局控制与高质量生成效果的有机结合,不仅在学术基准上取得领先表现,也展现出广阔的应用潜力。随着更多样的LoRA模块和多模态信息融入,InstanceAssemble可进一步拓展至智能排版、虚拟内容创作、数据增强等诸多领域,推动布局图像生成技术的发展和落地应用。

最后值得关注的是,小红书智能创作团队正在火热招募人才!该团队以AI及多媒体技术为核心,主要负责小红书发布侧的产品研发,并向公司内部各业务线(包括社区守护、社交互动、直播娱乐、电商运营、商业广告等)提供业界领先的内容创作、内容理解、互动体验等技术能力与解决方案。团队技术方向涵盖多模态AIGC、计算机视觉、语言语音处理、编辑渲染、算法工程等前沿领域。

团队近两年已累积发表30余篇相关领域的顶级会议论文与期刊,在技术上拥有InstantID、Storymaker、FireRedTTS、FireRedASR等知名开源代表作,在业务层面也推出了语音评论区、文字特效等创新功能。

来源:https://www.51cto.com/article/828782.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

OpenClaw使用kimi web_search返回401问题
AI
OpenClaw使用kimi web_search返回401问题

1 故障现象:OpenClaw无法联网搜索的典型报错 许多开发者在配置OpenClaw AI助手的搜索功能时,常常会遭遇一个典型故障:日常对话交互完全正常,但一旦触发需要联网查询信息的指令,界面便会立刻弹出“抱歉,我目前无法使用网络搜索功能(需要配置 API 密钥)”或“HTTP 401: Inv

热心网友
04.05
1.4 万亿词元!阿里 Qwen3.6-Plus 刷新全球最大 AI 聚合平台 OpenRouter 日调用量纪录
AI
1.4 万亿词元!阿里 Qwen3.6-Plus 刷新全球最大 AI 聚合平台 OpenRouter 日调用量纪录

1 4 万亿词元!阿里 Qwen3 6-Plus 刷新全球最大 AI 聚合平台 OpenRouter 日调用量纪录 这事儿挺震撼的。就在4月4日,全球最大的AI模型聚合平台OpenRouter在其官方账号上公布了一个爆炸性数字:阿里刚刚发布的千问新模型Qwen3 6-Plus,上线仅仅一天,日调用量

热心网友
04.04
Solidus Ai Tech(AITECH)币是什么?怎么样?AITECH工作原理和代币经济学概述
web3.0
Solidus Ai Tech(AITECH)币是什么?怎么样?AITECH工作原理和代币经济学概述

Solidus AI 是什么 在AI与Web3加速融合的当下,一个名为Solidus AI的项目提出了自己的解决方案。它将自己定位为“Web3原生的AI HPC基础设施”,其蓝图相当清晰:以位于欧洲的环保高性能计算(HPC)数据中心为基石,向上构建一个计算与AI工具市场,并最终通过AITECH代币完

热心网友
04.03
Cardano(ADA)2026 年价格预测:Grok AI 分析与未来走势
web3.0
Cardano(ADA)2026 年价格预测:Grok AI 分析与未来走势

Cardano (ADA) 2026年价格预测:AI深度解析与增长路径 在瞬息万变的加密市场,人工智能分析正成为洞察未来趋势的关键工具。近期,由Grok AI模型发布的Cardano(ADA)2026年价格预测引发了广泛关注,其大胆展望ADA或有望触及两位数美元价格。这不仅彰显了AI数据分析的潜力,

热心网友
04.02
京东发起全民养虾计划 整合AI硬件与服务降低门槛
科技数码
京东发起全民养虾计划 整合AI硬件与服务降低门槛

京东“全民养虾计划”:开启AI助手体验新纪元 科技领域近期迎来一场别开生面的创新活动:京东正式推出“全民养虾计划”。表面看,它与美食相关,实际上是一场针对AI智能体技术普及的宏大实验。该计划通过“购买AI硬件、赠送专业安装服务与趣味小龙虾”的组合策略,为当前热门的开源AI智能体——OpenClaw,

热心网友
04.02

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

英特尔确认存档 Unity 引擎版 XeSS 插件,虚幻引擎插件仍持续更新
电脑教程
英特尔确认存档 Unity 引擎版 XeSS 插件,虚幻引擎插件仍持续更新

英特尔确认存档 Unity 引擎版 XeSS 插件,虚幻引擎插件仍持续更新 对于游戏开发者和硬件发烧友而言,英特尔的一项最新决策值得关注:官方已正式将Unity游戏引擎专用的XeSS超采样技术 GitHub 项目进行存档。这一举措直接影响了使用Unity引擎进行游戏开发的团队未来集成该项画质增强技术

热心网友
04.05
AWE探展TCL:“机皇”X11L惊艳亮相 20000+个万象分区
科技数码
AWE探展TCL:“机皇”X11L惊艳亮相 20000+个万象分区

TCL在AWE现场打造了一座“TCL PASSION LAND”品牌活力乐园,开启了“屏宇宙+AI科技”新次元。非常吸引人的便是TCL的“屏宇宙”了。 【上海现场直击】2026年AWE大幕拉开,这场主题为“AI科技、慧享未来”的家电与消费电子盛宴,于3月12日至15日,首次以“一展双区”的新模式在上

热心网友
04.05
英特尔推出酷睿 Ultra 7 251HX 处理器:6P + 12E + 3Xe
科技数码
英特尔推出酷睿 Ultra 7 251HX 处理器:6P + 12E + 3Xe

英特尔酷睿 Ultra 7 251HX 处理器发布:6个性能核、12个能效核与3个Xe核架构解析 英特尔官网产品列表近期迎来更新,备受瞩目的酷睿 Ultra 7 251HX 处理器规格信息正式公布。引人注目的是,其产品发布时间明确标注为“2026年第一季度”,这为行业观察者和消费者揭示了英特尔未来几

热心网友
04.05
MOVA这台割草机,会像自动驾驶汽车一样“思考”
科技数码
MOVA这台割草机,会像自动驾驶汽车一样“思考”

通过将无人驾驶领域的核心感知技术引入庭院场景,MOVA构建了以AI视觉为核心的多传感器融合系统,使割草机器人具备接近无人驾驶级的环境理解与自主决策能力。 智能割草机器人的赛道,正沿着一条清晰的轨迹进化:从自动化执行,迈向真正的无人化自主决策。驱动这场变革的核心技术,无疑是AI感知。在这一关键节点,M

热心网友
04.05
沉浸式体验AWE2026前沿科技,这五款硬核产品凭实力出圈
科技数码
沉浸式体验AWE2026前沿科技,这五款硬核产品凭实力出圈

AWE2026五大精选Best in Show:AI赋能,让好产品自己“会说话” AWE2026在上海圆满闭幕,本届展会以“AI科技 慧享未来”为核心主题,汇聚超过1200家全球领先企业同台竞技。首次采用的“一展双区”新模式,更将展会规模与人气推向新高。在为期四天的盛会上,我们得以全景式窥见未来几年

热心网友
04.05