小红书开源InstanceAssemble:精准还原复杂图像排版的AI方案
12月26日,小红书联合复旦大学发布了在布局控制生成(Layout-to-Image)领域的一项突破性解决方案——InstanceAssemble。该方案通过创新的“实例组装注意力”机制,成功实现了从简单到复杂、从稀疏到密集布局的精准图像生成。这项研究成果已被NeurIPS 2025接收。

近年来,AI绘画技术发展迅猛,从最初的“文字生成图像”逐步迈向“布局控制生成”。后者能够依据用户给出的空间布局约束,生成与之对应的图像。
“布局控制生成”技术的难点之一,在于如何让AI精准地按照用户指定的位置和内容生成图像,常常面临布局对不齐、语义脱节或计算成本过高等问题。
而复旦大学与小红书联合发布的InstanceAssemble新技术,成功实现了对图像中每个物体的精准布局控制,标志着AI绘画进入了“可精准构图”的新阶段。

该技术基于当前主流的扩散变换器架构,创造性地提出了“实例拼装注意力”机制。用户只需提供每个物体的边界框位置和内容描述,AI就能在对应位置生成符合语义的图像内容。无论是简单的几个物体,还是密集复杂的场景,InstanceAssemble都能保持高精度的布局对齐和语义一致性。
值得一提的是,该技术还采用轻量级适配方式降低使用门槛。无需重新训练整个模型,仅通过约7100万个参数,就能适配Stable Diffusion3-Medium模型,而适配Flux.1模型更是低至0.84%。
实验中,InstanceAssemble在包含90万个实例的密集布局数据集上表现优异,大幅超越了现有方法。
研究团队为了能更准确地衡量布局与图像的匹配程度,还创建了包含5000张图像和90000个实例的“Denselayout”基准测试集,以及全新的“Layout Grounding Score”评估指标。
实验表明,InstanceAssemble在各种布局条件下均表现优异,即使在训练时仅使用稀疏布局的情况下,也能在密集布局上保持稳健性能。
这项技术已开源,代码和预训练模型可在GitHub获取,为设计、广告和内容创作等领域的应用提供了强大支持。
附上参考地址
小红书开源InstanceAssemble!轻量级布局可控生成框架,复杂多实例图像生成精度再突破
InstanceAssemble: Layout-Aware Image Generation via Instance Assembling Attention
InstanceAssemble GitHub
相关攻略
如果觉得Canva可画AI生成的小红书标题吸引力不足,可以通过四步来优化:一、输入包含身份、痛点、结果、情绪的场景化提示词,并加上格式指令;二、调用“小红书-种草暴击型”这类内置模板来填充参数生成;三、在开头加入强干预词,比如【上海租房党必存】,来锁定关键信息;四、跨抖音、公众号、电商等不同模板进行
小红书App无直接设置全局背景色的功能,但可通过多种方法实现个性化。使用内置主题皮肤可改变界面整体色调;调整手机系统色温或开启深色模式,能间接改变应用背景色彩;还可截图编辑页面后设为壁纸,实现创意定制。这些方式均能打造独特的视觉风格。
4月29日,追觅科技创始人俞浩在社交媒体上的连续发声,将“momo”这一网络现象推向了公众讨论的中心。这位企业家以三条直接喊话小红书CEO的博文,抛出了一个尖锐的问题:当匿名成为常态,平台的责任边界究竟在哪里? 这三条博文均以“尊敬的小红书CEO”开篇,矛头直指用户实名制与平台管理机制。俞浩的核心诉
4月29日,科技行业与社交媒体领域发生了一次引人深思的公开对话。追觅科技创始人兼CEO俞浩,在社交媒体平台连续发布三条核心博文,将讨论焦点直接引向了小红书平台及其管理责任。此次事件的核心,揭示了社交平台上一种普遍存在的匿名文化现象——即大量用户使用“momo”这一统一头像与昵称进行互动。 俞浩的提问
最近在小红书搜餐厅,是不是感觉有点不一样了?以往铺天盖地的探店笔记中间,现在直接冒出了店铺评分、人均消费和距离。这个看似细微的调整,背后是平台一次关键的转身:小红书正加速将本地生活服务从“种草”推向“交易”。 具体来说,现在搜索某个餐厅,结果页顶部会清晰展示4 8分、川渝火锅、¥98 人这类量化信息
热门专题
热门推荐
过去24小时全球主要交易所比特币流向分化明显,整体净流出5740 82枚。其中CoinbasePro流出约5457枚,币安、Gemini分别流出1023枚和504枚;而OKX则逆势录得约530枚净流入。
《魔力宝贝》中“狗洞”即“奇怪的洞窟”,位于亚留特村西南方向黄色传送石处,是12至20级玩家高效练级地点。前往路线为:从法兰城至伊尔村,向北进入哈巴鲁东边洞窟击败“熊男”,穿越后抵达亚留特村,再向西南探索即可找到入口。洞内怪物等级较高,建议携带“风地”属性水晶提升生存能力。
时隔七年,贾跃亭以CEO身份重掌法拉第未来(FF)帅印,并成功为公司注入了关键的发展动力。近期,FF累计完成了高达7000万美元的机构融资。这笔至关重要的资金,被贾跃亭定位为驱动公司机器人业务实现第一阶段战略目标的“核心粮草”。 随着资金与团队就位,贾跃亭的信心显著增强。他公开立下目标:将用两年时间
任务需修复两条水道。首先跟随指引找到NPC并进入幻境,使用号角对准壁画激活飞鸟幻影,触碰并跟随其路径即可修复第一条水道。第二条水道位于洞xue内,跟随萤火虫找到入口,重复使用号角并借助弹跳水母到达高处,跟随飞鸟完成修复。完成后可获得奖励并推进剧情。





