首页 游戏 软件 资讯 排行榜 专题
首页
AI
小红书开源InstanceAssemble:精准还原复杂图像排版的AI方案

小红书开源InstanceAssemble:精准还原复杂图像排版的AI方案

热心网友
84
转载
2025-12-26

12月26日,小红书联合复旦大学发布了在布局控制生成(Layout-to-Image)领域的一项突破性解决方案——InstanceAssemble。该方案通过创新的“实例组装注意力”机制,成功实现了从简单到复杂、从稀疏到密集布局的精准图像生成。这项研究成果已被NeurIPS 2025接收。

小红书开源 InstanceAssemble:让 AI 精准还原复杂图像排版

近年来,AI绘画技术发展迅猛,从最初的“文字生成图像”逐步迈向“布局控制生成”。后者能够依据用户给出的空间布局约束,生成与之对应的图像。

“布局控制生成”技术的难点之一,在于如何让AI精准地按照用户指定的位置和内容生成图像,常常面临布局对不齐、语义脱节或计算成本过高等问题。

而复旦大学与小红书联合发布的InstanceAssemble新技术,成功实现了对图像中每个物体的精准布局控制,标志着AI绘画进入了“可精准构图”的新阶段。

小红书开源 InstanceAssemble:让 AI 精准还原复杂图像排版

该技术基于当前主流的扩散变换器架构,创造性地提出了“实例拼装注意力”机制。用户只需提供每个物体的边界框位置和内容描述,AI就能在对应位置生成符合语义的图像内容。无论是简单的几个物体,还是密集复杂的场景,InstanceAssemble都能保持高精度的布局对齐和语义一致性。

值得一提的是,该技术还采用轻量级适配方式降低使用门槛。无需重新训练整个模型,仅通过约7100万个参数,就能适配Stable Diffusion3-Medium模型,而适配Flux.1模型更是低至0.84%。

实验中,InstanceAssemble在包含90万个实例的密集布局数据集上表现优异,大幅超越了现有方法。

研究团队为了能更准确地衡量布局与图像的匹配程度,还创建了包含5000张图像和90000个实例的“Denselayout”基准测试集,以及全新的“Layout Grounding Score”评估指标。

实验表明,InstanceAssemble在各种布局条件下均表现优异,即使在训练时仅使用稀疏布局的情况下,也能在密集布局上保持稳健性能。

这项技术已开源,代码和预训练模型可在GitHub获取,为设计、广告和内容创作等领域的应用提供了强大支持。

附上参考地址

小红书开源InstanceAssemble!轻量级布局可控生成框架,复杂多实例图像生成精度再突破

InstanceAssemble: Layout-Aware Image Generation via Instance Assembling Attention

InstanceAssemble GitHub

来源:https://www.ithome.com/0/908/118.htm
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

Canva可画AI文案生成器如何一键生成小红书爆款标题
AI
Canva可画AI文案生成器如何一键生成小红书爆款标题

如果觉得Canva可画AI生成的小红书标题吸引力不足,可以通过四步来优化:一、输入包含身份、痛点、结果、情绪的场景化提示词,并加上格式指令;二、调用“小红书-种草暴击型”这类内置模板来填充参数生成;三、在开头加入强干预词,比如【上海租房党必存】,来锁定关键信息;四、跨抖音、公众号、电商等不同模板进行

热心网友
05.18
小红书背景颜色设置方法详解
手机教程
小红书背景颜色设置方法详解

小红书App无直接设置全局背景色的功能,但可通过多种方法实现个性化。使用内置主题皮肤可改变界面整体色调;调整手机系统色温或开启深色模式,能间接改变应用背景色彩;还可截图编辑页面后设为壁纸,实现创意定制。这些方式均能打造独特的视觉风格。

热心网友
05.18
俞浩三度发文质问小红书CEO momo盛行是否纵容作恶
业界动态
俞浩三度发文质问小红书CEO momo盛行是否纵容作恶

4月29日,追觅科技创始人俞浩在社交媒体上的连续发声,将“momo”这一网络现象推向了公众讨论的中心。这位企业家以三条直接喊话小红书CEO的博文,抛出了一个尖锐的问题:当匿名成为常态,平台的责任边界究竟在哪里? 这三条博文均以“尊敬的小红书CEO”开篇,矛头直指用户实名制与平台管理机制。俞浩的核心诉

热心网友
05.18
俞浩微博三问小红书CEO:momo盛行是否变相鼓励网络作恶
业界动态
俞浩微博三问小红书CEO:momo盛行是否变相鼓励网络作恶

4月29日,科技行业与社交媒体领域发生了一次引人深思的公开对话。追觅科技创始人兼CEO俞浩,在社交媒体平台连续发布三条核心博文,将讨论焦点直接引向了小红书平台及其管理责任。此次事件的核心,揭示了社交平台上一种普遍存在的匿名文化现象——即大量用户使用“momo”这一统一头像与昵称进行互动。 俞浩的提问

热心网友
05.18
小红书进军本地生活市场能否挑战大众点评地位
业界动态
小红书进军本地生活市场能否挑战大众点评地位

最近在小红书搜餐厅,是不是感觉有点不一样了?以往铺天盖地的探店笔记中间,现在直接冒出了店铺评分、人均消费和距离。这个看似细微的调整,背后是平台一次关键的转身:小红书正加速将本地生活服务从“种草”推向“交易”。 具体来说,现在搜索某个餐厅,结果页顶部会清晰展示4 8分、川渝火锅、¥98 人这类量化信息

热心网友
05.18

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

比特币巨量流出CEX 24小时超5740枚 市场抄底信号显现
web3.0
比特币巨量流出CEX 24小时超5740枚 市场抄底信号显现

过去24小时全球主要交易所比特币流向分化明显,整体净流出5740 82枚。其中CoinbasePro流出约5457枚,币安、Gemini分别流出1023枚和504枚;而OKX则逆势录得约530枚净流入。

热心网友
05.18
魔兽世界恶魔的气息任务全流程攻略与完成步骤详解
游戏攻略
魔兽世界恶魔的气息任务全流程攻略与完成步骤详解

卡拉赞的“恶魔的气息”任务需向大法师奥图鲁斯领取,随后击败玛克扎尔王子并回提交还。任务奖励包括金币、经验与声望。

热心网友
05.18
魔力宝贝狗洞位置详解与前往路线指南
游戏攻略
魔力宝贝狗洞位置详解与前往路线指南

《魔力宝贝》中“狗洞”即“奇怪的洞窟”,位于亚留特村西南方向黄色传送石处,是12至20级玩家高效练级地点。前往路线为:从法兰城至伊尔村,向北进入哈巴鲁东边洞窟击败“熊男”,穿越后抵达亚留特村,再向西南探索即可找到入口。洞内怪物等级较高,建议携带“风地”属性水晶提升生存能力。

热心网友
05.18
贾跃亭获7000万美元融资 将推进多年造车计划
业界动态
贾跃亭获7000万美元融资 将推进多年造车计划

时隔七年,贾跃亭以CEO身份重掌法拉第未来(FF)帅印,并成功为公司注入了关键的发展动力。近期,FF累计完成了高达7000万美元的机构融资。这笔至关重要的资金,被贾跃亭定位为驱动公司机器人业务实现第一阶段战略目标的“核心粮草”。 随着资金与团队就位,贾跃亭的信心显著增强。他公开立下目标:将用两年时间

热心网友
05.18
原神修复水道任务攻略法沙利亚的狂想曲通关详解
游戏攻略
原神修复水道任务攻略法沙利亚的狂想曲通关详解

任务需修复两条水道。首先跟随指引找到NPC并进入幻境,使用号角对准壁画激活飞鸟幻影,触碰并跟随其路径即可修复第一条水道。第二条水道位于洞xue内,跟随萤火虫找到入口,重复使用号角并借助弹跳水母到达高处,跟随飞鸟完成修复。完成后可获得奖励并推进剧情。

热心网友
05.18