开源InstanceAssemble:小红书让AI精准还原复杂图像排版
12月26日,IT之家从相关渠道获悉,小红书携手复旦大学,联合推出了一项在布局控制生成领域的突破性方案——InstanceAssemble。这项技术通过创新的“实例组装注意力”机制,成功实现了从简单到复杂、从稀疏到密集布局的精准图像生成。目前,这项研究成果已被人工智能顶级会议NeurIPS 2025收录。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

近年来,AI绘画技术发展迅速,已经从最初的“文字生成图像”逐步迈向“布局控制生成”阶段。后者能依据用户设定的空间布局约束,生成与之精确对应的图像内容。
然而,“布局控制生成”技术面临着一个核心难点:如何让AI既精准地按照用户指定的位置和内容生成图像,又有效避免布局对不准、语义脱节或计算成本过高等问题。
此次复旦与小红书联合发布的InstanceAssemble新技术,成功实现了对图像中每个物体的精确布局控制,标志着AI绘画正式迈入了“可精准构图”的新阶段。

该技术基于当前主流的扩散变换器架构,开创性地提出了“实例拼装注意力”机制。用户只需提供每个物体的边界框位置和内容描述,AI就能在对应位置生成符合语义的图像内容。无论是简单的几个物体组合,还是密集复杂的场景构图,InstanceAssemble均能保持高精度的布局对齐与语义一致性。
值得一提的是,该技术还采用了轻量级适配方式来降低使用门槛,无需重新训练整个模型。其仅通过约7100万个参数,就能适配Stable Diffusion3-Medium模型;而对Flux.1模型的适配参数占比更是低至0.84%。
在实验中,InstanceAssemble在包含90万个实例的密集布局数据集上表现优异,大幅超越了现有方法。
为了更准确地衡量布局与图像的匹配程度,研究团队还创建了一个包含5000张图像和9万个实例的“Denselayout”基准测试集,并引入了全新的“Layout Grounding Score”评估指标。
实验结果表明,InstanceAssemble在各种布局条件下均表现领先。即使在训练时仅使用了稀疏布局的数据,在面对密集布局时,它也能展现出稳健的性能。
目前,该项技术已正式开源,相关代码和预训练模型均可在GitHub获取。这为设计、广告和内容创作等领域的应用落地,提供了强有力的技术支撑。
相关攻略
IT之家 3 月 15 日消息,X 平台博主 @ZONEofTECH 前天发文称,苹果 MacBook Neo 笔记本可以手动切换到 P3 广色域,实际上可以显示 P3 图像。据介绍,MacBook
IT之家 2 月 26 日消息,荣耀影像最新微博今日放出了荣耀 Magic V6 折叠屏手机的拍摄样张,新机将延续 AiMAGE 影像能力。IT之家注:去年 3 月,荣耀在 2025 年世界移动通信
2月13日,字节跳动Seed团队推出Seedream 5 0 Lite智能图像创作模型。相比4 0版本,模型在理解、推理和生成方面全面提升。作为通向统一多模态模型的进一步探索,它开始能像人类设计师
IT之家 2 月 13 日消息,科技媒体 Appleinsider 昨日发布博文,报道称苹果在其 Apple Creator Studio 套件中大力宣扬“无限创意”,但实际测试表明其生成式 AI
IT之家 2 月 11 日消息,去年 12 月,迪士尼向谷歌发出停止侵权函,指责其 AI 产品像“虚拟自动售货机”一样随意输出迪士尼的知识产权内容。时间来到近两个月后,外媒 Deadline 当地时
热门专题
热门推荐
3月28日消息,中国联通近日发布2025年度业绩报告,在网络建设领域交出亮眼答卷。中国联通表示,公司持续落实信号升格、宽带升级相关举措,目前近九成宽带已具备千兆接入能力,万兆光网更在全国100多个城
163邮箱个人版登录入口为https: mail 163 com,支持网页及手机浏览器直接访问,提供手机号、邮箱账号、扫码三种登录方式,界面简洁,功能齐全,适配多终端使用。163
在冒泡社区中,设置键盘能为用户带来更便捷、舒适的操作体验。以下是详细的设置方法。首先,打开冒泡社区应用程序。进入社区主界面后,找到屏幕上的设置选项。这通常可以在界面的某个角落,以一
一场谎言的终幕是崩坏星穹铁道中4 1版本的新光锥之一,其属性可以提高装备的暴击率,下面小编就为大家带来《崩坏:星穹铁道》一场谎言的终幕光锥效果一览,不清楚的一起来看看吧。《崩坏:星
2026年3月28日中午12时整,由腾讯视频全网独播的古装奇幻剧《白日提灯》准时上线。该剧开播前预约人数高达674万人次,被平台力推为“年度古偶扛鼎之作”,然而仅播出六小时后,口碑便急速崩塌,引发全





