NeurIPS 2025:小红书开源InstanceAssemble,精准生成复杂可控布局
InstanceAssemble作为一种创新的布局到图像生成方法,继承了基于DiT架构的高质量生成能力,同时实现了精准的布局对齐。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
作为小红书发布的轻量级布局到图像生成框架,InstanceAssemble能够实现精准的空间控制。该框架引入了DenseLayout与布局接地评分(LGS)来进行严格评估,在稀疏和密集布局上均取得了领先的性能。

相关链接

介绍
扩散模型在高质量图像生成方面表现出众,近期布局到图像(L2I)生成凭借位置条件与文本描述实现了精准可控合成,但现有方法性能仍有不足。为此,本研究提出新架构InstanceAssemble,它通过实例组装注意力机制融入布局条件,能利用边界框进行位置控制,还能对文本和额外视觉内容等多模态内容加以控制。该方法借助轻量级LoRA模块,可灵活适配现有基于DiT的文本到图像(T2I)模型。此外,研究还提出了包含5k图像、90k实例的L2I基准Denselayout,以及可解释评估指标布局接地分数(LGS)。实验表明,InstanceAssemble在复杂布局下性能卓越,且与多种风格LoRA模块兼容性强。
方法概述

ActiTok框架的核心在于其独特的行动分词器(Action Tokenizer)和基于Token的规划器(Token-based Planner)。
行动分词器 (Action Tokenizer):
功能:将原始的、连续的高维行动(如机器人的关节角度、游戏手柄的摇杆位置)映射到离散的、低维的“行动词元”序列。实现:通常采用矢量量化变分自编码器(VQ-VAE)或类似技术,学习一个“行动词表”(Action Vocabulary),将连续行动空间“压缩”成有限个有代表性的Token。优势:大幅降低了行动空间的复杂度,使得Agent更容易学习和理解。基于Token的规划器 (Token-based Planner):
功能:在离散的“行动词元”空间中进行搜索和规划,生成一系列Token序列作为行动计划。实现:可以结合强化学习、搜索算法(如MCTS)或大型语言模型(LLM)的推理能力,来预测和选择最优的Token序列。优势:规划过程更高效,且生成的行动计划更具可解释性。行动解码器 (Action Decoder):
功能:将规划器生成的“行动词元”序列,还原为Agent可以执行的原始连续行动指令。实现:与分词器相对应的解码结构,确保Token能准确“翻译”回具体动作。实验结果



结论
InstanceAssemble作为一种创新的布局到图像生成方法,在保持基于DiT架构高质量生成能力的同时,实现了先进的布局对齐。其验证范围广泛,覆盖文本与视觉实例内容,且能适配多样风格LoRAs,具备跨领域泛化能力。此外,还引入新指标与数据集评估复杂布局下的性能。不过,该方法存在需优化之处,如需探索并行策略提升效率,且在极端复杂布局下图像保真度会下降。其强大能力伴随风险,需负责任地部署,推动其在设计等领域发挥积极作用。
相关攻略
在传统的医学诊断中,放射科医生的工作方式更像一位侦探——他们并非仅仅审视一张孤立的X光片或CT图像就得出结论,而是需要仔细翻阅整套医学影像资料,在不同的切片间寻找关联线索,调整显示参数以优化观察效果,有时还需借助专业工具进行测量与分析,最终才能形成准确的诊断。然而,当前大多数医疗人工智能系统,却如同
人工智能通常以博学多才的形象示人,能够解答疑问、辅助写作与翻译。然而,当前主流AI模型普遍存在一个关键局限——其“记忆”能力实际上非常短暂。这类似于一个只能记住最近几页内容的学生,当面对一整部厚重的百科全书时,往往只能捕捉开头或结尾的片段,而中间的大量核心信息很可能已被“遗忘”。 这一被称为“上下文
当您步入一个空间,人脑会本能地聚焦于关键信息——桌上的咖啡杯、墙角的座椅、书架上的书籍,而非均匀处理所有细节。这种“选择性注意力”机制,如今正被赋予人工智能。上海大学研究团队近期提出了一项名为SeGPruner(语义-几何视觉令牌修剪器)的创新技术,它使AI在处理三维场景时,能够模仿人眼“抓重点”的
这项由微软研究院联合韩国科学技术院和首尔国立大学开展的研究,发表于2026年3月,揭示了一个颠覆性的发现:在某些特定场景下,让AI进行“自我教学”,反而可能导致其性能退化,变得更“笨”。 在人工智能训练领域,一种名为“自我蒸馏”的技术备受关注。其核心逻辑是让同一个模型身兼“教师”与“学生”双重角色。
医疗AI领域迎来了一项突破性进展。由宾夕法尼亚大学牵头,联合纽约州立大学石溪分校、北卡罗来纳大学教堂山分校、南卡罗来纳医科大学等多家顶尖机构完成的研究,于2026年3月17日发表在IEEE期刊模板上。研究团队开发了一个名为TAP-GPT(表格阿尔兹海默症预测GPT)的人工智能系统。这个系统就像一个专
热门专题
热门推荐
进入2026年,加密货币市场的格局与安全标准已悄然进化。对于投资者而言,选择一个安全可靠的交易平台,其重要性丝毫不亚于挑选资产本身。毕竟,资产增值的前提,是它们得安然无恙地躺在你的账户里。今天,我们就来盘一盘当前市场上主流的虚拟资产交易所,从风控能力、资产储备与市场口碑等多个维度,做一次深入的“避雷
本文梳理了2026年备受关注的数字资产交易平台,从安全性、功能特色与用户体验等维度进行分析。重点探讨了主流合规平台在资产托管、交易深度上的优势,以及新兴聚合器在提升交易效率方面的创新。同时,也指出了选择平台时需关注的风险控制与合规性,为不同需求的用户提供参考方向。
本文汇总了2026年主流的数字资产交易平台,从安全性、功能特色、用户体验及合规性等维度进行分析。内容涵盖适合新手的综合性应用、面向专业交易者的工具型软件,以及注重资产安全的托管方案,旨在为用户选择合适平台提供客观参考,并提醒注意市场风险与自我资产保护。
本文梳理了2026年主流的数字资产交易平台,从安全性、交易体验、功能特色等维度进行分析。重点介绍了综合型头部平台、专注创新的新兴应用以及面向特定需求的专业工具,旨在为用户提供客观参考,帮助其根据自身情况选择合适的软件进行下载与使用。
本文探讨了2026年数字货币交易软件的选择标准,并列举了十款主流应用。内容涵盖安全性、交易对、用户体验及费用等核心考量维度,分析了不同平台在现货、合约及DeFi集成等方面的特色,旨在为不同层级的用户提供实用参考,帮助其根据自身需求做出合适选择。





