
扩散模型极大地推动了文本到图像的生成能力,而引入布局控制(Layout-to-Image, L2I)则进一步提升了图像生成的精确性和可控性。然而,现有方法在应对复杂场景时仍面临显著挑战:如何确保生成的图像元素与给定的边界框精确对齐,并在多步去噪过程中保持位置与语义的稳定,同时还能灵活融入文本、参考图等多模态条件。现有方案各有局限:无需训练的方法在复杂布局下效果骤降,且推理缓慢;而需要训练的方法则往往参数庞大,成本高昂。此外,传统的评价指标也难以准确量化布局对齐的质量。为系统性地解决这些难题,小红书智能创作AIGC团队提出了InstanceAssemble框架,其在架构设计与评测体系上均实现了创新。
论文标题:
InstanceAssemble: Layout-Aware Image Generation via Instance Assembling Attention
论文链接:https://arxiv.org/abs/2509.16691
项目主页:https://github.com/FireRedTeam/InstanceAssemble



核心方法:级联结构与实例组装注意力
InstanceAssemble的核心在于其级联式架构,它将全局语义与局部布局信息进行分阶段处理。模型首先利用基础的Diffusion Transformer(DiT)捕获图像的整体背景和全局语境,随后通过新颖的实例组装注意力模块(Assemble-Attn)逐个整合每个布局实例的详细信息。这种设计有效地隔离了不同实例间的干扰,允许模型对每个目标进行精细化控制。
在Assemble-Attn模块中,注意力计算被严格限定在每个实例对应的图像区域内进行。这种“区域隔离”的机制使得模型能够从容处理实例重叠或小目标物体等棘手情况,同时通过权重融合保证最终画面的整体和谐与一致性。


轻量适配与多模态支持
为了实现高效的布局控制能力扩展,InstanceAssemble采用了LoRA进行轻量级模型适配。仅在基础扩散模型(如SD3-Medium、Flux.1)中注入极少量可训练参数(最低仅占0.84%),即可使模型学会理解和遵循布局指令。这种低参数量微调方式,在保留底模强大生成能力的同时,大幅降低了训练成本,并具备优异的灵活性——可以方便地加载不同风格定制的LoRA权重。
此外,该框架天然支持多模态布局输入。每个布局实例不仅可以用文本描述定义,还可以结合参考图像、深度图或边缘图等信息,从而生成内容更丰富、细节更准确的图像。
全新基准与评估指标
为了客观评估模型在高密度复杂布局下的性能,团队构建了全新的DenseLayout基准数据集。该数据集包含5,000张图像与约90,000个实例标注(平均每图18个目标),专门用于测试模型在高密度场景下的生成与对齐能力。
同时,研究提出了布局 grounding 分数作为新的评估指标。LGS综合了空间精度(通过检测框IoU计算)与语义一致性(利用VQA模型判断属性匹配),能够更全面、准确地衡量生成图像对布局指令的遵循程度。

实验结果与性能优势
在严苛的评测下,InstanceAssemble展现出了卓越的性能。在DenseLayout基准上,其布局对齐指标显著优于现有方法,LGS分数达到最优水平,同时保持了出色的图像整体质量。特别是在远超常规训练密度的超稠密布局场景中,模型依然能准确地将每个目标放置在指定位置,并正确呈现其语义属性,证明了其强大的泛化能力。相比之下,基线方法容易出现目标遗漏、位置错乱或风格失调等问题。


强大的兼容性与扩展性
InstanceAssemble的设计注重实用性与扩展潜力。其基于LoRA的插件式适配架构,使得用户可以轻松集成各种风格化或功能化的LoRA模块。例如,加载一个油画风格微调的LoRA后,模型便能在精确遵循布局的前提下,生成具有相应艺术风格的图像。这种高兼容性为跨领域、跨风格的创意图像生成打开了大门。


总结与展望
InstanceAssemble通过创新的级联架构、实例组装注意力机制和轻量的LoRA适配,实现了对复杂布局的精准控制与高质量图像生成的平衡。它不仅在该研究领域设立了新的性能标杆,也展现出在智能设计、内容创作、数据增强等多个实际场景中的应用潜力。随着多模态信息的进一步融合与更多样化控制模块的开发,布局可控的图像生成技术将迈向更广阔的应用舞台。
