5678 积分	0 好友	731 主题

发消息

[其他] InstanceAssemble算法详解：复杂场景下的精准布局控制图像生成

发表于 2025-12-20 04:18:05 | 查看: 231| 回复: 0

扩散模型极大地推动了文本到图像的生成能力，而引入布局控制（Layout-to-Image, L2I）则进一步提升了图像生成的精确性和可控性。然而，现有方法在应对复杂场景时仍面临显著挑战：如何确保生成的图像元素与给定的边界框精确对齐，并在多步去噪过程中保持位置与语义的稳定，同时还能灵活融入文本、参考图等多模态条件。现有方案各有局限：无需训练的方法在复杂布局下效果骤降，且推理缓慢；而需要训练的方法则往往参数庞大，成本高昂。此外，传统的评价指标也难以准确量化布局对齐的质量。为系统性地解决这些难题，小红书智能创作AIGC团队提出了InstanceAssemble框架，其在架构设计与评测体系上均实现了创新。

论文标题：
InstanceAssemble: Layout-Aware Image Generation via Instance Assembling Attention

论文链接：https://arxiv.org/abs/2509.16691

项目主页：https://github.com/FireRedTeam/InstanceAssemble

核心方法：级联结构与实例组装注意力

InstanceAssemble的核心在于其级联式架构，它将全局语义与局部布局信息进行分阶段处理。模型首先利用基础的Diffusion Transformer（DiT）捕获图像的整体背景和全局语境，随后通过新颖的实例组装注意力模块（Assemble-Attn）逐个整合每个布局实例的详细信息。这种设计有效地隔离了不同实例间的干扰，允许模型对每个目标进行精细化控制。

在Assemble-Attn模块中，注意力计算被严格限定在每个实例对应的图像区域内进行。这种“区域隔离”的机制使得模型能够从容处理实例重叠或小目标物体等棘手情况，同时通过权重融合保证最终画面的整体和谐与一致性。

轻量适配与多模态支持

为了实现高效的布局控制能力扩展，InstanceAssemble采用了LoRA进行轻量级模型适配。仅在基础扩散模型（如SD3-Medium、Flux.1）中注入极少量可训练参数（最低仅占0.84%），即可使模型学会理解和遵循布局指令。这种低参数量微调方式，在保留底模强大生成能力的同时，大幅降低了训练成本，并具备优异的灵活性——可以方便地加载不同风格定制的LoRA权重。

此外，该框架天然支持多模态布局输入。每个布局实例不仅可以用文本描述定义，还可以结合参考图像、深度图或边缘图等信息，从而生成内容更丰富、细节更准确的图像。

全新基准与评估指标

为了客观评估模型在高密度复杂布局下的性能，团队构建了全新的DenseLayout基准数据集。该数据集包含5,000张图像与约90,000个实例标注（平均每图18个目标），专门用于测试模型在高密度场景下的生成与对齐能力。

同时，研究提出了布局 grounding 分数作为新的评估指标。LGS综合了空间精度（通过检测框IoU计算）与语义一致性（利用VQA模型判断属性匹配），能够更全面、准确地衡量生成图像对布局指令的遵循程度。

实验结果与性能优势

在严苛的评测下，InstanceAssemble展现出了卓越的性能。在DenseLayout基准上，其布局对齐指标显著优于现有方法，LGS分数达到最优水平，同时保持了出色的图像整体质量。特别是在远超常规训练密度的超稠密布局场景中，模型依然能准确地将每个目标放置在指定位置，并正确呈现其语义属性，证明了其强大的泛化能力。相比之下，基线方法容易出现目标遗漏、位置错乱或风格失调等问题。

强大的兼容性与扩展性

InstanceAssemble的设计注重实用性与扩展潜力。其基于LoRA的插件式适配架构，使得用户可以轻松集成各种风格化或功能化的LoRA模块。例如，加载一个油画风格微调的LoRA后，模型便能在精确遵循布局的前提下，生成具有相应艺术风格的图像。这种高兼容性为跨领域、跨风格的创意图像生成打开了大门。

总结与展望

InstanceAssemble通过创新的级联架构、实例组装注意力机制和轻量的LoRA适配，实现了对复杂布局的精准控制与高质量图像生成的平衡。它不仅在该研究领域设立了新的性能标杆，也展现出在智能设计、内容创作、数据增强等多个实际场景中的应用潜力。随着多模态信息的进一步融合与更多样化控制模块的开发，布局可控的图像生成技术将迈向更广阔的应用舞台。

上一篇：苹果计划于2027年推出Baltra纯推理AI芯片，或用于自研数据中心集群
下一篇：Python技术精通成情报工作关键：军情六处处长强调编程技能

InstanceAssemble, AIGC, 布局控制, 扩散模型, LoRA