找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

1352

积分

0

好友

189

主题
发表于 4 天前 | 查看: 16| 回复: 0

图片

扩散模型极大地推动了文本到图像的生成能力,而引入布局控制(Layout-to-Image, L2I)则进一步提升了图像生成的精确性和可控性。然而,现有方法在应对复杂场景时仍面临显著挑战:如何确保生成的图像元素与给定的边界框精确对齐,并在多步去噪过程中保持位置与语义的稳定,同时还能灵活融入文本、参考图等多模态条件。现有方案各有局限:无需训练的方法在复杂布局下效果骤降,且推理缓慢;而需要训练的方法则往往参数庞大,成本高昂。此外,传统的评价指标也难以准确量化布局对齐的质量。为系统性地解决这些难题,小红书智能创作AIGC团队提出了InstanceAssemble框架,其在架构设计与评测体系上均实现了创新。

论文标题:
InstanceAssemble: Layout-Aware Image Generation via Instance Assembling Attention

论文链接:https://arxiv.org/abs/2509.16691

项目主页:https://github.com/FireRedTeam/InstanceAssemble

图片

图片

图片

核心方法:级联结构与实例组装注意力

InstanceAssemble的核心在于其级联式架构,它将全局语义与局部布局信息进行分阶段处理。模型首先利用基础的Diffusion Transformer(DiT)捕获图像的整体背景和全局语境,随后通过新颖的实例组装注意力模块(Assemble-Attn)逐个整合每个布局实例的详细信息。这种设计有效地隔离了不同实例间的干扰,允许模型对每个目标进行精细化控制。

在Assemble-Attn模块中,注意力计算被严格限定在每个实例对应的图像区域内进行。这种“区域隔离”的机制使得模型能够从容处理实例重叠小目标物体等棘手情况,同时通过权重融合保证最终画面的整体和谐与一致性。

图片

图片

轻量适配与多模态支持

为了实现高效的布局控制能力扩展,InstanceAssemble采用了LoRA进行轻量级模型适配。仅在基础扩散模型(如SD3-Medium、Flux.1)中注入极少量可训练参数(最低仅占0.84%),即可使模型学会理解和遵循布局指令。这种低参数量微调方式,在保留底模强大生成能力的同时,大幅降低了训练成本,并具备优异的灵活性——可以方便地加载不同风格定制的LoRA权重。

此外,该框架天然支持多模态布局输入。每个布局实例不仅可以用文本描述定义,还可以结合参考图像、深度图或边缘图等信息,从而生成内容更丰富、细节更准确的图像。

全新基准与评估指标

为了客观评估模型在高密度复杂布局下的性能,团队构建了全新的DenseLayout基准数据集。该数据集包含5,000张图像与约90,000个实例标注(平均每图18个目标),专门用于测试模型在高密度场景下的生成与对齐能力。

同时,研究提出了布局 grounding 分数作为新的评估指标。LGS综合了空间精度(通过检测框IoU计算)与语义一致性(利用VQA模型判断属性匹配),能够更全面、准确地衡量生成图像对布局指令的遵循程度。

图片

实验结果与性能优势

在严苛的评测下,InstanceAssemble展现出了卓越的性能。在DenseLayout基准上,其布局对齐指标显著优于现有方法,LGS分数达到最优水平,同时保持了出色的图像整体质量。特别是在远超常规训练密度的超稠密布局场景中,模型依然能准确地将每个目标放置在指定位置,并正确呈现其语义属性,证明了其强大的泛化能力。相比之下,基线方法容易出现目标遗漏、位置错乱或风格失调等问题。

图片

图片

强大的兼容性与扩展性

InstanceAssemble的设计注重实用性与扩展潜力。其基于LoRA的插件式适配架构,使得用户可以轻松集成各种风格化或功能化的LoRA模块。例如,加载一个油画风格微调的LoRA后,模型便能在精确遵循布局的前提下,生成具有相应艺术风格的图像。这种高兼容性为跨领域、跨风格的创意图像生成打开了大门。

图片

图片

总结与展望

InstanceAssemble通过创新的级联架构、实例组装注意力机制和轻量的LoRA适配,实现了对复杂布局的精准控制与高质量图像生成的平衡。它不仅在该研究领域设立了新的性能标杆,也展现出在智能设计、内容创作、数据增强等多个实际场景中的应用潜力。随着多模态信息的进一步融合与更多样化控制模块的开发,布局可控的图像生成技术将迈向更广阔的应用舞台。

图片




上一篇:苹果计划于2027年推出Baltra纯推理AI芯片,或用于自研数据中心集群
下一篇:Python技术精通成情报工作关键:军情六处处长强调编程技能
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2025-12-24 18:57 , Processed in 0.321795 second(s), 40 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2025 云栈社区.

快速回复 返回顶部 返回列表