5546 积分	0 好友	764 主题

发消息

SwiftTailor实战：基于几何图像表示的高效3D服装生成方案

发表于 2026-3-24 17:35:58 | 查看: 85| 回复: 0

逼真且高效的 3D 服装生成，一直是计算机视觉与数字时尚领域的一个长期挑战。现有方法多基于大型视觉语言模型，先输出缝纫图案的序列化表示，再通过 GarmentCode 等服装建模框架将其转换为可仿真的 3D 网格。

虽然这些方法产出的结果质量很高，但其推理速度往往不尽如人意，生成一件服装通常需要 30 秒到 1 分钟。那么，有没有办法将这两个步骤统一起来，实现更快的端到端生成呢？

在这项工作中，我们提出了 SwiftTailor。这是一个新颖的两阶段框架，其核心思想是利用一种紧凑的几何图像表示，将缝纫样板推理与基于几何的网格合二为一。

SwiftTailor 包含两个轻量化模块：PatternMaker 和 GarmentSewer。

PatternMaker 是一个高效的视觉语言模型，能够从文本或图像等多种输入中预测出缝纫样板。
GarmentSewer 则是一个基于 Transformer 架构的密集预测网络，它能将这些样板转换为一种新颖的“服装几何图像”。这种图像在统一的 UV 空间中，编码了所有服装裁片的完整 3D 表面信息。

SwiftTailor框架流程图与效果展示

最终的 3D 网格通过一个高效的逆映射过程重建出来。这个过程结合了重网格化和动态缝合算法，可以直接组装服装，从而完全避免了传统物理仿真带来的巨大计算开销。

在 Multimodal GarmentCodeData 数据集上的实验表明，SwiftTailor 在显著缩短推理时间的同时，仍然保持了最先进的生成准确度和视觉逼真度。这为下一代 3D 内容创作，尤其是在需要快速原型设计和批量生成的数字时尚与虚拟人应用中，提供了一个极具潜力的解决方案。

从整体流程来看，SwiftTailor 的工作机制非常清晰。PatternMaker 模块基于一个轻量化的视觉语言模型 InternVL-3-2B，专门训练用于输出结构化的缝纫图案。这些图案由离散的标记和连续的参数构成。

随后，GarmentSewer 模块登场。它首先对缝纫图案进行预处理，得到语义图和缝合图，然后将它们输入到一个 DPT-ViT（密集预测视觉 Transformer）模型中，预测出最终的几何图像。这一步完成了其核心的“服装几何图像表示”。最后，经过一个后处理步骤，将几何图像转换为可供渲染和使用的 3D 网格模型。

SwiftTailor完整生成流程详解

总而言之，SwiftTailor 通过引入几何图像这一中间表示，巧妙地绕开了耗时的物理仿真，在计算机视觉驱动的 3D 内容生成效率上迈出了关键一步。其两阶段、模块化的设计也使得整个系统更易于理解和扩展。如果你对这类结合了 AIGC 与Transformer模型的前沿技术感兴趣，欢迎到云栈社区与更多开发者交流探讨。

上一篇：MySQL CPU持续100%告警分析：从慢查询堆积到连接风暴的排错实战
下一篇：人工智能如何重塑印度农业：精准灌溉与虫害预测实战案例

SwiftTailor, 3D建模, 计算机视觉, Transformer, 数字时尚

SwiftTailor实战：基于几何图像表示的高效3D服装生成方案

相关帖子