4178 积分	0 好友	546 主题

发消息

[Python] Stroke3D技术解析：如何用2D草图和文本指令生成可动画的3D模型

发表于 2026-3-2 06:22:00 | 查看: 245| 回复: 0

在3D内容创作领域，传统方法往往受限于专业软件的高门槛和AI生成工具的局限性。然而，浙江大学与哈佛大学的研究团队近期提出的Stroke3D框架，正引领一场3D创作的新革命！通过简单的2D草图和一句文字描述，Stroke3D能生成带有完整骨架、纹理清晰、可直接驱动动画的3D网格模型。这一创新不仅降低了3D创作的门槛，更为AR/VR、影视动画和机器人仿真等领域带来了无限可能。

Stroke3D系统工作流程展示

论文介绍

绑定3D模型是3D变形和动画的基础。然而，现有的3D生成方法在生成可动画几何体方面面临挑战，而绑定技术又缺乏对骨骼创建的精细结构控制。

为了解决这些局限性，论文提出了一个全新的框架Stroke3D，它能够直接从用户输入（2D绘制的笔触和描述性文本提示）生成绑定网格。方法开创了一种两阶段流程，将生成过程分为：

可控骨骼生成：采用骨骼图VAE（Sk-VAE）将骨骼的图结构编码到一个潜在空间中，其中骨骼图DiT（Sk-DiT）生成骨骼嵌入。生成过程同时依赖于文本的语义信息和2D笔触的显式结构控制，VAE的解码器重建最终的高质量3D骨骼；
通过 TextuRig 和 SKA-DPO 增强网格合成：在此基础上合成纹理网格。在此阶段，首先使用TextuRig数据集（一个包含纹理和绑定网格以及说明文字的数据集，来自 Objaverse-XL）扩充现有骨架到网格模型的训练数据，从而增强其性能。此外采用基于骨架-网格对齐评分的偏好优化策略SKA-DPO，以进一步提高几何保真度。该框架为创建可直接用于动画的 3D 内容提供了更直观的工作流程。

方法概述

Stroke3D 方法

Stroke3D架构图与模块细节

Stroke3D 概述。在训练阶段，Sk-VAE将骨架图编码到潜在空间中。随后，训练Sk-DiT以生成这些潜在嵌入，并以相应的2D笔画和文本提示为条件。使用TextuRig进行训练后，我们利用SKA-DPO，通过骨架网格对齐奖励信号进一步优化SKDream。右侧展示了模型的实现细节。

骨骼生成

将骨架生成结果与RigNet、SKDream、MagicArticulate和UniRig进行了比较。

不同方法的骨骼生成效果对比

网格生成

将网格生成结果与SKDream进行比较，并展示了SKA-DPO和TextuRig 的消融研究。

网格生成效果消融对比

TextuRig 数据集

对用于网格生成的 TextuRig数据集进行分析。

TextuRig数据集分析：骨架标注质量与类别分布

结论

Stroke3D 首次实现了从2D草图和文本到可直接动画的3D资产的端到端生成，其“骨架先行”的两阶段范式为解决3D生成中的结构控制问题提供了新思路。该工作不仅贡献了高质量的TextuRig数据集，还提出了创新的SKA-DPO优化策略，显著提升了生成几何质量。未来，Stroke3D有望在游戏开发、虚拟人创建、影视预可视化等领域发挥巨大作用，让3D创作更加接近人类最自然的表达方式——绘画和语言。

上一篇：从AlphaGo到AGI：哈萨比斯与DeepMind如何追寻“上帝的算法”？
下一篇：如何用OmniVTON++实现零训练虚拟试穿：扩散模型三大核心模块全解析

Stroke3D, 深度学习, 3D建模, 动画生成, AR／VR