Z-Image 简介
Z-Image(中文名“造相”)是阿里巴巴通义实验室研发并开源的高效图像生成基础模型。它定位为“轻量且高性能”的AI图像解决方案,核心参数规模仅6B,却能对标参数量更大的闭源旗舰模型。
凭借在“效率、质量、易用性”三者间的出色平衡,Z-Image迅速成为开源图像生成领域的焦点。其核心特性主要包括:
- 极致高效:仅需 8 步推理,在H800上可实现亚秒级延迟。
- 低显存需求:16G显存的消费级显卡即可流畅运行。
- 照片级质量:具备出色的写实图像生成能力。
- 双语文字渲染:能够准确渲染复杂的中文和英文字符。
- 强指令遵循:精准理解并执行用户的文字描述。
- 开源可用:模型权重已在 Hugging Face 和 ModelScope 平台开放下载。
本文将详细介绍如何在ComfyUI中本地部署Z-Image模型,并通过离线方式自由生成图像。
ComfyUI 简介
ComfyUI是一款基于节点流程的可视化AI图像生成工具。它将复杂的工作流简化为图形节点,用户通过拖拽和连接节点即可构建、调整整个生成流程。
作为当前支持最全面的开源解决方案之一,ComfyUI不仅支持Stable Diffusion、SDXL等静态图像模型,还兼容Flux、LCM、AnimateDiff以及本文的Z-Image,并具备视频生成与序列化处理能力。
其核心优势在于:
- 全模态生成支持:覆盖图像、视频、3D多模态生成,支持帧序列动画与视频插值,并提供实时预览。
- 模型全兼容体系:自动识别safetensors/ckpt格式,预集成数十个热门模型,开箱即用。
- 可视化节点编程:提供超过300个专业节点供自由组合,支持Python自定义节点开发,并能自动管理节点版本。
使用ComfyUI本地部署Z-Image
第一步:安装 ComfyUI
ComfyUI提供了多种安装方式。对于非开发人员,建议直接安装图形化桌面版“ComfyUI Desktop”,其安装过程较为简单,本文不再赘述,可参考官方文档完成。
第二步:下载 Z-Image 模型
前往Hugging Face或ModelScope模型库,下载Z-Image所需的三个核心模型文件:diffusion_model、text_encoder和vae。
将下载好的文件放置于ComfyUI安装目录的对应文件夹下:
ComfyUI/
├── models
│ ├── diffusion_models
│ │ └── z_image_turbo_bf16.safetensors
│ ├── text_encoders
│ │ └── qwen_3_4b.safetensors
│ └── vae
│ └── ae.safetensors
至此,ComfyUI与Z-Image的安装配置已完成。启动ComfyUI,你将看到如下节点编辑界面:

生成第一张图片
第一步:创建工作流
启动ComfyUI后,点击“创建空白工作流”。你可以参考下图构建一个基础的文本生成图像工作流。我们使用的提示词(Prompt)为:
“极具氛围感的暗调人像,一位优雅的中国美女在黑暗的房间里。一束强光通过遮光板,在她的脸上投射出一个清晰的闪电形状的光影,正好照亮一只眼睛。高对比度,明暗交界清晰,神秘感,莱卡相机色调。”

第二步:运行工作流
工作流配置完成后,点击右侧的“运行”按钮。等待片刻,生成的图片就会在输出节点中显示。
针对上述提示词,使用Z-Image生成的效果如下图所示:

注意事项:
- 本文示例在Mac mini (M4芯片)上运行,生成速度受硬件限制。在实际的人工智能应用开发中,可根据业务需求选择合适的计算硬件进行性能优化。
- Z-Image模型生成自由度很高,在实际业务应用时,建议增加必要的安全审核机制。
|