Z-Image - 阿里通义实验室开源的图像生成模型

49.6K 00

Z-Image是什么

Z-Image是阿里通义实验室开源的图像生成模型，具有高效、快速和强大的图像生成能力。采用单流扩散Transformer架构（S3-DiT），将文本、视觉语义和图像VAE token整合为统一输入流，最大化参数效率。其核心技术创新包括解耦分布匹配蒸馏（Decoupled-DMD）和强化学习与分布匹配蒸馏融合（DMDR），显著提升少步生成性能和图像质量。Z-Image-Turbo版本仅需8次函数评估就能生成高质量图像，支持亚秒级推理延迟，适配低显存设备，擅长照片级真实感图像生成和双语文本渲染。Z-Image-Edit版本专注于图像编辑任务，可依据自然语言提示进行精确编辑。Z-Image-Base是未经蒸馏的基础模型，为社区提供更广泛的微调和定制开发空间。

Z-Image的功能特色

高效快速生成：Z-Image-Turbo版本仅需8次函数评估即可生成高质量图像，实现亚秒级推理延迟，适配低显存设备，适合快速原型设计和创意探索。
强大的文本渲染能力：支持双语文本渲染，能够准确生成包含中文和英文的图像，满足多种语言需求。
照片级真实感图像生成：擅长生成具有自然光照、逼真纹理和可信场景的图像，可用于创意设计和视觉效果制作。
创意图像编辑：Z-Image-Edit版本可根据自然语言提示进行精确的图像编辑，支持创意图像到图像的生成，满足多种创意需求。
开源与灵活应用：代码、权重和在线Demo均已开源，遵循Apache 2.0许可，可广泛应用于商业项目，为开发者提供丰富的定制和开发空间。

Z-Image的核心优势

单流扩散Transformer架构（S3-DiT）：Z-Image采用这种架构，将文本、视觉语义token和图像VAE token在序列级别上进行拼接，作为统一的输入流，最大化参数效率。
Decoupled-DMD（解耦分布匹配蒸馏）：是赋能8步Z-Image模型的核心少步蒸馏算法。通过解耦CFG增强（CA）和分布匹配（DM）两个机制，独立研究和优化它们，从而大幅提升了少步生成的性能。
DMDR（强化学习与分布匹配蒸馏融合）：在Decoupled-DMD基础上，通过将强化学习（RL）与分布匹配蒸馏（DMD）在少步模型的后训练阶段协同整合，进一步提升语义对齐、美学质量和结构一致性，同时生成更丰富高频细节的图像。
高效少步推理：采用解耦分布匹配蒸馏（Decoupled-DMD）技术，仅需8步即可生成高质量图像，推理速度快，适合低显存设备，推理延迟低。
强大的文本渲染：支持中英文双语文本渲染，能准确生成包含复杂文本的图像，适用于多种语言环境。
高质量图像生成：生成的图像具有照片级真实感，具备自然的光照、逼真的纹理和可信的场景，满足高要求的视觉效果需求。
精准图像编辑：Z-Image-Edit版本可依据自然语言指令进行精确的图像编辑，支持创意图像到图像的生成，编辑能力强大。