Lumina-mGPT-2.0：处理多种图像生成任务的自回归图像生成模型

1.8K 00

综合介绍

Lumina-mGPT-2.0 是由上海人工智能实验室（Shanghai AI Laboratory）、香港中文大学（CUHK）等机构联合开发的开源项目，托管于 GitHub，由 Alpha-VLLM 团队维护。它是一个独立的自动回归模型，从零开始训练，核心功能是通过文字生成多样化的高质量图像。发布于 2025 年 4 月 3 日，这个工具不仅支持基本的文本生成图像，还能处理图像对生成、主题驱动生成、多轮图像编辑和可控生成等多种任务。

功能列表

支持输入文字生成高质量图像，最高分辨率 768x768。
能生成图像对，适合对比或配对任务。
提供主题驱动生成，根据特定主题生成相关图片。
支持多轮图像编辑，用户可逐步调整生成结果。
包含可控生成功能，精确调整图像细节。
提供微调代码，用户可根据需求优化模型。
支持加速推理，缩短图像生成时间。

使用帮助

安装流程

要在本地使用 Lumina-mGPT-2.0，需要先搭建运行环境。以下是详细步骤：

下载项目代码
打开终端，输入以下命令克隆代码仓库：

git clone https://github.com/Alpha-VLLM/Lumina-mGPT-2.0.git

然后进入项目目录：

cd Lumina-mGPT-2.0

创建虚拟环境
用 Conda 创建一个 Python 3.10 的独立环境，避免冲突：

conda create -n lumina_mgpt_2 python=3.10 -y

激活环境：

conda activate lumina_mgpt_2

安装依赖
安装项目所需的 Python 库：

pip install -r requirements.txt

接着安装 Flash Attention 模块（加速计算用）：

pip install https://github.com/Dao-AILab/flash-attention/releases/download/v2.7.4.post1/flash_attn-2.7.4.post1+cu12torch2.3cxx11abiFALSE-cp310-cp310-linux_x86_64.whl --no-build-isolation

最后将项目安装为本地包：

pip install -e .

下载 MoVQGAN 权重
项目依赖 MoVQGAN 模型权重。创建目录并下载：

mkdir -p lumina_mgpt/movqgan/270M
wget -O lumina_mgpt/movqgan/270M/movqgan_270M.ckpt https://huggingface.co/ai-forever/MoVQGAN/resolve/main/movqgan_270M.ckpt

测试安装
运行以下命令检查环境是否正常：

python generate_examples/generate.py --model_path Alpha-VLLM/Lumina-mGPT-2.0 --save_path save_samples/

如果没有报错，说明安装成功。

如何使用主要功能

Lumina-mGPT-2.0 的主要功能是通过文字生成图像。以下是详细操作：

基本图像生成
在终端运行生成脚本，输入文字描述。例如，想生成“夜晚的城市天际线，灯火辉煌”的图片：

python generate_examples/generate.py --model_path Alpha-VLLM/Lumina-mGPT-2.0 --save_path save_samples/ --cfg 4.0 --top_k 4096 --temperature 1.0 --width 768 --height 768 --prompt "City skyline at night with bright lights."

参数说明：

--model_path：模型路径。
--save_path：图片保存目录。
--cfg：文本与图像相关性，默认 4.0，值越大越贴近描述。
--top_k：控制生成多样性，默认 4096。
--temperature：控制随机性，默认 1.0。
--width 和 --height：设置分辨率，最大 768x768。
--prompt：文字描述，支持英文或中文。
生成的图片会保存在 save_samples 文件夹。
加速生成
想更快生成图片，可以使用两种加速选项：
添加 --speculative_jacobi：启用推测雅可比解码，缩短生成时间。
添加 --quant：启用模型量化，降低显存占用。
示例命令：

python generate_examples/generate.py --model_path Alpha-VLLM/Lumina-mGPT-2.0 --save_path save_samples/ --cfg 4.0 --top_k 4096 --temperature 1.0 --width 768 --height 768 --speculative_jacobi --quant

官方测试数据（基于 A100 显卡）：

普通生成：694 秒，占用 80 GB 显存。
加推测解码：324 秒，79.2 GB 显存。
加推测解码和量化：304 秒，33.8 GB 显存。
多轮编辑和可控生成
支持多轮调整图像。例如，先生成一张图片，再用新描述修改部分细节。具体操作需参考 generate_examples 文件夹中的示例脚本，或者查看官方文档 <项目根目录>/README.md。
微调模型
如果想用自己的数据优化模型，可以参考 <项目根目录>/TRAIN.md 文件。它提供了详细的微调步骤，包括数据准备和训练命令。

操作流程

按步骤安装环境和依赖。
下载 MoVQGAN 权重。
输入文字描述，运行生成命令。
检查结果，调整参数或进行多轮编辑。

遇到问题时，可以查看 GitHub 上的文档或社区讨论。整个过程清晰，适合初学者和专业用户。

应用场景

创意设计
设计师输入“未来太空站内部”生成概念图，用于项目灵感。
学术研究
研究者用它测试自动回归模型的图像生成能力，或微调模型进行实验。
内容创作
博主输入“春天的花园”生成配图，提升文章视觉效果。
个性化定制
用户通过多轮编辑生成特定主题图片，如“带公司标志的广告海报”。

QA

需要什么硬件支持？
推荐使用 A100 等高性能 GPU，显存至少 40 GB。CPU 可运行，但速度很慢。
生成的图片可以商用吗？
项目采用 Apache 2.0 协议，允许商用，但需遵守协议条款。
为什么生成时间长？
默认设置下生成 768x768 图像需要几分钟。可以用 --speculative_jacobi 和 --quant 加速。
支持中文描述吗？
支持，但英文描述可能更准确，因为模型训练数据以英文为主。