综合介绍
Lumina-mGPT-2.0 是由上海人工智能实验室(Shanghai AI Laboratory)、香港中文大学(CUHK)等机构联合开发的开源项目,托管于 GitHub,由 Alpha-VLLM 团队维护。它是一个独立的自动回归模型,从零开始训练,核心功能是通过文字生成多样化的高质量图像。发布于 2025 年 4 月 3 日,这个工具不仅支持基本的文本生成图像,还能处理图像对生成、主题驱动生成、多轮图像编辑和可控生成等多种任务。
功能列表
- 支持输入文字生成高质量图像,最高分辨率 768x768。
- 能生成图像对,适合对比或配对任务。
- 提供主题驱动生成,根据特定主题生成相关图片。
- 支持多轮图像编辑,用户可逐步调整生成结果。
- 包含可控生成功能,精确调整图像细节。
- 提供微调代码,用户可根据需求优化模型。
- 支持加速推理,缩短图像生成时间。
使用帮助
安装流程
要在本地使用 Lumina-mGPT-2.0,需要先搭建运行环境。以下是详细步骤:
- 下载项目代码
打开终端,输入以下命令克隆代码仓库:
git clone https://github.com/Alpha-VLLM/Lumina-mGPT-2.0.git
然后进入项目目录:
cd Lumina-mGPT-2.0
- 创建虚拟环境
用 Conda 创建一个 Python 3.10 的独立环境,避免冲突:
conda create -n lumina_mgpt_2 python=3.10 -y
激活环境:
conda activate lumina_mgpt_2
- 安装依赖
安装项目所需的 Python 库:
pip install -r requirements.txt
接着安装 Flash Attention 模块(加速计算用):
pip install https://github.com/Dao-AILab/flash-attention/releases/download/v2.7.4.post1/flash_attn-2.7.4.post1+cu12torch2.3cxx11abiFALSE-cp310-cp310-linux_x86_64.whl --no-build-isolation
最后将项目安装为本地包:
pip install -e .
- 下载 MoVQGAN 权重
项目依赖 MoVQGAN 模型权重。创建目录并下载:
mkdir -p lumina_mgpt/movqgan/270M
wget -O lumina_mgpt/movqgan/270M/movqgan_270M.ckpt https://huggingface.co/ai-forever/MoVQGAN/resolve/main/movqgan_270M.ckpt
- 测试安装
运行以下命令检查环境是否正常:
python generate_examples/generate.py --model_path Alpha-VLLM/Lumina-mGPT-2.0 --save_path save_samples/
如果没有报错,说明安装成功。
如何使用主要功能
Lumina-mGPT-2.0 的主要功能是通过文字生成图像。以下是详细操作:
- 基本图像生成
在终端运行生成脚本,输入文字描述。例如,想生成“夜晚的城市天际线,灯火辉煌”的图片:
python generate_examples/generate.py --model_path Alpha-VLLM/Lumina-mGPT-2.0 --save_path save_samples/ --cfg 4.0 --top_k 4096 --temperature 1.0 --width 768 --height 768 --prompt "City skyline at night with bright lights."
参数说明:
--model_path
:模型路径。--save_path
:图片保存目录。--cfg
:文本与图像相关性,默认 4.0,值越大越贴近描述。--top_k
:控制生成多样性,默认 4096。--temperature
:控制随机性,默认 1.0。--width
和--height
:设置分辨率,最大 768x768。--prompt
:文字描述,支持英文或中文。
生成的图片会保存在save_samples
文件夹。- 加速生成
想更快生成图片,可以使用两种加速选项: - 添加
--speculative_jacobi
:启用推测雅可比解码,缩短生成时间。 - 添加
--quant
:启用模型量化,降低显存占用。
示例命令:
python generate_examples/generate.py --model_path Alpha-VLLM/Lumina-mGPT-2.0 --save_path save_samples/ --cfg 4.0 --top_k 4096 --temperature 1.0 --width 768 --height 768 --speculative_jacobi --quant
官方测试数据(基于 A100 显卡):
- 普通生成:694 秒,占用 80 GB 显存。
- 加推测解码:324 秒,79.2 GB 显存。
- 加推测解码和量化:304 秒,33.8 GB 显存。
- 多轮编辑和可控生成
支持多轮调整图像。例如,先生成一张图片,再用新描述修改部分细节。具体操作需参考generate_examples
文件夹中的示例脚本,或者查看官方文档<项目根目录>/README.md
。 - 微调模型
如果想用自己的数据优化模型,可以参考<项目根目录>/TRAIN.md
文件。它提供了详细的微调步骤,包括数据准备和训练命令。
操作流程
- 按步骤安装环境和依赖。
- 下载 MoVQGAN 权重。
- 输入文字描述,运行生成命令。
- 检查结果,调整参数或进行多轮编辑。
遇到问题时,可以查看 GitHub 上的文档或社区讨论。整个过程清晰,适合初学者和专业用户。
应用场景
- 创意设计
设计师输入“未来太空站内部”生成概念图,用于项目灵感。 - 学术研究
研究者用它测试自动回归模型的图像生成能力,或微调模型进行实验。 - 内容创作
博主输入“春天的花园”生成配图,提升文章视觉效果。 - 个性化定制
用户通过多轮编辑生成特定主题图片,如“带公司标志的广告海报”。
QA
- 需要什么硬件支持?
推荐使用 A100 等高性能 GPU,显存至少 40 GB。CPU 可运行,但速度很慢。 - 生成的图片可以商用吗?
项目采用 Apache 2.0 协议,允许商用,但需遵守协议条款。 - 为什么生成时间长?
默认设置下生成 768x768 图像需要几分钟。可以用--speculative_jacobi
和--quant
加速。 - 支持中文描述吗?
支持,但英文描述可能更准确,因为模型训练数据以英文为主。