Lumina-MGPT-2.0：複数の画像生成タスクを扱うための自己回帰画像生成モデル

1.5K 00

はじめに

Lumina-mGPT-2.0は、上海AI研究所（Shanghai AI Laboratory）、香港中文大学（Chinese University of Hong Kong：CUHK）、その他の組織によって共同開発されたオープンソースプロジェクトで、GitHub上でホストされ、Alpha-VLLMチームによってメンテナンスされている。ゼロから学習させたスタンドアロン自己回帰モデルで、テキストから多様で高品質な画像を生成する機能を中核としている。2025年4月3日にリリースされたこのツールは、基本的なテキスト生成画像をサポートするだけでなく、画像ペア生成、トピック駆動型生成、多ラウンド画像編集、制御された生成など、さまざまなタスクを処理する。

機能一覧

テキスト入力をサポートし、最大768x768解像度の高品質画像を生成します。
比較やマッチング作業に適した画像ペアを生成することができる。
特定のテーマに基づいて関連画像を生成するテーマ駆動型生成を提供します。
複数回の画像編集をサポートし、ユーザーは生成された結果を段階的に調整することができます。
画像の細部を精密に調整するコントロールド・ジェネレーション機能を搭載。
ユーザーが必要に応じてモデルを最適化できるように、微調整されたコードが提供されている。
画像生成時間を短縮する加速推論をサポート。

ヘルプの使用

設置プロセス

Lumina-mGPT-2.0をローカルで使用するには、まずランタイム環境を構築する必要があります。以下はその詳細な手順です：

プロジェクトコードのダウンロード
ターミナルを開き、以下のコマンドを入力してコード・リポジトリをクローンする：

git clone https://github.com/Alpha-VLLM/Lumina-mGPT-2.0.git

次にプロジェクト・ディレクトリに移動する：

cd Lumina-mGPT-2.0

仮想環境の構築
コンフリクトを避けるため、CondaでPython 3.10用の別環境を作成する：

conda create -n lumina_mgpt_2 python=3.10 -y

環境を活性化させる：

conda activate lumina_mgpt_2

依存関係のインストール
プロジェクトに必要なPythonライブラリをインストールする：

pip install -r requirements.txt

次に、Flash Attentionモジュール（加速計算用）をインストールする：

pip install https://github.com/Dao-AILab/flash-attention/releases/download/v2.7.4.post1/flash_attn-2.7.4.post1+cu12torch2.3cxx11abiFALSE-cp310-cp310-linux_x86_64.whl --no-build-isolation

最後に、プロジェクトをローカル・パッケージとしてインストールする：

pip install -e .

ダウンロード MoVQGAN ウェイト
プロジェクトはMoVQGANモデルウェイトに依存します。カタログを作成してダウンロードしてください：

mkdir -p lumina_mgpt/movqgan/270M
wget -O lumina_mgpt/movqgan/270M/movqgan_270M.ckpt https://huggingface.co/ai-forever/MoVQGAN/resolve/main/movqgan_270M.ckpt

試験施工
以下のコマンドを実行し、環境がOKかどうかをチェックする：

python generate_examples/generate.py --model_path Alpha-VLLM/Lumina-mGPT-2.0 --save_path save_samples/

エラーが報告されなければ、インストールは成功です。

主な機能の使い方

Lumina-mGPT-2.0の主な機能は、テキストから画像を生成することです。以下はその詳細な動作です：

基本的な画像生成
ターミナルで生成スクリプトを実行し、テキストの説明を入力する。例えば、"City skyline at night, all lit up "という画像を生成したい：

python generate_examples/generate.py --model_path Alpha-VLLM/Lumina-mGPT-2.0 --save_path save_samples/ --cfg 4.0 --top_k 4096 --temperature 1.0 --width 768 --height 768 --prompt "City skyline at night with bright lights."

パラメータの説明

--model_pathモデルパス
--save_path写真が保存されるディレクトリ。
--cfgデフォルトは4.0、値が大きいほど説明に近い。
--top_kデフォルトは4096。
--temperatureデフォルトは1.0。
--width 歌で応える --height解像度は最大768x768に設定してください。
--promptテキスト記述、サポート英語か中国語。
生成された画像は save_samples フォルダー
加速世代
画像をより高速に生成するには、2つの高速化オプションを使用できます：
増加 --speculative_jacobi生成時間を短縮するために、投機的ヤコビ復号を有効にする。
増加 --quantグラフィックス・メモリの使用量を減らすために、モデルの定量化を有効にします。
コマンドの例：

python generate_examples/generate.py --model_path Alpha-VLLM/Lumina-mGPT-2.0 --save_path save_samples/ --cfg 4.0 --top_k 4096 --temperature 1.0 --width 768 --height 768 --speculative_jacobi --quant

公式テストデータ（A100グラフィックカードに基づく）：

通常世代：694秒、80GBのビデオメモリを使用。
さらに投機的デコード：324秒、ビデオメモリ79.2GB。
さらに投機的デコードと量子化：304秒、ビデオメモリ33.8GB。
複数回の編集と制御された生成
複数回の画像調整に対応。例えば、最初に画像を生成し、次に新しい記述で細部を修正します。具体的な操作は generate_examples フォルダに保存するか、公式ドキュメントを参照すること！ <项目根目录>/README.md.
モデルの微調整
ご自身のデータでモデルを最適化したい場合は <项目根目录>/TRAIN.md ドキュメント。データ準備とトレーニングコマンドを含む、詳細な微調整ステップを提供します。

ワークフロー

ステップに従って、環境と依存関係をインストールする。
ダウンロード MoVQGAN Weights.
テキストで説明を入力し、generateコマンドを実行する。
結果を確認し、パラメーターを調整し、複数回の編集を行う。

問題にぶつかったら、GitHubのドキュメントやコミュニティのディスカッションをチェックしよう。全プロセスは明確で、初心者からプロのユーザーまで適している。

アプリケーションシナリオ

クリエイティブ・デザイン
デザイナーたちは「未来の宇宙ステーションの内部」にエントリーし、プロジェクトのインスピレーションとなる概念図を作成した。
学術研究
研究者は、自己回帰モデルの画像生成能力をテストしたり、実験用のモデルを微調整したりするのに使う。
コンテンツ制作
ブロガーは、記事の視覚効果を高める画像を生成するために「春の庭」を入力する。
パーソナライゼーション
ユーザーは、何度も編集を繰り返しながら、「企業ロゴ入りの広告ポスター」のようなテーマ別の画像を生成する。

品質保証

どのようなハードウェアのサポートが必要ですか？
A100のような高性能GPUを推奨し、少なくとも40GBのビデオメモリを搭載する。
生成された画像は市販されていますか？
このプロジェクトはアパッチ2.0プロトコルを使用しており、契約条件に従って商用利用が許可されている。
なぜ世代交代に時間がかかるのか？
デフォルト設定で768x768の画像を生成するには数分かかります。これは --speculative_jacobi 歌で応える --quant 加速。
中国語の表記に対応していますか？
サポートされているが、モデルのトレーニングデータは主に英語であるため、英語表記の方がより正確かもしれない。