はじめに
One-Prompt-One-Story (1Prompt1Story)は、1つのプロンプトから一貫性のある画像を生成できるように設計された革新的なテキスト画像生成ツールである。1Prompt1Storyは、テキスト埋め込みに基づくすべてのテキストから画像へのモデルで動作し、多文字生成、ControlNetガイド付き生成、パーソナライズされた生成をサポートする。このツールは、特異値再重み付けと同一性保持クロスアテンションテクニックを組み合わせた1回のプロンプト入力により、生成される画像が入力説明と高度に一貫していることを保証します。
機能一覧
- 一貫したアイデンティティ・イメージの生成一度のプロンプト入力で、一貫したキャラクターアイデンティティを維持した画像を生成します。
- グラディオ・デモオンラインデモは、ユーザー体験とテストのために提供されます。
- Consistory+ ベンチマーキング各キューは5~10個で、8つのスーパークラスに分かれています。
- マルチロール・ジェネレーション複数の文字を含む画像の生成をサポート。
- ControlNetブートストラップ生成ControlNet技術により発電プロセスをガイド。
- パーソナライゼーションユーザーの要求に基づき、パーソナライズされた実画像の生成をサポート。
ヘルプの使用
設置プロセス
- このリポジトリをクローンする:
git clone https://github.com/byliutao/1Prompt1Story
- リポジトリ・ディレクトリに移動する:
cd 1プロンプト1ストーリー
- 仮想環境を作成し、起動する:
conda create --name 1p1s python=3.10
conda activate 1p1s
- 依存関係をインストールします:
conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia
conda-forge::transformers をインストールします。
conda install -c conda-forge diffusers
pip install opencv-python scipy gradio==4.44.1 sympy==1.13.1
使用プロセス
- サンプルコードを実行します:
python main.py
- Gradioのデモを実行する:
python app.py
- Consistory+ベンチマークを実行する:
python -m resource.gen_benchmark --save_dir ./result/benchmark --benchmark_path ./resource/consistory+.yaml
主な機能
- 一貫したアイデンティティ・イメージの生成: 入力ボックスにキャラクターのアイデンティティとシーンを説明するプロンプトを1つ入力し、Generateボタンをクリックすると、キャラクターのアイデンティティを維持した画像が得られます。
- マルチロール・ジェネレーションプロンプトに複数のロールの説明を含めると、ツールは自動的にすべてのロールを含む画像を生成します。
- ControlNetブートストラップ生成プロンプトにはControlNet関連の記述が追加され、生成プロセスはControlNet技術に従ってガイドされるため、画像と記述の整合性が高い。
- パーソナライゼーションユーザーによって入力された個人的な説明に基づいて、要件を満たす実際の画像を生成します。