はじめに
PhotoDoodleは、ShowLabによって開発されたオープンソースの画像編集ツールで、人工知能技術による写真の芸術的編集に焦点を当てています。ユーザーは、簡単なテキストプロンプトを入力するだけで、実際の写真に漫画風、3D効果、後光、翼、その他の装飾要素を追加し、現実と仮想の芸術作品の組み合わせを生成することができます。強力なディープラーニングモデルをベースにしており、サンプル学習が少なく、ユーザーのパーソナライズされたスタイルに素早く適応できるため、アーティストやデザイナー、一般ユーザーがクリエイティブな作品を作るのに適している。このプロジェクトはGitHubでホスティングされており、コード、データセット、事前学習済みモデルを提供し、開発者が再現したり2度開発したりできるようになっている。そのユニークな「フォトグラフィティ」機能は、従来の編集ソフトウェアのギャップを埋め、写真の背景の完全性を保ち、芸術的要素をシームレスに統合し、広く注目を集めている。
機能一覧
- テキストによるアート編集テキスト記述によるグラフィティ要素の自動生成(例:"カートゥーンモンスターを追加 "や "ハローエフェクトを追加")。
- 少ない学習支援サンプルユーザから提供されたわずかなペアリング・データで、パーソナライズされた編集スタイルを学習・生成。
- 現実とフィクションの質の高い融合新たに追加した要素が、遠近感、光と影の面で写真の背景に自然に溶け込むようにする。
- データセットとモデルを開く訓練済みモデルと多様なスタイルのデータセットを提供し、ユーザーによる直接ダウンロードと利用をサポートします。
- オープンソース・サポート開発者は、コードを変更したり、他のプロジェクトに統合したりすることができます。
- バッチ処理機能複数の画像を一度に編集できるので、効率的です。
ヘルプの使用
PhotoDoodleは、GitHubベースのオープンソースプロジェクトであり、ユーザーがインストールして使用するには、一定の技術的基礎が必要です。以下は、あなたがすぐに使い始められるように、インストールと使用に関する詳細なガイドです。
設置プロセス
- 環境準備
- あなたのコンピューターにGit、Python 3.11.10、Condaがインストールされていることを確認してください。
- ターミナルを開き、以下のコマンドを入力してプロジェクトをローカルにクローンする:
git clone git@github.com:showlab/PhotoDoodle.git cd PhotoDoodle
- 仮想環境を作成し、起動する:
conda create -n doodle python=3.11.10 conda doodleをアクティブにする
- 依存関係のインストール
- PyTorchをインストールする(GPUを持っている場合はCUDAアクセラレーション版を推奨):
pip install torch==2.5.1 torchvision===0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124
- 他の依存関係をインストールします:
pip install --upgrade -r requirements.txt
- インストールが完了するまで待ち、ネットワークに問題がないことを確認する。
- PyTorchをインストールする(GPUを持っている場合はCUDAアクセラレーション版を推奨):
- 訓練済みモデルのダウンロード
- このプロジェクトは、手動でダウンロードする必要があるいくつかの訓練済みモデルを提供しています。モデルファイルをダウンロードするには、PhotoDoodleのGitHub ReleasesまたはHugging Face datasetページをご覧ください。
オムニエディター
歌で応える編集ロラ
). - ダウンロードしたモデルファイルをプロジェクトディレクトリの指定されたフォルダに置きます(パスの説明はREADMEを参照してください。
チェックポイント
).
- このプロジェクトは、手動でダウンロードする必要があるいくつかの訓練済みモデルを提供しています。モデルファイルをダウンロードするには、PhotoDoodleのGitHub ReleasesまたはHugging Face datasetページをご覧ください。
- インストールの確認
- ターミナルでテスト・コマンド(READMEで提供されているサンプル・スクリプトなど)を実行し、エラーがないか確認します。エラーがなければ、インストールは成功です。
使用方法
PhotoDoodleのコア機能は、テキストコマンドによる写真の編集で、事前学習済みモデルの直接使用とカスタム学習の2つのシナリオで動作する。
学習済みモデルを使った写真の編集
- 写真を準備する
- 編集する写真を配置します。
ソース.jpg
)の下のプロジェクト・ディレクトリに置く。入力
フォルダを作成する(このフォルダが存在しない場合は、自分で作成する)。
- 編集する写真を配置します。
- editコマンドを実行する
- ターミナルに以下のコマンドを入力する(起動しているものとする)。
落書き
(環境):python inference.py --source input/source.jpg --prompt "Add cartoon-style wings to a photo" --output output/result.jpg
- パラメータの説明
---ソース
ソース写真のパス。--プロンプト
追加したい要素を記述するテキスト指示文。--出力
結果パスを出力する。
- 実行後、生成された結果は
出力/結果.jpg
.
- ターミナルに以下のコマンドを入力する(起動しているものとする)。
- 結果を見る
- 見せる
出力
フォルダで、生成された画像を確認してください。調整コマンド(「光と影の効果を加える」など)は、さまざまなスタイルを生成できます。
- 見せる
カスタムトレーニング・パーソナライズ・スタイル
- ペアデータセットの準備
- を作成する。
.jsonl
ファイル(例データセット.jsonl
)、1行に1組の画像と説明を記録する:{"source": "path/to/source.jpg", "target": "path/to/modified.jpg", "caption": "青い光輪を追加"}。 {"source": "path/to/source2.jpg", "target": "path/to/modified2.jpg", "caption": "漫画のモンスターを追加"}。
- 自分のスタイルのニーズを反映した画像を少なくとも5~10組用意する。
- を作成する。
- トレーニングスクリプトの実行
- そうしれいかん
.jsonl
ファイルをプロジェクト・ディレクトリにコピーして実行する:python train.py --data dataset.jsonl --model OmniEditor --output_dir trained_model/
- トレーニングにかかる時間は、データ量とハードウェアの性能(GPUを推奨)に依存します。
trained_model/
.
- そうしれいかん
- カスタムモデルによる編集
- 学習済みモデルを使用した推論:
python inference.py --source input/source.jpg --prompt "Add my style elements" --model trained_model/checkpoint.pth --output output/custom_result.jpg
- 出力をチェックし、期待に応えていることを確認する。
- 学習済みモデルを使用した推論:
作業工程詳細
- 一括編集複数の画像を
入力
フォルダーに追加するなど)、ループ処理に対応している。---バッチ
パラメーターの実装の詳細については、コード・コメントを参照のこと)。 - 調整効果ブレンドが自然でない場合は、キューに詳細を追加するか(「背景の照明と一致する」など)、モデルのパラメータを調整します(詳細は
コンフィグ
(ドキュメンテーション)。 - デバッグの問題もし何か問題が起きたら、Pythonのバージョンや依存関係をチェックするか、GitHub Issuesをチェックしてコミュニティの助けを借りましょう。
ほら
- ハードウェア要件:GPU(NVIDIA CUDAサポートなど)がスピードの点で推奨される。
- データ品質:入力画像の解像度が高ければ高いほど、より良い結果が得られる。
- オンライン体験:一部の機能は、ローカルにインストールすることなく、Hugging Face Spacesを通じてオンラインでテストすることができます。
これらのステップを踏めば、簡単なトライアルから詳細なカスタマイズまで、PhotoDoodleを使って簡単に写真にアーティスティックな魅力を加えることができます。