PhotoDoodle: テキストコマンドで写真にアーティスティックな落書きができるAIツール

61.1K 00

はじめに

PhotoDoodleは、ShowLabによって開発されたオープンソースの画像編集ツールで、人工知能技術による写真の芸術的編集に焦点を当てています。ユーザーは、簡単なテキストプロンプトを入力するだけで、実際の写真に漫画風、3D効果、後光、翼、その他の装飾要素を追加し、現実と仮想の芸術作品の組み合わせを生成することができます。強力なディープラーニングモデルをベースにしており、サンプル学習が少なく、ユーザーのパーソナライズされたスタイルに素早く適応できるため、アーティストやデザイナー、一般ユーザーがクリエイティブな作品を作るのに適している。このプロジェクトはGitHubでホスティングされており、コード、データセット、事前学習済みモデルを提供し、開発者が再現したり2度開発したりできるようになっている。そのユニークな「フォトグラフィティ」機能は、従来の編集ソフトウェアのギャップを埋め、写真の背景の完全性を保ち、芸術的要素をシームレスに統合し、広く注目を集めている。

機能一覧

テキストによるアート編集テキスト記述によるグラフィティ要素の自動生成（例："カートゥーンモンスターを追加 "や "ハローエフェクトを追加"）。
少ない学習支援サンプルユーザから提供されたわずかなペアリング・データで、パーソナライズされた編集スタイルを学習・生成。
現実とフィクションの質の高い融合新たに追加した要素が、遠近感、光と影の面で写真の背景に自然に溶け込むようにする。
データセットとモデルを開く訓練済みモデルと多様なスタイルのデータセットを提供し、ユーザーによる直接ダウンロードと利用をサポートします。
オープンソース・サポート開発者は、コードを変更したり、他のプロジェクトに統合したりすることができます。
バッチ処理機能複数の画像を一度に編集できるので、効率的です。

ヘルプの使用

PhotoDoodleは、GitHubベースのオープンソースプロジェクトであり、ユーザーがインストールして使用するには、一定の技術的基礎が必要です。以下は、あなたがすぐに使い始められるように、インストールと使用に関する詳細なガイドです。

設置プロセス

環境準備
- あなたのコンピューターにGit、Python 3.11.10、Condaがインストールされていることを確認してください。
- ターミナルを開き、以下のコマンドを入力してプロジェクトをローカルにクローンする：
```
git clone git@github.com:showlab/PhotoDoodle.git
cd PhotoDoodle
```
- 仮想環境を作成し、起動する：
```
conda create -n doodle python=3.11.10
conda activate doodle
```
依存関係のインストール
- PyTorchをインストールする（GPUを持っている場合はCUDAアクセラレーション版を推奨）：
```
pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124
```
- 他の依存関係をインストールします：
```
pip install --upgrade -r requirements.txt
```
- インストールが完了するまで待ち、ネットワークに問題がないことを確認する。
訓練済みモデルのダウンロード
- このプロジェクトは、手動でダウンロードする必要があるいくつかの訓練済みモデルを提供しています。モデルファイルをダウンロードするには、PhotoDoodleのGitHub ReleasesまたはHugging Face datasetページをご覧ください。 OmniEditor 歌で応える EditLoRA).
- ダウンロードしたモデルファイルをプロジェクトディレクトリの指定されたフォルダに置きます（パスの説明はREADMEを参照してください。 checkpoints/).
インストールの確認
- ターミナルでテスト・コマンド（READMEで提供されているサンプル・スクリプトなど）を実行し、エラーがないか確認します。エラーがなければ、インストールは成功です。

使用方法

PhotoDoodleのコア機能は、テキストコマンドによる写真の編集で、事前学習済みモデルの直接使用とカスタム学習の2つのシナリオで動作する。

学習済みモデルを使った写真の編集

写真を準備する
- 編集する写真を配置します。 source.jpg)の下のプロジェクト・ディレクトリに置く。 input/ フォルダを作成する（このフォルダが存在しない場合は、自分で作成する）。
editコマンドを実行する
- ターミナルに以下のコマンドを入力する（起動しているものとする）。 doodle (環境）：
```
python inference.py --source input/source.jpg --prompt "在照片上添加卡通风格的翅膀" --output output/result.jpg
```
- パラメータの説明
  - --sourceソース写真のパス。
  - --prompt追加したい要素を記述するテキスト指示文。
  - --output結果パスを出力する。
- 実行後、生成された結果は output/result.jpg.
結果を見る
- 見せる output/ フォルダで、生成された画像を確認してください。調整コマンド（「光と影の効果を加える」など）は、さまざまなスタイルを生成できます。

カスタムトレーニング・パーソナライズ・スタイル

ペアデータセットの準備
- を作成する。 .jsonl ファイル（例 dataset.jsonl)、1行に1組の画像と説明を記録する：
```
{"source": "path/to/source.jpg", "target": "path/to/modified.jpg", "caption": "添加蓝色光环"}
{"source": "path/to/source2.jpg", "target": "path/to/modified2.jpg", "caption": "增加卡通怪物"}
```
- 自分のスタイルのニーズを反映した画像を少なくとも5～10組用意する。
トレーニングスクリプトの実行
- そうしれいかん .jsonl ファイルをプロジェクト・ディレクトリにコピーして実行する：
```
python train.py --data dataset.jsonl --model OmniEditor --output_dir trained_model/
```
- トレーニングにかかる時間は、データ量とハードウェアの性能（GPUを推奨）に依存します。 trained_model/.
カスタムモデルによる編集
- 学習済みモデルを使用した推論：
```
python inference.py --source input/source.jpg --prompt "添加我的风格元素" --model trained_model/checkpoint.pth --output output/custom_result.jpg
```
- 出力をチェックし、期待に応えていることを確認する。

作業工程詳細

一括編集複数の画像を input/ フォルダーに追加するなど）、ループ処理に対応している。 --batch パラメーターの実装の詳細については、コード・コメントを参照のこと）。
調整効果ブレンドが自然でない場合は、キューに詳細を追加するか（「背景の照明と一致する」など）、モデルのパラメータを調整します（詳細は config/ (ドキュメンテーション）。
デバッグの問題もし何か問題が起きたら、Pythonのバージョンや依存関係をチェックするか、GitHub Issuesをチェックしてコミュニティの助けを借りましょう。

ほら

ハードウェア要件：GPU（NVIDIA CUDAサポートなど）がスピードの点で推奨される。
データ品質：入力画像の解像度が高ければ高いほど、より良い結果が得られる。
オンライン体験：一部の機能は、ローカルにインストールすることなく、Hugging Face Spacesを通じてオンラインでテストすることができます。

これらのステップを踏めば、簡単なトライアルから詳細なカスタマイズまで、PhotoDoodleを使って簡単に写真にアーティスティックな魅力を加えることができます。

Uthana - AI 3Dキャラクターアニメーション生成プラットフォーム、リアルなアニメーションを生成するためのテキスト説明やリファレンスビデオ

最新のAIリソース

9ヶ月前

044.2K

Llama OCR：利用免费Llama 3.2 Vision接口，三行代码将图像转换为Markdown的OCR库

Llama OCR: 3行のコードで画像をMarkdownに変換するOCRライブラリ。

1年前

055.7K

TreeGPT: ツリーベースの会話を可視化するAIチャットインターフェース

1年前

064.1K

Vanna: RAG技術を使ったテキストからの正確なSQLクエリの生成

1年前

062.3K

コメントなし

コメントに参加するにはログインが必要です！

今すぐログイン

コメントはありません

PhotoDoodle: テキストコマンドで写真にアーティスティックな落書きができるAIツール

はじめに

機能一覧