はじめに
PiT(Piece it Together)はGitHubでホストされているオープンソースのツールで、テルアビブ大学のエラッド・リチャードソンなどの研究者によって開発された。PiTは、テキストによる説明を不要にし、画像のパーツを入力として使用し、事前に訓練されたモデルであるIP-Priorに依存して、欠けている部分を補い、最終的にSDXLを介して結果をレンダリングする。このツールは、ビジュアルデザイナーや研究者が創造的なアイデアを素早く組み合わせるのに適しています。2025年3月25日現在のPiTの最新のコードと説明は、GitHubでご覧いただけます。
機能一覧
- ジグソーパズル断片化された画像を入力し、完全な画像を生成する。
- 細部へのこだわり補色画像は、部品の特性によって一貫性を保ちます。
- 純粋画像入力テキストプロンプトは必要なく、写真だけで操作できる。
- 複数の結果さまざまなパーツ数をサポートし、幅広いイメージを生成します。
- オープンソースプロジェクト: コードはGitHubで公開されており、自由にダウンロードして改変することができる。
- 利用可能なスタイルIP-LoRA調整による特定スタイル画像の生成に対応。
- 領域適応異なるIP-Priorモデルを使用して、特定のトピックに適した画像を生成することができます。
ヘルプの使用
PiTは、GitHubで公開されている、基本的なプログラミングスキルを持つユーザー向けのオープンソースプロジェクトです。ここでは、PiTをすぐに使い始めるための詳しいインストール方法と使用方法を説明します。
設置プロセス
- 環境を整える
- お使いのコンピュータにPython 3.8以上がインストールされていることを確認してください。
- Gitのインストール(Windows
git-scm.com
ダウンロード、Mac/Linux入力git --version
(チェック)。 - GPU(例えばCUDAを搭載したNVIDIAグラフィックカード)を搭載したデバイスを使用することで、生成を高速化することをお勧めします。GPUなしでも使用できますが、速度が遅くなります。
- ダウンロードコード
- ターミナルまたはコマンドラインを開く。
- PiTをダウンロードするコマンドを入力します:
git clone https://github.com/eladrich/PiT.git
- プロジェクトフォルダーに移動する:
cd PiT
- 依存関係のインストール
- このプロジェクトには、次のようなPythonライブラリが必要です。
torch
そしてnumpy
リストは以下にある。requirements.txt
真ん中だ。 - インストールするコマンドを実行する:
pip install -r requirements.txt
- このファイルがない場合は、READMEを参照してインストールしてください。
diffusers
そしてtransformers
その他
- このプロジェクトには、次のようなPythonライブラリが必要です。
- モデルの入手
- PiTはIP-PriorとIP-Adapter+モデルに依存している。ダウンロード・リンクはGitHubまたは論文(https://arxiv.org/abs/2503.10365)にある。
- 指定されたディレクトリにモデルを配置する(例えば
models/
)、パスはREADMEを見る。
- SDXLのインストール
- PiTはSDXLで画像をレンダリングします。インストール
diffusers
::pip install diffusers
- Hugging FaceからSDXLモデルをダウンロードし、ローカルに保存します。
- PiTはSDXLで画像をレンダリングします。インストール
使用方法
- 部品の準備
- 画像パーツ(耳やロゴなど)は、背景がきれいなPNG形式で収集することを推奨します。
- プロジェクトの入力フォルダーに(例えば
input/
).
- ランニングプログラム
- ターミナルに PiT ディレクトリを入力します。
- スクリプトを実行する。
generate.py
(詳細はREADMEを参照):python generate.py --input_dir input/ --output_dir output/
- パラメータの説明
--input_dir
パーツフォルダー--output_dir
結果はフォルダに保存されます。
- このプログラムは、その部分を含む完全な画像を生成する。
- 画像を見る
- 生成後
output/
フォルダービュー - 満足できない場合は、パーツを追加するか、クリア画像を変更してください。
- 生成後
注目の機能操作
- 部品点数
1つ以上のパーツを入力することができる。例えば、「前足」と「尻尾」を入力すると、完全な動物になります。パーツのスタイルは同じにしたほうがよい。 - スタイリング
IP-LoRAでスタイルキューを追加できます。例python generate.py --input_dir input/ --output_dir output/ --prompt "卡通风格"
そして、漫画のような画像を生成することができる。
- (可換領域モデル
PiTは、さまざまなIP-Priorモデル(おもちゃや生き物など)に対応しています。切り替え時に対応するモデルファイルが読み込まれます。操作方法はREADMEを参照してください。 - 最適化の結果
画像が不鮮明な場合は、その部分がクリアかどうかを確認するか、パラメータを追加する:python generate.py --input_dir input/ --steps 50
ほら
- パーツは明瞭であるべきで、小さすぎたりごちゃごちゃしていたりしてはならない。
- 最初の走行は遅く、その後の走行は速くなる。
- エラーが発生した場合は、プロンプトに従って不足しているライブラリをインストールする。
PiTを使った完成イメージの作り方です。操作はプログラミングが必要ですが、手順は簡単です。
アプリケーションシナリオ
- デザイン・インスピレーション
デザイナーは、パーツ(翼や帽子など)を入力することで、完全なキャラクターを構成し、素早くアイデアを試すことができる。 - 製品コンセプト
開発者は、パーツ(ボタンや図形など)を使って新しい製品イメージを生成し、デザインの方向性を探る。 - テクニカル・ラーニング
研究者たちはPiTを使って、画像生成の原理を理解するために、AIが部品からどのようにパズルを作ることができるかをテストした。
品質保証
- PiTと他のツールの違いは?
PiTは、ビジュアル制作に適した、テキストなしの画像パーツによるダイレクトジグソーパズルです。 - モデルのトレーニングは必要ですか?
その必要はない。事前に訓練された公式のモデルもあるが、自分で訓練して調整することもできる。 - 生成は速いか?
デバイスによっては数秒から数分かかる。