はじめに
PSHumanは、マルチビュー拡散技術に基づいた単一画像の3D肖像画再構築ツールです。PSHumanのコア技術には、クロススケール・マルチビュー拡散が含まれており、短時間で高品質の3D肖像画を生成することができます。pengHTYXチームによって開発されたこのプロジェクトは、効率的で使いやすい3Dポートレートモデリングソリューションをユーザーに提供することを目指しています。
機能一覧
- 単一画像の3Dポートレート再構築:単一のポートレート写真から詳細な3Dモデルを生成します。
- マルチビュー拡散:クロススケールのマルチビュー拡散を使用して、高品質の3Dポートレートを生成します。
- SMPLフリーバージョン:SMPL条件なしのマルチビュー生成で、一般的なポーズポートレートに適しています。
- 背景の除去:Clipdropまたはrembgツールを使って背景を除去することをサポートします。
- 構造化された出力:生成された3Dモデルやレンダリングされたビデオは、構造化されたファイルとして保存され、閲覧や共有が簡単に行えます。
ヘルプの使用
設置プロセス
- 仮想環境を作成し、依存関係をインストールする:
$ conda create -n pshuman python=3.10 $ conda activate pshuman $ pip install torch==2.1.0 torchvision==0.16.0 torchaudio==2.1.0 --index-url https://download.pytorch.org/whl/cu121 $ pip install kaolin==0.17.0 -f https://nvidia-kaolin.s3.us-east-2.amazonaws.com/torch-2.1.0_cu121.html $ pip install -r requirements.txt
- 関連モデルを設定する:
- ECONとSIFU関連のモデルをダウンロードし、プロジェクトに再編成する。
使用プロセス
- バックグラウンド除去Clipdropまたはrembgツールを使ってポートレート写真の背景を削除します。rembgツールの場合は、以下のスクリプトを実行します:
$ python utils/remove_bg.py --path $DATA_PATH$
生成されたRGBA画像を カタログ
- 走り推理inference.pyスクリプトを実行してテクスチャメッシュを生成し、ビデオをレンダリングします:
$ CUDA_VISIBLE_DEVICES=$GPU python inference.py --configs/inference-768-6view.yaml ˶='pengHTYX' preprained_model_name_or_path='pengHTYX/PSHuman_Unclip_768_6views'◆検証データセット(validation_dataset.crop) validation_dataset.crop_size=740㎤。 with_smpl=false validation_dataset.root_dir=$DATA_PATH$୧⃛(๑⃙⃘⁼̴̀꒳⁼̴́๑⃙⃘) seed=600 num_views=7 save_mode='rgb'
- 調整パラメータークロップサイズ(720または740)とシード(42または600)は、最良の結果が得られるように必要に応じて調整してください。
主な機能
- 単一画像の3Dポートレート再構成ユーザーが顔写真を提供すると、システムが自動的に詳細な3Dモデルを生成します。
- マルチビュー拡散技術クロススケール・マルチビュー拡散技術を用いた高品質な3Dポートレートの生成。
- バックグラウンド除去Clipdropまたはrembgツールによる背景除去をサポート。
- 構造化出力生成された3Dモデルやレンダリングされた動画は、構造化されたファイルとして保存されるため、閲覧や共有が容易です。
詳しい操作手順
- ポートレート写真の提供ポートレート写真を提供し、背景除去ツールで処理する。
- 推論スクリプトの実行: inference.pyスクリプトを実行して3Dモデルを生成し、ビデオをレンダリングします。
- 調整パラメーター最良の結果が得られるように、推論スクリプトのパラメーターを適宜調整してください。
- 表示と共有生成された3Dモデルやレンダリングされた動画は、構造化されたファイルとして保存され、ユーザーが直接閲覧・共有することができます。