はじめに
GenXDは、シンガポール国立大学(NUS)とMicrosoftのチームによって開発されたオープンソースプロジェクトです。データ不足や複雑なモデル設計による実世界の3Dや4D生成の課題を解決し、任意の3Dや4Dシーンの生成に焦点を当てている。このプロジェクトでは、カメラとオブジェクトの動きを分析し、大規模な実データと組み合わせることで、柔軟な生成フレームワークを構築している。genXDは、3万本以上の動画から得たカメラのポーズと動きの情報を含む、初のオープンソース4Dデータセット「CamVid-30K」を提供している。ユーザーはこれを使用して、カメラの軌跡に一致するビデオや一貫した3Dビューを生成することができる。このプロジェクトは2025年1月にICLR 2025に採択され、研究者や開発者向けにGitHubで広くフォローされている。
機能一覧
- 任意の3Dシーンを生成し、複数の視点からの一貫した3Dビュー出力をサポートします。
- 4Dモーションシーンを生成して、時間と共に変化するビデオを作成。
- カメラとオブジェクトの動きを分解し、生成されたコンテンツの自然な流れを確保する。
- CamVid-30Kデータセットは、ダイナミックな3Dおよび4Dミッション研究をサポートするために利用可能です。
- 複数の条件入力(画像や少数のビューなど)をサポートし、生成結果を柔軟に調整。
- 3Dビューを編集可能なデジタル資産に変換します。
- 3Dおよび4Dデータフュージョンを最適化する統合マルチビュータイムモジュール。
ヘルプの使用
GenXDは研究用のオープンソースフレームワークであり、利用するにはローカルに環境を構築する必要があります。以下は、ユーザがすぐに使い始められるように、詳細なインストールと操作のガイドである。
設置プロセス
GenXDはプログラミング環境のサポートが必要であり、ある程度の技術的基礎があるユーザーに向いている。インストール手順は以下の通り:
- ベース環境の準備
- Python 3.10以降がコンピュータにインストールされていることを確認してください。
- コードをダウンロードするためにGitをインストールする。ターミナルで実行する:
git clone https://github.com/HeliosZhao/GenXD.git
- プロジェクト・カタログにアクセスする:
cd GenXD
- コアの依存関係をインストールする
- PyTorch(CUDAをサポートしたバージョン2.1.2を推奨)をインストールする。実行する:
pip install torch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 --index-url https://download.pytorch.org/whl/cu118
- その他の依存関係をインストールする(例:diffusers 0.30.3)。実行します:
pip install -r requirements.txt
- 万が一
requirements.txt
NumPy、OpenCV、その他のライブラリをインストールするには、公式の説明書を参照してください。
- PyTorch(CUDAをサポートしたバージョン2.1.2を推奨)をインストールする。実行する:
- 訓練済みモデルのダウンロード
- Hugging Faceからモデルをダウンロードする:
pip install -U "huggingface_hub[cli]" huggingface-cli download Yuyang-z/genxd --local-dir ./genxd-model
- モデルファイルをプロジェクトディレクトリの
genxd-model
フォルダー
- Hugging Faceからモデルをダウンロードする:
- データセットをダウンロード
- CamVid-30KデータセットはHugging Faceからダウンロードできる:
- VIPSegサブセットとOpenVidサブセットはhttps://huggingface.co/datasets/Yuyang-z/CamVid-30K。
- WebVid-10Mのサブセットは制限により利用できません。
- をダウンロードして解凍する。
data/camvid-30k
フォルダー
- CamVid-30KデータセットはHugging Faceからダウンロードできる:
- 環境のチェック
- NVIDIA GPUが動作していることを確認してください:
python -c "import torch; print(torch.cuda.is_available())"
輸出
True
正常な環境を示す。
- NVIDIA GPUが動作していることを確認してください:
主要機能の使用
GenXDは様々な生成タスクをサポートしており、その方法は以下の通りである。
1.画像をカスタマイズして3Dシーンを生成する
- 入場の準備画像(PNG または JPG フォーマット)を
example-images
フォルダー - カメラモードの設定サポート
forward
(フォワード)とorbit
(サラウンド)2つのモード。 - コマンド実行::
DATA_ROOT="example-images"
OUTPUT_DIR="outputs/example-images"
accelerate launch --main_process_port 1223 inference.py
diffusion.pretrain_unet="./genxd-model"
diffusion.output_dir="$OUTPUT_DIR"
+evaluator.data_name="static_cam_single"
+evaluator.data_root="$DATA_ROOT"
+evaluator.camera_info.mode="forward"
+evaluator.camera_info.elevation=0.
+evaluator.camera_info.azimuth_range=[-30,30]
+evaluator.focal=1.0938
+evaluator.camera_info.radius=2.0
- 結果表示生成されたマルチビュー3Dビューは
outputs/example-images
1つ目は、Blenderなどのツールでファイルを開くこと。
2.サンプルレス3Dシーン生成
- データの準備ReconFusionデータセット(https://huggingface.co/datasets/Yuyang-z/reconfusion-torch)をダウンロードし、それを
data/reconfusion-torch/re10k
. - ステップ1:カメラ軌道の生成::
python tools/pose_traj_generate.py -d data/reconfusion-torch/re10k -o outputs/pose_dataset --save_data_pose -sx 0.2 0.4 -0.2 -0.4 -sz 0.2 0.4 -0.2 -0.4 -n 18
- ステップ 2: ビューの生成::
accelerate launch --main_process_port 1224 inference.py
diffusion.pretrain_unet="./genxd-model"
diffusion.output_dir="outputs/re10k-group"
+evaluator.data_name="reconfgroup"
+evaluator.data_root="data/reconfusion-torch/re10k"
+evaluator.pose_dir="outputs/pose_dataset/re10k"
+evaluator.num_context_views=3
+evaluator.n_views=3
+evaluator.save_target_only=True
+evaluator.pad_to_square=True
- 結果表示生成された3Dビューは
outputs/re10k-group
.
3.4Dダイナミックシーンの生成
- データの準備CamVid-30Kデータセットのビデオを使用し、それを
data/camvid-30k
. - コマンド実行特定のタスクに応じてパラメータを調整する必要があります。コマンドの例については、GitHubのアップデートを参照してください。
- 結果表示生成されたビデオは、指定された出力ディレクトリに保存されます。
注目の機能操作
カメラと物体の動きを分解する
- GenXDはマルチビュータイムモジュールを使ってカメラとオブジェクトの動きを分離する。
- 実行例::
python motion_decompose.py --input data/camvid-30k/sample_video --output outputs/motion_data
- 使用生成されたモーションデータは、4Dシーンの調整に使用できる。
CamVid-30Kデータセットの使用
- データ構造解凍すると、画像とCOLMAPファイルが含まれます。
cameras.bin
). - 負荷データ入れる
data/camvid-30k
テストスクリプトを実行する:
python test_dataset.py --dataset data/camvid-30k
ほら
- GPUメモリは16GB以上必要で、4Dタスクの生成には時間がかかる。
- 訓練済みモデルの2025年3月26日公式リリースの最新コードアップデートをご確認ください。
- ご質問はまで。
アプリケーションシナリオ
- 研究実験
- 研究者たちはGenXDを使って3Dと4Dの生成アルゴリズムをテストし、新しいモデルを検証した。
- バーチャル・コンテンツ制作
- クリエイターは、アニメーションやバーチャルリアリティプロジェクトで使用するダイナミックなシーンを生成する。
- 教育とトレーニング
- 学生はCamVid-30Kデータセットを使ってコンピュータビジョンとジェネレーティブ技術を学びます。
品質保証
- GenXDは無料ですか?
- はい、Apache-2.0ライセンスのオープンソースプロジェクトです。
- 使用するにはインターネット接続が必要ですか?
- インストールは不要で、ローカルで実行できる。
- 生成された結果は本物か?
- この模型は完全なリアリズムを実現したものではなく、あくまで研究用である。