GenXD：任意の3D・4Dシーンの動画を生成するオープンソースフレームワーク

中国初のAI IDE インテリジェント・プログラミング・ソフトウェア 🚀体験への招待 Trae 中国語版ダウンロードDeepSeek-R1とDoubao-proは無制限で利用できる！

はじめに

GenXDは、シンガポール国立大学（NUS）とMicrosoftのチームによって開発されたオープンソースプロジェクトです。データ不足や複雑なモデル設計による実世界の3Dや4D生成の課題を解決し、任意の3Dや4Dシーンの生成に焦点を当てている。このプロジェクトでは、カメラとオブジェクトの動きを分析し、大規模な実データと組み合わせることで、柔軟な生成フレームワークを構築している。genXDは、3万本以上の動画から得たカメラのポーズと動きの情報を含む、初のオープンソース4Dデータセット「CamVid-30K」を提供している。ユーザーはこれを使用して、カメラの軌跡に一致するビデオや一貫した3Dビューを生成することができる。このプロジェクトは2025年1月にICLR 2025に採択され、研究者や開発者向けにGitHubで広くフォローされている。

GenXD: 任意の3D・4Dシーンの動画を生成するオープンソース・フレームワーク-1

機能一覧

任意の3Dシーンを生成し、複数の視点からの一貫した3Dビュー出力をサポートします。
4Dモーションシーンを生成して、時間と共に変化するビデオを作成。
カメラとオブジェクトの動きを分解し、生成されたコンテンツの自然な流れを確保する。
CamVid-30Kデータセットは、ダイナミックな3Dおよび4Dミッション研究をサポートするために利用可能です。
複数の条件入力（画像や少数のビューなど）をサポートし、生成結果を柔軟に調整。
3Dビューを編集可能なデジタル資産に変換します。
3Dおよび4Dデータフュージョンを最適化する統合マルチビュータイムモジュール。

ヘルプの使用

GenXDは研究用のオープンソースフレームワークであり、利用するにはローカルに環境を構築する必要があります。以下は、ユーザがすぐに使い始められるように、詳細なインストールと操作のガイドである。

設置プロセス

GenXDはプログラミング環境のサポートが必要であり、ある程度の技術的基礎があるユーザーに向いている。インストール手順は以下の通り：

ベース環境の準備
- Python 3.10以降がコンピュータにインストールされていることを確認してください。
- コードをダウンロードするためにGitをインストールする。ターミナルで実行する：
```
git clone https://github.com/HeliosZhao/GenXD.git
```
- プロジェクト・カタログにアクセスする：
```
cd GenXD
```
コアの依存関係をインストールする
- PyTorch（CUDAをサポートしたバージョン2.1.2を推奨）をインストールする。実行する：
```
pip install torch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 --index-url https://download.pytorch.org/whl/cu118
```
- その他の依存関係をインストールする（例：diffusers 0.30.3）。実行します：
```
pip install -r requirements.txt
```
- 万が一 requirements.txt NumPy、OpenCV、その他のライブラリをインストールするには、公式の説明書を参照してください。
訓練済みモデルのダウンロード
- Hugging Faceからモデルをダウンロードする：
```
pip install -U "huggingface_hub[cli]"
huggingface-cli download Yuyang-z/genxd --local-dir ./genxd-model
```
- モデルファイルをプロジェクトディレクトリの genxd-model フォルダー
データセットをダウンロード
- CamVid-30KデータセットはHugging Faceからダウンロードできる：
  - VIPSegサブセットとOpenVidサブセットはhttps://huggingface.co/datasets/Yuyang-z/CamVid-30K。
  - WebVid-10Mのサブセットは制限により利用できません。
- をダウンロードして解凍する。 data/camvid-30k フォルダー
環境のチェック
- NVIDIA GPUが動作していることを確認してください：
```
python -c "import torch; print(torch.cuda.is_available())"
```
  輸出 True 正常な環境を示す。

主要機能の使用

GenXDは様々な生成タスクをサポートしており、その方法は以下の通りである。

1.画像をカスタマイズして3Dシーンを生成する

入場の準備画像（PNG または JPG フォーマット）を example-images フォルダー
カメラモードの設定サポート forward(フォワード）と orbit(サラウンド）2つのモード。
コマンド実行::

DATA_ROOT="example-images"
OUTPUT_DIR="outputs/example-images"
accelerate launch --main_process_port 1223 inference.py 
diffusion.pretrain_unet="./genxd-model" 
diffusion.output_dir="$OUTPUT_DIR" 
+evaluator.data_name="static_cam_single" 
+evaluator.data_root="$DATA_ROOT" 
+evaluator.camera_info.mode="forward" 
+evaluator.camera_info.elevation=0. 
+evaluator.camera_info.azimuth_range=[-30,30] 
+evaluator.focal=1.0938 
+evaluator.camera_info.radius=2.0

結果表示生成されたマルチビュー3Dビューは outputs/example-images1つ目は、Blenderなどのツールでファイルを開くこと。

2.サンプルレス3Dシーン生成

データの準備ReconFusionデータセット(https://huggingface.co/datasets/Yuyang-z/reconfusion-torch)をダウンロードし、それを data/reconfusion-torch/re10k.
ステップ1：カメラ軌道の生成::

python tools/pose_traj_generate.py -d data/reconfusion-torch/re10k -o outputs/pose_dataset --save_data_pose -sx 0.2 0.4 -0.2 -0.4 -sz 0.2 0.4 -0.2 -0.4 -n 18

ステップ 2: ビューの生成::

accelerate launch --main_process_port 1224 inference.py 
diffusion.pretrain_unet="./genxd-model" 
diffusion.output_dir="outputs/re10k-group" 
+evaluator.data_name="reconfgroup" 
+evaluator.data_root="data/reconfusion-torch/re10k" 
+evaluator.pose_dir="outputs/pose_dataset/re10k" 
+evaluator.num_context_views=3 
+evaluator.n_views=3 
+evaluator.save_target_only=True 
+evaluator.pad_to_square=True

結果表示生成された3Dビューは outputs/re10k-group.

3.4Dダイナミックシーンの生成

データの準備CamVid-30Kデータセットのビデオを使用し、それを data/camvid-30k.
コマンド実行特定のタスクに応じてパラメータを調整する必要があります。コマンドの例については、GitHubのアップデートを参照してください。
結果表示生成されたビデオは、指定された出力ディレクトリに保存されます。

注目の機能操作

カメラと物体の動きを分解する

GenXDはマルチビュータイムモジュールを使ってカメラとオブジェクトの動きを分離する。
実行例::

python motion_decompose.py --input data/camvid-30k/sample_video --output outputs/motion_data

使用生成されたモーションデータは、4Dシーンの調整に使用できる。

CamVid-30Kデータセットの使用

データ構造解凍すると、画像とCOLMAPファイルが含まれます。 cameras.bin).
負荷データ入れる data/camvid-30kテストスクリプトを実行する：

python test_dataset.py --dataset data/camvid-30k

ほら

GPUメモリは16GB以上必要で、4Dタスクの生成には時間がかかる。
訓練済みモデルの2025年3月26日公式リリースの最新コードアップデートをご確認ください。
ご質問はまで。

アプリケーションシナリオ

研究実験

研究者たちはGenXDを使って3Dと4Dの生成アルゴリズムをテストし、新しいモデルを検証した。

バーチャル・コンテンツ制作

クリエイターは、アニメーションやバーチャルリアリティプロジェクトで使用するダイナミックなシーンを生成する。

教育とトレーニング

学生はCamVid-30Kデータセットを使ってコンピュータビジョンとジェネレーティブ技術を学びます。

品質保証

GenXDは無料ですか？

はい、Apache-2.0ライセンスのオープンソースプロジェクトです。

使用するにはインターネット接続が必要ですか？

インストールは不要で、ローカルで実行できる。

生成された結果は本物か？

この模型は完全なリアリズムを実現したものではなく、あくまで研究用である。

GenXD: 任意の3Dおよび4Dシーンのビデオを生成するためのオープンソースフレームワーク

はじめに

機能一覧

ヘルプの使用

設置プロセス

主要機能の使用

1.画像をカスタマイズして3Dシーンを生成する

2.サンプルレス3Dシーン生成

3.4Dダイナミックシーンの生成

注目の機能操作

カメラと物体の動きを分解する

CamVid-30Kデータセットの使用

ほら

アプリケーションシナリオ

品質保証

関連記事

おすすめ

AIツールが見つからない？こちらをお試しください！

FLUX.1イメージジェネレーター（中国語入力対応）

最近のAIホットスポット

AIツールのススメ

AIツールの分類