AIパーソナル・ラーニング
と実践的なガイダンス
ビーンバッグ・マースコード1

GenXD: 任意の3Dおよび4Dシーンのビデオを生成するためのオープンソースフレームワーク

はじめに

GenXDは、シンガポール国立大学(NUS)とMicrosoftのチームによって開発されたオープンソースプロジェクトです。データ不足や複雑なモデル設計による実世界の3Dや4D生成の課題を解決し、任意の3Dや4Dシーンの生成に焦点を当てている。このプロジェクトでは、カメラとオブジェクトの動きを分析し、大規模な実データと組み合わせることで、柔軟な生成フレームワークを構築している。genXDは、3万本以上の動画から得たカメラのポーズと動きの情報を含む、初のオープンソース4Dデータセット「CamVid-30K」を提供している。ユーザーはこれを使用して、カメラの軌跡に一致するビデオや一貫した3Dビューを生成することができる。このプロジェクトは2025年1月にICLR 2025に採択され、研究者や開発者向けにGitHubで広くフォローされている。

GenXD: 任意の3D・4Dシーンの動画を生成するオープンソース・フレームワーク-1


 

機能一覧

  • 任意の3Dシーンを生成し、複数の視点からの一貫した3Dビュー出力をサポートします。
  • 4Dモーションシーンを生成して、時間と共に変化するビデオを作成。
  • カメラとオブジェクトの動きを分解し、生成されたコンテンツの自然な流れを確保する。
  • CamVid-30Kデータセットは、ダイナミックな3Dおよび4Dミッション研究をサポートするために利用可能です。
  • 複数の条件入力(画像や少数のビューなど)をサポートし、生成結果を柔軟に調整。
  • 3Dビューを編集可能なデジタル資産に変換します。
  • 3Dおよび4Dデータフュージョンを最適化する統合マルチビュータイムモジュール。

 

ヘルプの使用

GenXDは研究用のオープンソースフレームワークであり、利用するにはローカルに環境を構築する必要があります。以下は、ユーザがすぐに使い始められるように、詳細なインストールと操作のガイドである。

設置プロセス

GenXDはプログラミング環境のサポートが必要であり、ある程度の技術的基礎があるユーザーに向いている。インストール手順は以下の通り:

  1. ベース環境の準備
    • Python 3.10以降がコンピュータにインストールされていることを確認してください。
    • コードをダウンロードするためにGitをインストールする。ターミナルで実行する:
      git clone https://github.com/HeliosZhao/GenXD.git
      
    • プロジェクト・カタログにアクセスする:
      cd GenXD
      
  2. コアの依存関係をインストールする
    • PyTorch(CUDAをサポートしたバージョン2.1.2を推奨)をインストールする。実行する:
      pip install torch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 --index-url https://download.pytorch.org/whl/cu118
      
    • その他の依存関係をインストールする(例:diffusers 0.30.3)。実行します:
      pip install -r requirements.txt
      
    • 万が一 requirements.txt NumPy、OpenCV、その他のライブラリをインストールするには、公式の説明書を参照してください。
  3. 訓練済みモデルのダウンロード
    • Hugging Faceからモデルをダウンロードする:
      pip install -U "huggingface_hub[cli]"
      huggingface-cli download Yuyang-z/genxd --local-dir ./genxd-model
      
    • モデルファイルをプロジェクトディレクトリの genxd-model フォルダー
  4. データセットをダウンロード
    • CamVid-30KデータセットはHugging Faceからダウンロードできる:
      • VIPSegサブセットとOpenVidサブセットはhttps://huggingface.co/datasets/Yuyang-z/CamVid-30K。
      • WebVid-10Mのサブセットは制限により利用できません。
    • をダウンロードして解凍する。 data/camvid-30k フォルダー
  5. 環境のチェック
    • NVIDIA GPUが動作していることを確認してください:
      python -c "import torch; print(torch.cuda.is_available())"
      

      輸出 True 正常な環境を示す。

主要機能の使用

GenXDは様々な生成タスクをサポートしており、その方法は以下の通りである。

1.画像をカスタマイズして3Dシーンを生成する

  • 入場の準備画像(PNG または JPG フォーマット)を example-images フォルダー
  • カメラモードの設定サポート forward(フォワード)と orbit(サラウンド)2つのモード。
  • コマンド実行::
DATA_ROOT="example-images"
OUTPUT_DIR="outputs/example-images"
accelerate launch --main_process_port 1223 inference.py 
diffusion.pretrain_unet="./genxd-model" 
diffusion.output_dir="$OUTPUT_DIR" 
+evaluator.data_name="static_cam_single" 
+evaluator.data_root="$DATA_ROOT" 
+evaluator.camera_info.mode="forward" 
+evaluator.camera_info.elevation=0. 
+evaluator.camera_info.azimuth_range=[-30,30] 
+evaluator.focal=1.0938 
+evaluator.camera_info.radius=2.0
  • 結果表示生成されたマルチビュー3Dビューは outputs/example-images1つ目は、Blenderなどのツールでファイルを開くこと。

2.サンプルレス3Dシーン生成

  • データの準備ReconFusionデータセット(https://huggingface.co/datasets/Yuyang-z/reconfusion-torch)をダウンロードし、それを data/reconfusion-torch/re10k.
  • ステップ1:カメラ軌道の生成::
python tools/pose_traj_generate.py -d data/reconfusion-torch/re10k -o outputs/pose_dataset --save_data_pose -sx 0.2 0.4 -0.2 -0.4 -sz 0.2 0.4 -0.2 -0.4 -n 18
  • ステップ 2: ビューの生成::
accelerate launch --main_process_port 1224 inference.py 
diffusion.pretrain_unet="./genxd-model" 
diffusion.output_dir="outputs/re10k-group" 
+evaluator.data_name="reconfgroup" 
+evaluator.data_root="data/reconfusion-torch/re10k" 
+evaluator.pose_dir="outputs/pose_dataset/re10k" 
+evaluator.num_context_views=3 
+evaluator.n_views=3 
+evaluator.save_target_only=True 
+evaluator.pad_to_square=True
  • 結果表示生成された3Dビューは outputs/re10k-group.

3.4Dダイナミックシーンの生成

  • データの準備CamVid-30Kデータセットのビデオを使用し、それを data/camvid-30k.
  • コマンド実行特定のタスクに応じてパラメータを調整する必要があります。コマンドの例については、GitHubのアップデートを参照してください。
  • 結果表示生成されたビデオは、指定された出力ディレクトリに保存されます。

注目の機能操作

カメラと物体の動きを分解する

  • GenXDはマルチビュータイムモジュールを使ってカメラとオブジェクトの動きを分離する。
  • 実行例::
python motion_decompose.py --input data/camvid-30k/sample_video --output outputs/motion_data
  • 使用生成されたモーションデータは、4Dシーンの調整に使用できる。

CamVid-30Kデータセットの使用

  • データ構造解凍すると、画像とCOLMAPファイルが含まれます。 cameras.bin).
  • 負荷データ入れる data/camvid-30kテストスクリプトを実行する:
python test_dataset.py --dataset data/camvid-30k

ほら

  • GPUメモリは16GB以上必要で、4Dタスクの生成には時間がかかる。
  • 訓練済みモデルの2025年3月26日公式リリースの最新コードアップデートをご確認ください。
  • ご質問はまで。

 

アプリケーションシナリオ

  1. 研究実験
  • 研究者たちはGenXDを使って3Dと4Dの生成アルゴリズムをテストし、新しいモデルを検証した。
  1. バーチャル・コンテンツ制作
  • クリエイターは、アニメーションやバーチャルリアリティプロジェクトで使用するダイナミックなシーンを生成する。
  1. 教育とトレーニング
  • 学生はCamVid-30Kデータセットを使ってコンピュータビジョンとジェネレーティブ技術を学びます。

 

品質保証

  1. GenXDは無料ですか?
  • はい、Apache-2.0ライセンスのオープンソースプロジェクトです。
  1. 使用するにはインターネット接続が必要ですか?
  • インストールは不要で、ローカルで実行できる。
  1. 生成された結果は本物か?
  • この模型は完全なリアリズムを実現したものではなく、あくまで研究用である。
無断転載を禁じます:チーフAIシェアリングサークル " GenXD: 任意の3Dおよび4Dシーンのビデオを生成するためのオープンソースフレームワーク
ja日本語