X-ダイナ：静止画参考動画ミッシーの写真を踊らせるポーズ生成動画

1.4K 00

はじめに

X-Dynaは、ByteDance社によって開発されたオープンソースプロジェクトで、ゼロサンプル拡散技術によってダイナミックなポートレートアニメーションを生成します。x-Dynaは、参照画像のアピアランスコンテキストを拡散バックボーンネットワークの空間的注目にシームレスに統合するダイナミックアダプターモジュールを導入することで、ポートレートビデオアニメーションの鮮やかさとディテールを向上させます。

機能一覧

ダイナミックポートレートアニメーション生成：ドライブビデオ内の表情や体の動きを使って、リアルなダイナミックポートレートアニメーションを生成します。
ゼロサンプル拡散技術：事前学習データなしで高品質のアニメーションを生成します。
ダイナミックアダプターモジュール：参照画像のコンテキストを統合し、アニメーションのディテールと鮮やかさを向上させます。
顔の表情転送：正確な表情転送のためのローカル制御モジュールを介して顔の表情をキャプチャします。
評価コード：アニメーションの品質を評価するためのさまざまな評価指標（DTFVD、Face-Cos、Face-Det、FIDなど）を提供する。
オープンソースのコードとモデル：推論コード一式と訓練済みモデルは、使いやすさと二次開発のために提供されています。

ヘルプの使用

設置プロセス

クローン・プロジェクト・ウェアハウス

   git clone https://github.com/bytedance/X-Dyna.git
cd X-Dyna

依存関係をインストールします：

   pip install -r requirements.txt

PyTorch 2.0の環境をインストールします：

   bash env_torch2_install.sh

使用方法

入力映像とドライブ映像を準備する：
- 入力画像：1枚のポートレート画像。
- ドライブビデオ：ターゲットの表情や体の動きを収めたビデオ。
推論コードを実行してアニメーションを生成する：

   python inference_xdyna.py --input_image path_to_image --driving_video path_to_video

生成されたアニメーションの品質を評価する：
- 生成されたアニメーションの品質は、提供された評価コードとデータセットを用いて評価された。

   python evaluate.py --generated_video path_to_generated_video --metrics DTFVD,Face-Cos,Face-Det,FID

詳細な機能操作の流れ

ダイナミックポートレートアニメーション生成::
- 入力として静止ポートレート画像を選択します。
- ターゲットの動きや表情が収録されたドライブビデオを選択する。
- 推論コードを実行して、ダイナミックなポートレート・アニメーションを生成する。
表情の変化::
- ローカルコントロールモジュールを使って、ドライブビデオに表情をキャプチャー。
- キャプチャした表情を入力画像に転送し、正確な表情アニメーションを実現。
ダイナミック・アダプター・モジュール::
- ダイナミックアダプターモジュールは、参照画像の外観コンテキストを拡散バックボーンネットワークの空間的注目にシームレスに統合する。
- こうすることで、生成されたアニメーションはよりディテールと鮮やかさを保つことができる。
評価コード::
- 生成されたアニメーションの品質を評価するために、さまざまな評価指標（DTFVD、Face-Cos、Face-Det、FIDなど）が用意されている。
- ユーザーは、これらのメトリクスに基づいて、生成されたアニメーションを十分に評価することができます。
オープンソースのコードとモデリング::
- このプロジェクトは、完全な推論コードと事前に訓練されたモデルを提供し、ユーザーは二次開発やカスタマイズされたアプリケーションに簡単に使用することができる。