この記事は2025-01-23 00:44に更新されました。内容の一部は一刻を争うものですので、無効な場合はメッセージを残してください!
はじめに
X-Dynaは、ByteDance社によって開発されたオープンソースプロジェクトで、ゼロサンプル拡散技術によってダイナミックなポートレートアニメーションを生成します。x-Dynaは、参照画像のアピアランスコンテキストを拡散バックボーンネットワークの空間的注目にシームレスに統合するダイナミックアダプターモジュールを導入することで、ポートレートビデオアニメーションの鮮やかさとディテールを向上させます。
関連推薦StableAnimator:キャラクターの特徴を維持した高品質のビデオアニメーションを生成します。 そしてディスポーズ:人間の姿勢を精密に制御してビデオを生成し、踊る女性を作り出す そして
機能一覧
- ダイナミックポートレートアニメーション生成:ドライブビデオ内の表情や体の動きを使って、リアルなダイナミックポートレートアニメーションを生成します。
- ゼロサンプル拡散技術:事前学習データなしで高品質のアニメーションを生成します。
- ダイナミックアダプターモジュール:参照画像のコンテキストを統合し、アニメーションのディテールと鮮やかさを向上させます。
- 顔の表情転送:正確な表情転送のためのローカル制御モジュールを介して顔の表情をキャプチャします。
- 評価コード:アニメーションの品質を評価するためのさまざまな評価指標(DTFVD、Face-Cos、Face-Det、FIDなど)を提供する。
- オープンソースのコードとモデル:推論コード一式と訓練済みモデルは、使いやすさと二次開発のために提供されています。
ヘルプの使用
設置プロセス
- クローン・プロジェクト・ウェアハウス
git clone https://github.com/bytedance/X-Dyna.git
cd X-Dyna
- 依存関係をインストールします:
pip install -r requirements.txt
- PyTorch 2.0の環境をインストールします:
bash env_torch2_install.sh
使用方法
- 入力映像とドライブ映像を準備する:
- 入力画像:1枚のポートレート画像。
- ドライブビデオ:ターゲットの表情や体の動きを収めたビデオ。
- 推論コードを実行してアニメーションを生成する:
python inference_xdyna.py --input_image path_to_image --driving_video path_to_video
- 生成されたアニメーションの品質を評価する:
- 生成されたアニメーションの品質は、提供された評価コードとデータセットを用いて評価された。
python evaluate.py --generated_video path_to_generated_video --metrics DTFVD,Face-Cos,Face-Det,FID
詳細な機能操作の流れ
- ダイナミックポートレートアニメーション生成::
- 入力として静止ポートレート画像を選択します。
- ターゲットの動きや表情が収録されたドライブビデオを選択する。
- 推論コードを実行して、ダイナミックなポートレート・アニメーションを生成する。
- 表情の変化::
- ローカルコントロールモジュールを使って、ドライブビデオに表情をキャプチャー。
- キャプチャした表情を入力画像に転送し、正確な表情アニメーションを実現。
- ダイナミック・アダプター・モジュール::
- ダイナミックアダプターモジュールは、参照画像の外観コンテキストを拡散バックボーンネットワークの空間的注目にシームレスに統合する。
- こうすることで、生成されたアニメーションはよりディテールと鮮やかさを保つことができる。
- 評価コード::
- 生成されたアニメーションの品質を評価するために、さまざまな評価指標(DTFVD、Face-Cos、Face-Det、FIDなど)が用意されている。
- ユーザーは、これらのメトリクスに基づいて、生成されたアニメーションを十分に評価することができます。
- オープンソースのコードとモデリング::
- このプロジェクトは、完全な推論コードと事前に訓練されたモデルを提供し、ユーザーは二次開発やカスタマイズされたアプリケーションに簡単に使用することができる。
よくある質問
- アニメーションが滑らかでないを増やそうとする。
num_mix
または調整ディムステップ
. - 表情の不一致の選択を確実にする。
ベストフレーム
は、ドライブビデオの中で、ソース画像と最も表現が似ているフレームに対応する。
上級者向け。
- パフォーマンスを最適化するLCMのLoRAモデルを用いることで、推論ステップ数を減らすことができ、生成速度を向上させることができる。
- カスタムモデル特定のニーズがある場合は、READMEのガイダンスに従ってモデルを修正または拡張することができます。
これらのステップに従うことで、ユーザーはX-Dynaを使用して簡単に高品質なダイナミックポートレートアニメーションを生成し、生成されたアニメーションを十分に評価・最適化することができます。