AIパーソナル・ラーニング
と実践的なガイダンス

X-ダイナ:静止画参考動画 ミッシーの写真を踊らせるポーズ生成動画

この記事は2025-01-23 00:44に更新されました。内容の一部は一刻を争うものですので、無効な場合はメッセージを残してください!

はじめに

X-Dynaは、ByteDance社によって開発されたオープンソースプロジェクトで、ゼロサンプル拡散技術によってダイナミックなポートレートアニメーションを生成します。x-Dynaは、参照画像のアピアランスコンテキストを拡散バックボーンネットワークの空間的注目にシームレスに統合するダイナミックアダプターモジュールを導入することで、ポートレートビデオアニメーションの鮮やかさとディテールを向上させます。

関連推薦StableAnimator:キャラクターの特徴を維持した高品質のビデオアニメーションを生成します。 そしてディスポーズ:人間の姿勢を精密に制御してビデオを生成し、踊る女性を作り出す そして


X-Dyna:ポートレート画像参照ビデオ ミッシーの写真を踊らせるジェスチャー生成ビデオ-1

 

 

機能一覧

  • ダイナミックポートレートアニメーション生成:ドライブビデオ内の表情や体の動きを使って、リアルなダイナミックポートレートアニメーションを生成します。
  • ゼロサンプル拡散技術:事前学習データなしで高品質のアニメーションを生成します。
  • ダイナミックアダプターモジュール:参照画像のコンテキストを統合し、アニメーションのディテールと鮮やかさを向上させます。
  • 顔の表情転送:正確な表情転送のためのローカル制御モジュールを介して顔の表情をキャプチャします。
  • 評価コード:アニメーションの品質を評価するためのさまざまな評価指標(DTFVD、Face-Cos、Face-Det、FIDなど)を提供する。
  • オープンソースのコードとモデル:推論コード一式と訓練済みモデルは、使いやすさと二次開発のために提供されています。

 

ヘルプの使用

設置プロセス

  1. クローン・プロジェクト・ウェアハウス
   git clone https://github.com/bytedance/X-Dyna.git
cd X-Dyna
  1. 依存関係をインストールします:
   pip install -r requirements.txt
  1. PyTorch 2.0の環境をインストールします:
   bash env_torch2_install.sh

使用方法

  1. 入力映像とドライブ映像を準備する:
    • 入力画像:1枚のポートレート画像。
    • ドライブビデオ:ターゲットの表情や体の動きを収めたビデオ。
  2. 推論コードを実行してアニメーションを生成する:
   python inference_xdyna.py --input_image path_to_image --driving_video path_to_video
  1. 生成されたアニメーションの品質を評価する:
    • 生成されたアニメーションの品質は、提供された評価コードとデータセットを用いて評価された。
   python evaluate.py --generated_video path_to_generated_video --metrics DTFVD,Face-Cos,Face-Det,FID

詳細な機能操作の流れ

  1. ダイナミックポートレートアニメーション生成::
    • 入力として静止ポートレート画像を選択します。
    • ターゲットの動きや表情が収録されたドライブビデオを選択する。
    • 推論コードを実行して、ダイナミックなポートレート・アニメーションを生成する。
  2. 表情の変化::
    • ローカルコントロールモジュールを使って、ドライブビデオに表情をキャプチャー。
    • キャプチャした表情を入力画像に転送し、正確な表情アニメーションを実現。
  3. ダイナミック・アダプター・モジュール::
    • ダイナミックアダプターモジュールは、参照画像の外観コンテキストを拡散バックボーンネットワークの空間的注目にシームレスに統合する。
    • こうすることで、生成されたアニメーションはよりディテールと鮮やかさを保つことができる。
  4. 評価コード::
    • 生成されたアニメーションの品質を評価するために、さまざまな評価指標(DTFVD、Face-Cos、Face-Det、FIDなど)が用意されている。
    • ユーザーは、これらのメトリクスに基づいて、生成されたアニメーションを十分に評価することができます。
  5. オープンソースのコードとモデリング::
    • このプロジェクトは、完全な推論コードと事前に訓練されたモデルを提供し、ユーザーは二次開発やカスタマイズされたアプリケーションに簡単に使用することができる。

よくある質問

  • アニメーションが滑らかでないを増やそうとする。num_mixまたは調整ディムステップ.
  • 表情の不一致の選択を確実にする。ベストフレームは、ドライブビデオの中で、ソース画像と最も表現が似ているフレームに対応する。

上級者向け。

  • パフォーマンスを最適化するLCMのLoRAモデルを用いることで、推論ステップ数を減らすことができ、生成速度を向上させることができる。
  • カスタムモデル特定のニーズがある場合は、READMEのガイダンスに従ってモデルを修正または拡張することができます。

これらのステップに従うことで、ユーザーはX-Dynaを使用して簡単に高品質なダイナミックポートレートアニメーションを生成し、生成されたアニメーションを十分に評価・最適化することができます。

無断転載を禁じます:チーフAIシェアリングサークル " X-ダイナ:静止画参考動画 ミッシーの写真を踊らせるポーズ生成動画

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語