AIパーソナル・ラーニング
と実践的なガイダンス

ER NeRF:トーキングヘッド用高忠実度ビデオ合成システムの構築

この記事は2025-01-14 20:33に更新されました。内容の一部は一刻を争うものですので、無効な場合はメッセージを残してください!

はじめに

ER-NeRF(Efficient Region-Aware Neural Radiance Fields)は、ICCV 2023で発表されたオープンソースの話し手合成システムです。このプロジェクトでは、Region-Aware Neural Radiance Fields技術を利用し、喋るキャラクターの忠実度の高い動画を効率的に生成します。このシステムの主な特徴は、キャラクターの頭部と胴体を別々にモデル化する領域化処理スキームと、より正確な唇の同期を可能にする革新的な音声空間分解技術です。このプロジェクトは、完全なトレーニングコードと推論コードを提供し、カスタムトレーニングビデオをサポートし、音声入力を処理するために異なる音声特徴抽出器(DeepSpeech、Wav2Vec、HuBERTなど)を使用することができます。本システムは、視覚的品質と計算効率の両方において大幅な改善を達成し、音声文字合成分野における重要な技術的ソリューションを提供する。

新プロジェクト:https://github.com/Fictionarry/TalkingGaussian


ER NeRF: 高忠実度メトロポリス1による話し手用映像合成システムの構築

 

機能一覧

  • トーキング・ヘッドの高忠実度ビデオ合成
  • 領域知覚のための神経放射場レンダリング
  • 頭部と胴体の別々のモデリングに対応
  • 正確なリップ・シンクロ
  • 複数の音声特徴抽出をサポート(DeepSpeech/Wav2Vec/HuBERT)
  • カスタム・ビデオ・トレーニング・サポート
  • 音声によるキャラクター・アニメーション生成
  • ヘッドの動きをスムーズにコントロール
  • ブリンクモーションのサポート(AU45の機能)
  • LPIPS微調整最適化機能

 

ヘルプの使用

1.環境構成

システム動作環境の要件:

  • Ubuntu 18.04 オペレーティングシステム
  • PyTorch バージョン 1.12
  • CUDA 11.3
    インストールの手順
  1. conda環境を作成する:
conda create -n ernerf python=3.10
conda install pytorch==1.12.1 torchvision==0.13.1 cudatoolkit=11.3 -c pytorch
pip install -r requirements.txt
  1. 追加の依存関係をインストールします:
pip install "git+https://github.com/facebookresearch/pytorch3d.git"
pip install tensorflow-gpu==2.8.0

2.前処理モデルの準備

以下のモデルファイルをダウンロードし、準備する必要があります:

  • 顔解析モデル
  • 3DMM頭部姿勢推定モデル
  • バーゼル・フェイス・モデル2009

3.ビデオトレーニングプロセスのカスタマイズ

  1. ビデオ準備の必要条件:
    • フォーマット:MP4
    • フレームレート:25FPS
    • 解像度:512x512推奨
    • 所要時間:1~5分
    • 各フレームにトーキング・キャラクターが必要
  2. データの前処理:
python data_utils/process.py data//.mp4
  1. 音声特徴抽出(3つのうちの1つ):
  • DeepSpeechの特徴抽出:
python data_utils/deepspeech_features/extract_ds_features.py --input data/.wav
  • Wav2Vecの特徴抽出:
python data_utils/wav2vec.py --wav data/.wav --save_feats
  • HuBERT特徴抽出(推奨):
python data_utils/hubert.py --wav data/.wav

4.モデルトレーニング

トレーニングは頭部トレーニングと体幹トレーニングの2段階に分けられる:

  1. ヘッドトレーニング
python main.py data/obama/ --workspace trial_obama/ -O --iters 100000
python main.py data/obama/ --workspace trial_obama/ -O --iters 125000 --finetune_lips --patch_size 32
  1. 体幹トレーニング:
python main.py data/obama/ --workspace trial_obama_torso/ -O ---torso --head_ckpt .pth --iters 200000

5.モデルのテストと推論

  1. テストモデルの効果:
# ヘッダのみレンダリング
python main.py data/obama/ --workspace trial_obama/ -O --test
# 頭部と胴体をレンダリングする
python main.py data/obama/ --workspace trial_obama_torso/ -O --torso --test
  1. ターゲット・オーディオを使った推論:
python main.py data/obama/ --workspace trial_obama_torso/ -O --torso --test --test_train --aud 

ヒント:-smooth_pathパラメータを追加すると、ヘッドのジッターは減少するが、姿勢精度が低下する可能性がある。

無断転載を禁じます:チーフAIシェアリングサークル " ER NeRF:トーキングヘッド用高忠実度ビデオ合成システムの構築

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語