この記事は2025-01-14 20:33に更新されました。内容の一部は一刻を争うものですので、無効な場合はメッセージを残してください!
はじめに
ER-NeRF(Efficient Region-Aware Neural Radiance Fields)は、ICCV 2023で発表されたオープンソースの話し手合成システムです。このプロジェクトでは、Region-Aware Neural Radiance Fields技術を利用し、喋るキャラクターの忠実度の高い動画を効率的に生成します。このシステムの主な特徴は、キャラクターの頭部と胴体を別々にモデル化する領域化処理スキームと、より正確な唇の同期を可能にする革新的な音声空間分解技術です。このプロジェクトは、完全なトレーニングコードと推論コードを提供し、カスタムトレーニングビデオをサポートし、音声入力を処理するために異なる音声特徴抽出器(DeepSpeech、Wav2Vec、HuBERTなど)を使用することができます。本システムは、視覚的品質と計算効率の両方において大幅な改善を達成し、音声文字合成分野における重要な技術的ソリューションを提供する。
新プロジェクト:https://github.com/Fictionarry/TalkingGaussian
機能一覧
- トーキング・ヘッドの高忠実度ビデオ合成
- 領域知覚のための神経放射場レンダリング
- 頭部と胴体の別々のモデリングに対応
- 正確なリップ・シンクロ
- 複数の音声特徴抽出をサポート(DeepSpeech/Wav2Vec/HuBERT)
- カスタム・ビデオ・トレーニング・サポート
- 音声によるキャラクター・アニメーション生成
- ヘッドの動きをスムーズにコントロール
- ブリンクモーションのサポート(AU45の機能)
- LPIPS微調整最適化機能
ヘルプの使用
1.環境構成
システム動作環境の要件:
- Ubuntu 18.04 オペレーティングシステム
- PyTorch バージョン 1.12
- CUDA 11.3
インストールの手順
- conda環境を作成する:
conda create -n ernerf python=3.10
conda install pytorch==1.12.1 torchvision==0.13.1 cudatoolkit=11.3 -c pytorch
pip install -r requirements.txt
- 追加の依存関係をインストールします:
pip install "git+https://github.com/facebookresearch/pytorch3d.git"
pip install tensorflow-gpu==2.8.0
2.前処理モデルの準備
以下のモデルファイルをダウンロードし、準備する必要があります:
- 顔解析モデル
- 3DMM頭部姿勢推定モデル
- バーゼル・フェイス・モデル2009
3.ビデオトレーニングプロセスのカスタマイズ
- ビデオ準備の必要条件:
- フォーマット:MP4
- フレームレート:25FPS
- 解像度:512x512推奨
- 所要時間:1~5分
- 各フレームにトーキング・キャラクターが必要
- データの前処理:
python data_utils/process.py data//.mp4
- 音声特徴抽出(3つのうちの1つ):
- DeepSpeechの特徴抽出:
python data_utils/deepspeech_features/extract_ds_features.py --input data/.wav
- Wav2Vecの特徴抽出:
python data_utils/wav2vec.py --wav data/.wav --save_feats
- HuBERT特徴抽出(推奨):
python data_utils/hubert.py --wav data/.wav
4.モデルトレーニング
トレーニングは頭部トレーニングと体幹トレーニングの2段階に分けられる:
- ヘッドトレーニング
python main.py data/obama/ --workspace trial_obama/ -O --iters 100000
python main.py data/obama/ --workspace trial_obama/ -O --iters 125000 --finetune_lips --patch_size 32
- 体幹トレーニング:
python main.py data/obama/ --workspace trial_obama_torso/ -O ---torso --head_ckpt .pth --iters 200000
5.モデルのテストと推論
- テストモデルの効果:
# ヘッダのみレンダリング
python main.py data/obama/ --workspace trial_obama/ -O --test
# 頭部と胴体をレンダリングする
python main.py data/obama/ --workspace trial_obama_torso/ -O --torso --test
- ターゲット・オーディオを使った推論:
python main.py data/obama/ --workspace trial_obama_torso/ -O --torso --test --test_train --aud
ヒント:-smooth_pathパラメータを追加すると、ヘッドのジッターは減少するが、姿勢精度が低下する可能性がある。