はじめに
DH_liveは、サンプルレス学習に基づくリアルタイム・ライブ・デジタル・ヒューマン・プロジェクトであり、スムーズでインタラクティブなライブ・ストリーミング体験をユーザーに提供することを目的としている。このプロジェクトは、NVIDIA 30および40シリーズのグラフィックカードをサポートし、25fps以上のリアルタイム動作が可能です。ユーザーは簡単なステップでデジタル・ヒューマンを作成・使用でき、オーディオ主導のビデオ生成とリアルタイムのインタラクションが可能です。
機能一覧
- リアルタイム性能:NVIDIA 30シリーズおよび40シリーズのグラフィックカードをサポートし、スムーズなリアルタイムのインタラクティブ体験を実現します。
- 少数例学習:システムは少数の例から学習し、現実的な応答を生成することができる。
- ビデオの準備: data_preparationスクリプトを使用してビデオデータを準備する。
- オーディオドライバ:オーディオファイルを通してデジタルピープルを駆動し、同期ビデオを生成します。
- リアルタイム・マイク入力:マイクによるリアルタイム操作をサポート。
ヘルプの使用
環境構築とモデルファイルの解凍
- 仮想環境を作成し、起動する:
conda create -n dh_live python=3.12 conda activate dh_live
- 依存関係をインストールします:
pip install torch --index-url https://download.pytorch.org/whl/cu124 pip install -r requirements.txt
- モデルファイルを解凍します:
- Linuxだ。
cd checkpoint cat render.pth.gz.001 render.pth.gz.002 > render.pth.gz gzip -d -c render.pth.gz > render.pth
- Windows:7zipまたはWinRARを使用してチェックポイントファイルを解凍します。
- Linuxだ。
ビデオの準備
- 利用する
data_preparation.py
台本準備ビデオ:python data_preparation.py YOUR_VIDEO_PATH
結果は
./video_data
カタログ
オーディオファイルの実行
- オーディオファイルが.wavフォーマット、サンプルレート16kHz、16ビットモノラルであることを確認してください。
- デモスクリプトを実行する:
python demo.py video_data/test video_data/audio0.wav 1.mp4
リアルタイム操作
- リアルタイムの操作にはマイクを使用する:
python demo_avatar.py
一般的な問題
- モデルファイルの解凍失敗サブボリュームのファイルがすべて揃っていて、正しく解凍されていることを確認してください。
- 不正なオーディオファイル形式適合する.wavファイルを使用してください。