はじめに
SadTalker-Video-Lip-Syncは、SadTalkersの実装に基づいたビデオリップ合成ツールです。このプロジェクトは、ボイスドリブン生成によってリップシェイプを生成し、設定可能な顔領域エンハンスメントを使用して、生成されたリップシェイプの鮮明度を向上させます。また、DAINフレーム補間アルゴリズムを使用して、生成されたビデオのフレームを埋めることで、唇の遷移をよりスムーズでリアルかつ自然にします。ユーザーは簡単なコマンドライン操作で高品質のリップシェイプビデオを素早く生成することができ、様々なビデオ制作や編集のニーズに適しています。

サドトーカー オリジナル

サドトーカー強化
機能一覧
- 音声駆動リップ生成音声ファイルを通して映像中の唇の動きを駆動する。
- 顔面領域の強化設定可能なリップまたはフルフェイスエリア画像強調機能により、映像の鮮明度が向上。
- DAINフレーム挿入ディープラーニングのアルゴリズムを使って動画上のフレームにパッチを当て、動画の滑らかさを向上させます。
- 複数の強化オプションエンハンスなし、リップエンハンス、フルフェイスエンハンスの3つのモードをサポート。
- 事前学習モデルユーザーがすぐに使い始められるように、様々な訓練済みモデルを提供します。
- シンプルなコマンドライン操作コマンドラインパラメータで簡単に設定、実行できる。
ヘルプの使用
環境準備
- 必要な依存関係をインストールする:
pip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113
conda install ffmpeg
pip install -r requirements.txt
- DAINモデルを枠埋め用に使用する必要がある場合は、パドルもインストールする必要がある:
python -m pip install paddlepaddle-gpu==2.3.2.post112 -f https://www.paddlepaddle.org.cn/whl/linux/mkl/avx/stable.html
プロジェクト体制
checkpoints
訓練済みモデルを保存dian_output
DAINフレーム挿入出力を格納examples
サンプル・オーディオおよびビデオ・ファイルresults
結果を出すsrc
ソースコードsync_show
合成効果デモンストレーションthird_part
サードパーティライブラリinference.py
推論スクリプトREADME.md
プロジェクト説明書
モデル化された推論
モデル推論には以下のコマンドを使用する:
python inference.py --driven_audio <audio.wav> --source_video <video.mp4> --enhancer <none, lip, face> --use_DAIN --time_step 0.5
--driven_audio
入力オーディオファイル--source_video
入力ビデオファイル--enhancer
強化モード(なし、リップ、フェイス)--use_DAIN
DAINフレームを使用するかどうか--time_step
補間フレームレート(デフォルト0.5、すなわち25fps→50fps)
合成効果
生成されたビデオエフェクトは ./sync_show
カタログ
original.mp4
オリジナルビデオsync_none.mp4
エンハンスなしの合成効果none_dain_50fps.mp4
DAINモデルのみで25fpsを50fpsに向上lip_dain_50fps.mp4
リップ部分の強化+DAINモデルで25fpsを50fpsに。face_dain_50fps.mp4
フルフェイスエリアの強化+DAINモデルで25fpsを50fpsに向上
事前学習モデル
訓練済みモデルのダウンロードパス: