はじめに
Wav2Lipはオープンソースの高精度リップシンク生成ツールで、任意の音声と映像のリップシンクを正確に同期させるように設計されています。Rudrabha MukhopadhyayらによってACM Multimedia 2020で発表されたこのツールは、高度なAI技術を活用し、様々な環境での高品質なリップシンクを可能にします。研究、学術、個人での使用に適したWav2Lipは、完全なトレーニングコード、推論コード、および事前にトレーニングされたモデルが提供されています。
のWav2Lip 同期 ラボは無料のホスティングを提供しています。
コラボ・ノート
https://colab.research.google.com/drive/1IjFW1cLevs6Ouyu4Yht4mnR4yeuMqO7Y#scrollTo=Qgo-oaI3JU2u
https://colab.research.google.com/drive/1tZpDWXz49W6wDcTprANRGLo2D_EbD5J8?usp=sharing
機能一覧
- 高精度のリップシンク:ビデオのリップシンクと音声を正確に同期させます。
- 多言語サポート:CGIの顔や合成音など、さまざまな言語やサウンドに対応。
- オープンソースで無料:コードは完全に公開されており、ユーザーは自由に使用、変更することができる。
- インタラクティブ・デモ:ユーザーがビデオやオーディオファイルをアップロードして体験できるオンライン・デモを提供します。
- 事前学習モデル:様々な事前学習モデルを提供し、ユーザーが直接使用したり、二次学習することができます。
- 完全なトレーニングコード:口元シンクロ識別器とWav2Lipモデルのトレーニングコードを含みます。
ヘルプの使用
設置プロセス
- クローン倉庫:
バッシュコピー
ギット clonehttps://github.com/Rudrabha/Wav2Lip
- 依存関係のインストール :
バッシュコピー
ピップインストール -r requirements.txt
- 事前学習済みモデルのダウンロード:事前学習済みモデルを指定されたディレクトリにダウンロードする。
顔検出/検出/sfd/s3fd.pth
. - 推論コードを実行する:
バッシュコピー
python inference.py --チェックポイント・パス <チェックポイント> --顔 <video.mp4 --オーディオ <アン-オーディオ-ソース>
使用プロセス
- ローカルサーバーへのアクセス:ブラウザで開く
http://localhost:3000
. - 入力ヒント : 入力ボックスに生成したい画像の説明を入力すると、リアルタイムで画像が生成されます。
- 画像の表示とダウンロード:生成された画像はページに表示され、ダウンロードボタンは将来のバージョンで追加される予定です。
- Use Consistency Mode(一貫性モードを使用):一貫性モードを有効にすると、背景やメインオブジェクトの一貫性を保ちながら、一貫性のある画像を生成することができます。
- 画像履歴の表示 : 画像履歴機能を使用すると、生成されたすべての画像を表示し、画像間を移動できます。
高度な機能
- 強化されたヒント:強化されたヒントオプションで生成された結果を最適化します。
- モデル選択:ニーズに合わせてAIモデルを選択。
- カスタム開発:Wav2Lipはオープンソースなので、ユーザーは自分のニーズに応じて二次開発を行うことができます。