Wav2Lip: オープンソースの高精度リップシンク生成ツール（推奨）

2.9K 00

はじめに

Wav2Lipはオープンソースの高精度リップシンク生成ツールで、任意の音声と映像のリップシンクを正確に同期させるように設計されています。Rudrabha MukhopadhyayらによってACM Multimedia 2020で発表されたこのツールは、高度なAI技術を活用し、様々な環境での高品質なリップシンクを可能にします。研究、学術、個人での使用に適したWav2Lipは、完全なトレーニングコード、推論コード、および事前にトレーニングされたモデルが提供されています。

プロジェクトが繰り返されてから長い時間が経っており、これは最近最適化されたバージョンだ：Easy-Wav2Lip: Wav2Lipに最適化された高品質ビデオリップ同期ツール .Wav2Lip がどのように統合されるかの詳細については、以下の情報を参照してください。 Translation Starter: オープンソース動画コンテンツ翻訳同期ツール｜言語変換｜リップシンク .

のWav2Lip シンク・ラボホスティングは無料。

コラボ・ノート
https://colab.research.google.com/drive/1IjFW1cLevs6Ouyu4Yht4mnR4yeuMqO7Y#scrollTo=Qgo-oaI3JU2u
https://colab.research.google.com/drive/1tZpDWXz49W6wDcTprANRGLo2D_EbD5J8?usp=sharing

機能一覧

高精度のリップシンク：ビデオのリップシンクと音声を正確に同期させます。
多言語サポート：CGIの顔や合成音など、さまざまな言語やサウンドに対応。
オープンソースで無料：コードは完全に公開されており、ユーザーは自由に使用、変更することができる。
インタラクティブ・デモ：ユーザーがビデオやオーディオファイルをアップロードして体験できるオンライン・デモを提供します。
事前学習モデル：様々な事前学習モデルを提供し、ユーザーが直接使用したり、二次学習することができます。
完全なトレーニングコード：口元シンクロ識別器とWav2Lipモデルのトレーニングコードを含みます。

ヘルプの使用

設置プロセス

クローン倉庫：
バッシュコピー

git clonehttps://github.com/Rudrabha/Wav2Lip

依存関係のインストール：
バッシュコピー

pip install -r requirements.txt

事前学習済みモデルのダウンロード：事前学習済みモデルを指定されたディレクトリにダウンロードする。 face_detection/detection/sfd/s3fd.pth.
推論コードを実行する：
バッシュコピー

python inference.py --checkpoint_path <ckpt> --face <video.mp4> --audio <an-audio-source>

使用プロセス

ローカルサーバーへのアクセス：ブラウザで開く http://localhost:3000.
入力ヒント : 入力ボックスに生成したい画像の説明を入力すると、リアルタイムで画像が生成されます。
画像の表示とダウンロード：生成された画像はページに表示され、ダウンロードボタンは将来のバージョンで追加される予定です。
Use Consistency Mode（一貫性モードを使用）：一貫性モードを有効にすると、背景やメインオブジェクトの一貫性を保ちながら、一貫性のある画像を生成することができます。
画像履歴の表示 : 画像履歴機能を使用すると、生成されたすべての画像を表示し、画像間を移動できます。