はじめに
EchoMimicは、音声によってリアルな肖像画アニメーションを生成することを目的としたオープンソースプロジェクトです。AntグループのTerminal Technologies部門によって開発されたこのプロジェクトは、編集可能なマーカーポイント条件を利用し、音声と顔のマーカーポイントを組み合わせたダイナミックなポートレート動画を生成します。EchoMimicは、複数の公開データセットと専有データセットで包括的に比較され、定量的評価と定性的評価の両方で優れた性能を実証しています。
EchoMimicV2バージョンは推論速度を最適化し、ジェスチャーアクションを追加しています。
機能一覧
- オーディオドライバーアニメーション音声入力でリアルな似顔絵アニメーションを生成。
- マーカーポイント駆動アニメーション顔のマーカーポイントを使って安定したポートレートアニメーションを生成します。
- オーディオ+マーカードライバー音声と顔のマーカーを組み合わせて、より自然な似顔絵アニメーションを作成できます。
- 多言語サポート中国語、英語、その他の言語の音声入力に対応。
- 効率的な推論最適化されたモデルとパイプラインは、推論速度を大幅に向上させます。
ヘルプの使用
設置プロセス
- ダウンロードコード::
git clone https://github.com/BadToBest/EchoMimic cd エコーミミック
- Python環境のセットアップ::
- 仮想環境を作るにはcondaを使うことをお勧めする:
conda create -n echomimic python=3.8 echomimic を起動する
- 依存パッケージをインストールします:
pip install -r requirements.txt
- 仮想環境を作るにはcondaを使うことをお勧めする:
- ffmpeg-staticをダウンロードして解凍する。::
- ffmpeg-staticをダウンロードして解凍し、環境変数を設定する:
export FFMPEG_PATH=/path/to/ffmpeg-4.4-amd64-static
- ffmpeg-staticをダウンロードして解凍し、環境変数を設定する:
- トレーニング前のウエイトをダウンロードする::
- プロジェクトの説明に従って、適切な訓練済みモデルの重みをダウンロードする。
使用プロセス
- ウェブインターフェースの実行::
- ウェブインターフェースを起動する:
python webgui.py
- ローカルサーバーにアクセスしてインターフェイスを表示し、アニメーション生成用の音声ファイルをアップロードする。
- ウェブインターフェースを起動する:
- コマンドライン推論::
- 音声によるポートレート・アニメーションの生成には、以下のコマンドを使用します:
python infer_audio2vid.py --audio_path /path/to/audio --output_path /path/to/output
- 道しるべと連動した推論:
python infer_audio2vid_pose.py --audio_path /path/to/audio --landmark_path /path/to/landmark --output_path /path/to/output
- 音声によるポートレート・アニメーションの生成には、以下のコマンドを使用します:
- モデルの最適化::
- 最適化されたモデルとパイプラインを使用することで、推論速度を大幅に向上させることができます。例えば、V100 GPUでは7分/240 fpsから50秒/240 fpsになります。
ほら
- 使用するPythonのバージョンとCUDAのバージョンがプロジェクトの要件と一致していることを確認する。
- 使用中に問題が発生した場合は、プロジェクトのREADMEファイルを参照するか、GitHubにissueを送信して助けを求めることができます。