EchoMimic: 音声駆動ポートレートによるトーキングビデオ生成 (EchoMimicV2 アクセラレータ)

61.4K 00

はじめに

EchoMimicは、音声によってリアルな肖像画アニメーションを生成することを目的としたオープンソースプロジェクトです。AntグループのTerminal Technologies部門によって開発されたこのプロジェクトは、編集可能なマーカーポイント条件を利用し、音声と顔のマーカーポイントを組み合わせたダイナミックなポートレート動画を生成します。EchoMimicは、複数の公開データセットと専有データセットで包括的に比較され、定量的評価と定性的評価の両方で優れた性能を実証しています。

EchoMimicV2バージョンは推論速度を最適化し、ジェスチャーアクションを追加しています。

EchoMimic：音频驱动人像照片生成说话视频（EchoMimicV2加速版安装包）

デモアドレス：https://www.modelscope.cn/studios/BadToBest/BadToBest V2：https://huggingface.co/spaces/fffiloni/echomimic-v2

機能一覧

オーディオドライバーアニメーション音声入力でリアルな似顔絵アニメーションを生成。
マーカーポイント駆動アニメーション顔のマーカーポイントを使って安定したポートレートアニメーションを生成します。
オーディオ＋マーカードライバー音声と顔のマーカーを組み合わせて、より自然な似顔絵アニメーションを作成できます。
多言語サポート中国語、英語、その他の言語の音声入力に対応。
効率的な推論最適化されたモデルとパイプラインは、推論速度を大幅に向上させます。

ヘルプの使用

設置プロセス

ダウンロードコード::

git clone https://github.com/BadToBest/EchoMimic
cd EchoMimic

Python環境のセットアップ::
- 仮想環境を作るにはcondaを使うことをお勧めする：
```
conda create -n echomimic python=3.8
conda activate echomimic
```
- 依存パッケージをインストールします：
```
pip install -r requirements.txt
```
ffmpeg-staticをダウンロードして解凍する。::
- ffmpeg-staticをダウンロードして解凍し、環境変数を設定する：
```
export FFMPEG_PATH=/path/to/ffmpeg-4.4-amd64-static
```
トレーニング前のウエイトをダウンロードする::
- プロジェクトの説明に従って、適切な訓練済みモデルの重みをダウンロードする。

使用プロセス

ウェブインターフェースの実行::
- ウェブインターフェースを起動する：
```
python webgui.py
```
- ローカルサーバーにアクセスしてインターフェイスを表示し、アニメーション生成用の音声ファイルをアップロードする。

コマンドライン推論::

音声によるポートレート・アニメーションの生成には、以下のコマンドを使用します：
```
python infer_audio2vid.py --audio_path /path/to/audio --output_path /path/to/output
```

道しるべと連動した推論：

python infer_audio2vid_pose.py --audio_path /path/to/audio --landmark_path /path/to/landmark --output_path /path/to/output

モデルの最適化::
- 最適化されたモデルとパイプラインを使用することで、推論速度を大幅に向上させることができます。例えば、V100 GPUでは7分/240 fpsから50秒/240 fpsになります。

ほら

使用するPythonのバージョンとCUDAのバージョンがプロジェクトの要件と一致していることを確認する。
使用中に問題が発生した場合は、プロジェクトのREADMEファイルを参照するか、GitHubにissueを送信して助けを求めることができます。

Windowsワンクリックインストーラー

リンク：https://pan.quark.cn/s/cc973b142d41
抽出コード: 5T57

EchoMimicV2 Accelerated ダウンロード

クォーク：https://pan.quark.cn/s/12acd147a758

百度：https://pan.baidu.com/s/1z8tiuGtN29luQ7Cg2zHJ8Q?pwd=9e8x

直間：CRMの営業電話記録を分析し、パフォーマンス改善の提案を行う。

最新のAIリソース # AIデータ分析 # AIマーケティング

1年前

055.9K

ExtractThinker: ドキュメントを構造化データに抽出・分類し、ドキュメント処理プロセスを最適化します。

1年前

061.2K

JustCMS：AIを活用したヘッドレスコンテンツ管理システム、コンテンツ作成を迅速に（有料）

最新のAIリソース # AIライティング

1年前

046.5K

Excel AI: AIインテリジェント関数プラグイン、データ抽出、バッチ変換、数式生成、データ分析を実現する

最新のAIリソース # AIデータ分析

1年前

077.6K

コメントなし

コメントに参加するにはログインが必要です！

今すぐログイン

コメントはありません

EchoMimic: 音声駆動ポートレートによるトーキングビデオ生成 (EchoMimicV2 アクセラレータ)

はじめに

機能一覧