はじめに
SadTalkerは、1枚の静止ポートレート写真と音声ファイルを組み合わせて、パーソナライズされたメッセージや教育コンテンツなど、幅広いシナリオに対応するリアルなトーキングヘッドビデオを作成するオープンソースツールです。ExpNetやPoseVAEなどの3Dモデリング技術を革新的に使用することで、微妙な表情や頭の動きを捉えることに優れています。ユーザーはSadTalkerの技術を、メッセージング、教育、マーケティングなど、個人的なプロジェクトにも商業的なプロジェクトにも使用できます。
機能一覧
音声を使った顔の動きと表情の同期
- 静止画のポートレート写真を動画に変換する
- オーディオファイルの同期リップシンクアニメーション
フルボディモードとエクスプレッションエンハンサー機能に対応
設定可能なWebUIインターフェースを提供
この技術はDiscordとの統合で利用できる
詳細な開発および使用法のドキュメントを提供する
Windows、Linux/Unix、macOSに対応
ヘルプの使用
必要なAnaconda、Python、gitをインストールする。
ドキュメントに従って環境をインストールし、モデルをダウンロードする。
ネイティブWebUIまたはコマンドラインインターフェイスを使用したアニメーション生成
注目してほしい:
- 最良の結果を得るために、鮮明で正面からのポートレート写真を選びましょう。
- 正確なリップシンクのために、クリアなオーディオファイルを使用する。
SadTalkerを使用するための基本的な手順は以下の通りです:
- 環境準備:
- Python環境がない場合は、Anacondaをインストールする。
- NVIDIA cuda-toolkitをインストールして、NVIDIAグラフィックカードを搭載したコンピュータでGPUアクセラレーションを使用してください。CPUのみを使用する場合、処理は遅くなります。
- モデルとライブラリのインストール:
- 必要なモデルファイルとライブラリファイルをダウンロードしてインストールします。これらのファイルは通常、特定のディレクトリに置く必要があります。
./チェックポイント
もしかしたら./gfpgan/weights/
.
- 必要なモデルファイルとライブラリファイルをダウンロードしてインストールします。これらのファイルは通常、特定のディレクトリに置く必要があります。
- FFMPEGビデオライブラリのインストール:
- 動画を生成するのに必要なFFMPEGをインストールする。
- TTS音声変換ライブラリのインストール:
- edge-ttsライブラリをインストールし、テキストを音声に変換する。
- ウェブUIの使用:
- をクリックしてください。
webui.bat
SadTalkerのWeb UIを起動します。 - Web UIで、指定された領域に画像をアップロードし、デジタルパーソンを変換する際のパラメータを設定します。
- デジタル・ヒューマン・ビデオを生成した後、インターフェイスで結果を見ることができる。
- をクリックしてください。
- コマンドラインの使用法:
- より多くのオプションが必要な場合は、SadTalkerをコマンドラインスクリプトで使用することができます。
- コマンドラインを使う場合は
task.sh
ファイルで簡単にタスクを生成できる。
- ほら:
- 使用する際は、最良の結果を得るために画質が良いことを確認してください。
- などのエラーが発生した場合
libiomp5md.dll
コンフリクトを見つけるにはapp.py
で環境変数を設定する。kmp_duplicate_lib_ok=true
を修正する。
上記の手順はウェブ上のチュートリアルやユーザーの経験に基づいており、正確な操作は異なる場合があります。最新かつ詳細な手順については、SadTalkerの公式ドキュメントやコミュニティのチュートリアルを参照することをお勧めします。