SadTalker: 写真にしゃべらせる｜口パク音声｜合成口パク動画｜無料デジタルピープル

61.9K 00

はじめに

SadTalkerは、1枚の静止ポートレート写真と音声ファイルを組み合わせて、パーソナライズされたメッセージや教育コンテンツなど、幅広いシナリオに対応するリアルなトーキングヘッドビデオを作成するオープンソースツールです。ExpNetやPoseVAEなどの3Dモデリング技術を革新的に使用することで、微妙な表情や頭の動きを捉えることに優れています。ユーザーはSadTalkerの技術を、メッセージング、教育、マーケティングなど、個人的なプロジェクトにも商業的なプロジェクトにも使用できます。

推奨される強化SVLS: SadTalker、ポートレートビデオを使ってデジタル人物を生成する機能を強化新たに加わったのは、写真生成のデジタル・パーソンからビデオ生成のデジタル・パーソンに格上げされ、フレーム挿入技術によってより滑らかにしゃべるようになった。

機能一覧

音声を使った顔の動きと表情の同期

静止画のポートレート写真を動画に変換する
オーディオファイルの同期リップシンクアニメーション

フルボディモードとエクスプレッションエンハンサー機能に対応

設定可能なWebUIインターフェースを提供

この技術はDiscordとの統合で利用できる

詳細な開発および使用法のドキュメントを提供する

Windows、Linux/Unix、macOSに対応

ヘルプの使用

必要なAnaconda、Python、gitをインストールする。
ドキュメントに従って環境をインストールし、モデルをダウンロードする。
ネイティブWebUIまたはコマンドラインインターフェイスを使用したアニメーション生成

注目してほしい：

最良の結果を得るために、鮮明で正面からのポートレート写真を選びましょう。
正確なリップシンクのために、クリアなオーディオファイルを使用する。

SadTalkerを使用するための基本的な手順は以下の通りです：

環境準備:
- Python環境がない場合は、Anacondaをインストールする。
- NVIDIA cuda-toolkitをインストールして、NVIDIAグラフィックカードを搭載したコンピュータでGPUアクセラレーションを使用してください。CPUのみを使用する場合、処理は遅くなります。
モデルとライブラリのインストール:
- 必要なモデルファイルとライブラリファイルをダウンロードしてインストールします。これらのファイルは通常、特定のディレクトリに置く必要があります。./checkpoints/もしかしたら./gfpgan/weights/.
FFMPEGビデオライブラリのインストール:
- 動画を生成するのに必要なFFMPEGをインストールする。
TTS音声変換ライブラリのインストール:
- edge-ttsライブラリをインストールし、テキストを音声に変換する。
ウェブUIの使用:
- をクリックしてください。webui.batSadTalkerのWeb UIを起動します。
- Web UIで、指定された領域に画像をアップロードし、デジタルパーソンを変換する際のパラメータを設定します。
- デジタル・ヒューマン・ビデオを生成した後、インターフェイスで結果を見ることができる。
コマンドラインの使用法:
- より多くのオプションが必要な場合は、SadTalkerをコマンドラインスクリプトで使用することができます。
- コマンドラインを使う場合はtask.shファイルで簡単にタスクを生成できる。
ほら:
- 使用する際は、最良の結果を得るために画質が良いことを確認してください。
- などのエラーが発生した場合libiomp5md.dllコンフリクトを見つけるにはapp.pyで環境変数を設定する。KMP_DUPLICATE_LIB_OK=TRUEを修正する。