AIパーソナル・ラーニング
と実践的なガイダンス

デジタルマン統合パックのWav2Lipベースのビジュアル操作バージョン

この記事は2025-01-15 10:58に更新されました。内容の一部は一刻を争うものですので、無効な場合はメッセージを残してください!

皆さんこんにちは、今日はデジタルピープル作成ツールを紹介します!これは使いやすく、バッチ処理をサポートしています。(私は、我々はデジタル人の技術について何かを学んだと信じて、大火災の前に郭徳江は、英語を話すロシアの美しさは、中国語などを話すデジタル人の技術の具体化である。

例えば、今回紹介したのはビデオ形式のデジタルピープルですが、UnrealEngineで作られた3Dモデルのデジタルピープルもあり、様々な場所で応用されています。興味のある方は、こちらを見ていただければわかると思いますが、あまり説明することはありません。


え?デジタル人間って知らないの?百度

とはいえ、今日紹介するのは、実はオリジナルのものだ。 Wav2Lip プロジェクトは最適化に基づいており、私はまた、キャッシュ、インターフェイス、実行効率の問題など、多くの問題を発見し、最適化のターゲットを絞った。

 

構成要件

ウィンドウズ

NカードはNカードでなければならない!CPUはサポートされていません!

MAC

開発中で、まだmpsの問題を解決中だ!何日も試している!MACの方はもう少しお待ちください。

僕が遅いなんて思わないでほしい。僕はたくさんのテストをして、それぞれの統合パックが完成した時点で最適化できることがないか確認しているんだ!

 

更新情報

オリジナルと比較した新機能

1.Webuiインターフェイスを追加しました。

2.バッチ処理に対応。

3.オリジナルのキャッシュ問題を最適化。

4.処理効率の最適化

 

使用方法

意図する

オーディオファイルとビデオファイルを準備する必要がある。

オーディオファイル::

  • オーディオの長さはビデオの長さと同じにすることをお勧めします(例えば10秒のビデオなら、オーディオの長さも10秒にすることをお勧めします。オーディオの長さがビデオの長さよりも長い場合、ビデオは自動的に逆方向へループして長さを延長します)。
  • オーディオファイル形式:wavおよびmp3

ビデオファイル::

  • 選択したビデオフレームにすべて顔がないとエラーになります。(例えば、合計10秒のビデオで、真ん中の2秒に顔がないフレームがある場合、エラーが報告されます)
  • 推奨H264エンコードmp4ビデオフォーマット

ヒント:このバージョンはバッチをサポートしています。バッチは、複数のオーディオと複数のビデオ、単一のオーディオと複数のビデオをサポートしています。

一例を挙げよう:

  • 3つのビデオと3つのオーディオがある場合、オーディオ1に対応するビデオ1とオーディオ2に対応するビデオ2を選択した順番に処理されます。
  • 3つの動画と1つの音声がある場合、アップロードしたすべての動画がこの音声に対応しているかのように処理されます。ビデオ1はオーディオ1に対応し、ビデオ2はオーディオ1に対応し、ビデオ3はオーディオ3に対応します。

加工開始

一番簡単な方法だ:

ビデオとオーディオを対応するファイルボックスにドラッグ・アンド・ドロップし、"Start Generation "をクリックして終了します!

各パラメーターがどのような働きをするのか、さらに詳しく知りたい方は、この先をお読みいただきたい!

 

パラメータ詳細

ビデオ品質:

高速かつ迅速:Wav2Lipオーディオからポートタイプモードへ。

改善:Wav2Lipオーディオをリップモードに+唇の周りの境界線を取り除くために、唇の周りにマスクのフェザリングを持つ唇。

強化された機能:Wav2Lip Audio to Lip Mode + マスクのフェザリング + GFPGAN HD Face Enhancement

実験:強化モデルにおける実行効率の最適化。

マシンのコンフィギュレーションが悪くなければ、デフォルトで推奨される。強化された歌で応える実験的

解決オプション

フル解像度

ハーフレゾリューション

注目してほしい:

ハーフ解像度でテストすると、場合によっては互換性のない問題が発生するため、このオプションでフル解像度を選択することをお勧めします。

Wav2Lipバージョンオプション

Wav2Lip

利点:より正確な口の同期、音がないときに口を閉じたままにできる。

欠点:歯が欠けてしまうことがある(場合によって)。

Wav2Lip_GAN

長所:効果がより良く見え、スピーカーの本来の表現が保たれる。

短所:生のリップアクションをカバーするのはあまり得意ではない。

推薦する:

まずWav2Lipを試してみて、マウスピースに大きな隙間がある場合にWav2Lip_GANバージョンに切り替えてください。

フェイス・スムージングを有効にする

有効にすると、wav2lipは各フレームで独立して顔をクロップします。

素早い動きやビデオ編集に最適。

顔の角度が変だと痙攣を起こすことがある。

無効にすると、wav2lipは検出された顔の位置を5フレーム間でブレンドする。

ゆっくりとした動き、特に一般的ではない角度の顔に最適。

顔がフレーム内を素早く動くと、口元がオフセットし、カットの間が恐ろしく見えることがある。

パディング (充填)::

このオプションは、顔のクロップから各方向に追加または削除されるピクセル数を制御します。

このオプションは、あごや顔の縁の硬い線を取り除くのに役立ちますが、塗りつぶしが多すぎても少なすぎても、口の大きさや位置が変わってしまいます。底辺に10ピクセルを追加するのが一般的ですが、異なる値を試して最良の結果を見つけることをお勧めします。

マスク・セクション

マスクサイズ

はマスクで覆われる領域のサイズを大きくする。(顔の周囲にボーダーを付けると、この値を下げることができる(例:1.5)

マスクのフェザリング

マスクの中央と端のブレンド量を決定します。(顔の周囲にボーダーを付けると、この値が大きくなります)

マスクのマウストラッキングを有効にする

各フレームでマスクの位置を口の位置に更新する(遅い)

注目してほしい:

フレームは顔に合わせて切り取られているため、口の位置はすでに近似されている。この機能は、ビデオのマスクが口についていないように見えることに気づいた場合にのみ有効になる。

マスクデバッグの有効化

これをオンにすると、背景がグレースケール、マスクがカラーになり、フレーム内のマスクの位置がわかる。(このパラメータをTrueに変更すると、パラメータの効果がより直感的にわかります)

 

統合パック取得

 

チーフAIシェアリングサークルこのコンテンツは作者によって非表示にされています。コンテンツを表示するには認証コードを入力してください。
キャプチャ
このサイトWeChat公開番号に注意してください、返信"CAPTCHA、チャレンジ・レスポンス・テストの一種(コンピューティング)"、認証コードを取得します。WeChatで"チーフAIシェアリングサークル「またはルックスAI"またはWeChatは、QRコードの右側をスキャンすると、このサイトWeChatの公開番号に注意を払うことができます。

 

突き進む

デジタル人だけで言えば、実際には、heygen、Wav2lip、Geneface + +など、達成するために多くの方法がありますが、効果のうち、これらのツールは同じではありません、それぞれが独自の長所と短所を持っています。

FaceFusionを使ってまずビデオに顔の入れ替えを行い、次にGPT_SoVITSを使って音声合成を行い、最後にこのプロジェクトをデジタル・デモグラフィック制作に使うという制作アイデアも参考までにご紹介しておきます。

無断転載を禁じます:チーフAIシェアリングサークル " デジタルマン統合パックのWav2Lipベースのビジュアル操作バージョン

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語