この記事は2025-01-15 10:58に更新されました。内容の一部は一刻を争うものですので、無効な場合はメッセージを残してください！

皆さんこんにちは、今日はデジタルピープル作成ツールを紹介します！これは使いやすく、バッチ処理をサポートしています。(私は、我々はデジタル人の技術について何かを学んだと信じて、大火災の前に郭徳江は、英語を話すロシアの美しさは、中国語などを話すデジタル人の技術の具体化である。

例えば、今回紹介したのはビデオ形式のデジタルピープルですが、UnrealEngineで作られた3Dモデルのデジタルピープルもあり、様々な場所で応用されています。興味のある方は、こちらを見ていただければわかると思いますが、あまり説明することはありません。

え？デジタル人間って知らないの？百度

とはいえ、今日紹介するのは、実はオリジナルのものだ。 Wav2Lip プロジェクトは最適化に基づいており、私はまた、キャッシュ、インターフェイス、実行効率の問題など、多くの問題を発見し、最適化のターゲットを絞った。

構成要件

ウィンドウズ

NカードはNカードでなければならない！CPUはサポートされていません！

MAC

開発中で、まだmpsの問題を解決中だ！何日も試している！MACの方はもう少しお待ちください。

僕が遅いなんて思わないでほしい。僕はたくさんのテストをして、それぞれの統合パックが完成した時点で最適化できることがないか確認しているんだ！

更新情報

オリジナルと比較した新機能

1.Webuiインターフェイスを追加しました。

2.バッチ処理に対応。

3.オリジナルのキャッシュ問題を最適化。

4.処理効率の最適化

使用方法

意図する

オーディオファイルとビデオファイルを準備する必要がある。

オーディオファイル::

オーディオの長さはビデオの長さと同じにすることをお勧めします（例えば10秒のビデオなら、オーディオの長さも10秒にすることをお勧めします。オーディオの長さがビデオの長さよりも長い場合、ビデオは自動的に逆方向へループして長さを延長します）。
オーディオファイル形式：wavおよびmp3

ビデオファイル::

選択したビデオフレームにすべて顔がないとエラーになります。(例えば、合計10秒のビデオで、真ん中の2秒に顔がないフレームがある場合、エラーが報告されます)
推奨H264エンコードmp4ビデオフォーマット

ヒント：このバージョンはバッチをサポートしています。バッチは、複数のオーディオと複数のビデオ、単一のオーディオと複数のビデオをサポートしています。

一例を挙げよう：

3つのビデオと3つのオーディオがある場合、オーディオ1に対応するビデオ1とオーディオ2に対応するビデオ2を選択した順番に処理されます。
3つの動画と1つの音声がある場合、アップロードしたすべての動画がこの音声に対応しているかのように処理されます。ビデオ1はオーディオ1に対応し、ビデオ2はオーディオ1に対応し、ビデオ3はオーディオ3に対応します。

加工開始

一番簡単な方法だ：

ビデオとオーディオを対応するファイルボックスにドラッグ・アンド・ドロップし、"Start Generation "をクリックして終了します！

各パラメーターがどのような働きをするのか、さらに詳しく知りたい方は、この先をお読みいただきたい！

パラメータ詳細

ビデオ品質：

高速かつ迅速：Wav2Lipオーディオからポートタイプモードへ。

改善：Wav2Lipオーディオをリップモードに＋唇の周りの境界線を取り除くために、唇の周りにマスクのフェザリングを持つ唇。

強化された機能：Wav2Lip Audio to Lip Mode + マスクのフェザリング + GFPGAN HD Face Enhancement

実験：強化モデルにおける実行効率の最適化。

マシンのコンフィギュレーションが悪くなければ、デフォルトで推奨される。強化された歌で応える実験的

解決オプション

フル解像度

ハーフレゾリューション

注目してほしい：

ハーフ解像度でテストすると、場合によっては互換性のない問題が発生するため、このオプションでフル解像度を選択することをお勧めします。

Wav2Lipバージョンオプション

Wav2Lip

利点：より正確な口の同期、音がないときに口を閉じたままにできる。

欠点：歯が欠けてしまうことがある（場合によって）。

Wav2Lip_GAN

長所：効果がより良く見え、スピーカーの本来の表現が保たれる。

短所：生のリップアクションをカバーするのはあまり得意ではない。

推薦する：

まずWav2Lipを試してみて、マウスピースに大きな隙間がある場合にWav2Lip_GANバージョンに切り替えてください。

フェイス・スムージングを有効にする

有効にすると、wav2lipは各フレームで独立して顔をクロップします。

素早い動きやビデオ編集に最適。

顔の角度が変だと痙攣を起こすことがある。

無効にすると、wav2lipは検出された顔の位置を5フレーム間でブレンドする。

ゆっくりとした動き、特に一般的ではない角度の顔に最適。

顔がフレーム内を素早く動くと、口元がオフセットし、カットの間が恐ろしく見えることがある。

パディング (充填)::

このオプションは、顔のクロップから各方向に追加または削除されるピクセル数を制御します。

このオプションは、あごや顔の縁の硬い線を取り除くのに役立ちますが、塗りつぶしが多すぎても少なすぎても、口の大きさや位置が変わってしまいます。底辺に10ピクセルを追加するのが一般的ですが、異なる値を試して最良の結果を見つけることをお勧めします。

マスク・セクション

マスクサイズ

はマスクで覆われる領域のサイズを大きくする。(顔の周囲にボーダーを付けると、この値を下げることができる（例：1.5）

マスクのフェザリング

マスクの中央と端のブレンド量を決定します。(顔の周囲にボーダーを付けると、この値が大きくなります）

マスクのマウストラッキングを有効にする

各フレームでマスクの位置を口の位置に更新する（遅い）

注目してほしい：

フレームは顔に合わせて切り取られているため、口の位置はすでに近似されている。この機能は、ビデオのマスクが口についていないように見えることに気づいた場合にのみ有効になる。

マスクデバッグの有効化

これをオンにすると、背景がグレースケール、マスクがカラーになり、フレーム内のマスクの位置がわかる。(このパラメータをTrueに変更すると、パラメータの効果がより直感的にわかります)

統合パック取得

このコンテンツは作者によって非表示にされています。コンテンツを表示するには認証コードを入力してください。

このサイトWeChat公開番号に注意してください、返信"CAPTCHA、チャレンジ・レスポンス・テストの一種（コンピューティング）"、認証コードを取得します。WeChatで"チーフAIシェアリングサークル「またはルックスAI"またはWeChatは、QRコードの右側をスキャンすると、このサイトWeChatの公開番号に注意を払うことができます。

突き進む

デジタル人だけで言えば、実際には、heygen、Wav2lip、Geneface + +など、達成するために多くの方法がありますが、効果のうち、これらのツールは同じではありません、それぞれが独自の長所と短所を持っています。

FaceFusionを使ってまずビデオに顔の入れ替えを行い、次にGPT_SoVITSを使って音声合成を行い、最後にこのプロジェクトをデジタル・デモグラフィック制作に使うという制作アイデアも参考までにご紹介しておきます。

デジタルマン統合パックのWav2Lipベースのビジュアル操作バージョン

構成要件

更新情報

使用方法

意図する

加工開始

パラメータ詳細

ビデオ品質：

解決オプション

Wav2Lipバージョンオプション

フェイス・スムージングを有効にする

マスク・セクション

マスクサイズ

マスクのフェザリング

マスクのマウストラッキングを有効にする

マスクデバッグの有効化

統合パック取得

突き進む

関連記事

LiveTalking: オープンソースのリアルタイム・インタラクティブ・デジタル・ヒューマン・ライブ・システム。

ER NeRF：トーキングヘッド用高忠実度ビデオ合成システムの構築

ジョイジェン：音声駆動型3D奥行き認識型トーキングビデオ編集ツール

DUIX: リアルタイムのインタラクションを実現するインテリジェントなデジタルピープル、マルチプラットフォームのワンクリック導入をサポート

Fayデジタルヒューマンフレームワーク：言語モデルと3Dデジタルキャラクターを統合し、様々なアプリケーションシナリオをサポート。

おすすめ

AIツールが見つからない？こちらをお試しください！

FLUX.1イメージジェネレーター（中国語入力対応）

新着情報

人気記事

ホットタグ

チーフAIシェアリングサークル