LatentSync：AI口パク動画生成のための音声駆動型高精度リップシンクを実現

中国初のAI IDE インテリジェント・プログラミング・ソフトウェア 🚀体験への招待 Trae 中国語版ダウンロードDeepSeek-R1とDoubao-proは無制限で利用できる！

はじめに

LatentSyncは、ByteDanceによってオープンソース化された革新的な音声条件電位拡散モデリングフレームワークで、高品質のビデオリップシンクを可能にするために特別に設計されています。従来の方法とは異なり、LatentSyncはエンドツーエンドのアプローチを用いて、中間的なアクション表現なしに自然で滑らかなリップシンク効果を直接生成します。このプロジェクトでは、Whisperモデルを使用して音声を音声埋め込みに変換し、クロスアテンションレイヤーを介してU-Netに統合することで、ビデオフレームの正確な生成を可能にしています。このシステムは現実の映像処理に対応するだけでなく、アニメキャラクターのリップシンクにも対応しており、応用範囲は広い。このプロジェクトは完全にオープンソースであり、推論コード、データ処理フロー、トレーニングコードを提供しているため、研究者や開発者はこの技術を簡単に再現し、改良することができる。最後に Wav2Lip に代わるものである。

LatentSync：AIマウススワップ動画生成のための音声駆動型高精度リップシンクの実現-1

経験：https://huggingface.co/spaces/fffiloni/LatentSync

APIデモアドレス：https://fal.ai/models/fal-ai/latentsync

LatentSync：AI口パク動画生成のための音声駆動型高精度リップシンクロの実現-1

機能一覧

エンド・ツー・エンドのオーディオ駆動リップシンク生成
実写ビデオやアニメキャラクターのリップシンクに対応
オーディオとビデオの自動アライメントと同期補正
高品質の顔検出と位置合わせ
自動シーンセグメンテーションとビデオセグメンテーション処理
ビデオ品質評価とフィルタリング
完全なデータ処理パイプラインを提供する
カスタムモデルのトレーニングをサポート

ヘルプの使用

環境設定

システム要件
- GPUメモリ要件：少なくとも6.5GB
- CUDAをサポートするNVIDIAグラフィックスカード
- Python環境
インストールの手順

ソース setup_env.sh

インストールに成功すると、チェックポイント・ファイルの構造は以下のようになっているはずだ：

./チェックポイント
|-- latentsync_unet.pt # メインモデルファイル
|-- latentsync_syncnet.pt # 同期ネットワークモデル
|-- ウィスパー
|-- tiny.pt # 音声処理モデルディレクトリ
|-- auxiliary/ #補助モデルディレクトリ

使用プロセス

基本的な推論の使用：
- うごきだす ./inference.sh 基本的な推論を行う
- これは ガイダンス・スケール リップシンクの精度を向上させるため、パラメータを1.5に変更
データ処理の流れ：
- ビデオの前処理：
  - ビデオフレームレートを25fpsに自動補正
  - 16000Hzへのオーディオ・リサンプリング
  - 自動シーン検出とセグメンテーション
  - ビデオを5～10秒のセグメントに分割する
- 顔の加工：
  - 顔のサイズを検出し、フィルタリングする（>256 x 256が必要）
  - マルチフェイスシーンの削除
  - 顔特徴点に基づくアフィン変換
  - 256×256への均一なリサイズ
- 品質管理：
  - 信頼スコアの同期スクリーニング（閾値3）
  - オーディオとビデオのオフセットの自動調整
  - hyperIQAによる画質評価
高度な機能：
- モデルトレーニング：
  - U-Netトレーニング：使用 ./train_unet.sh
  - SyncNetのトレーニング：使用 ./train_syncnet.sh
- 設定ファイルのパラメーターは、データ・ディレクトリーやチェックポイントの保存パスなど、必要に応じて調整できる。

ほら

推論時に十分なビデオメモリを確保する（最低6.5GB）
処理する前に、ビデオが良い品質であることを確認してください。
大量の映像を処理する前に、小規模なテストを行うことをお勧めします。
カスタムモデルをトレーニングする前に、完全なデータ処理フローを完成させる必要がある。
関連するライセンス要件に従ってください。

LatentSync ワンクリックインストーラー

このコンテンツは作者によって非表示にされています。コンテンツを表示するには認証コードを入力してください。

このサイトWeChat公開番号に注意してください、返信"CAPTCHA、チャレンジ・レスポンス・テストの一種（コンピューティング）"、認証コードを取得します。WeChatで"チーフAIシェアリングサークル「またはルックスAI"またはWeChatは、QRコードの右側をスキャンすると、このサイトWeChatの公開番号に注意を払うことができます。