はじめに
FoleyCrafterは、OpenMMLabによって開発されたオープンソースプロジェクトで、無音ビデオのための鮮明で同期された効果音を生成します。FoleyCrafterのゴールは、映画、ゲーム、その他の分野に高品質のサウンドソリューションを提供し、観客のオーディオビジュアル体験を向上させることです。
ナレーションワークフローの自動合成: https://openart.ai/workflows/t8star/foleycrafter/wZyBSeaa2lvgU3c3NlcH
機能一覧
- ビデオからオーディオへビデオコンテンツに基づいて、意味的に関連性のある同期された効果音を生成します。
- テキストアラート音生成テキストキューからシーン固有のサウンドエフェクトを生成します。
- タイムアライメント生成されるサウンドエフェクトがビデオコンテンツと時間的に同期していることを確認してください。
- グラディオ・インターフェイス音作りのためのユーザーフレンドリーなインターフェースを提供します。
- オープンソース開発者による二次開発やカスタマイズを容易にするために、完全なコードベースが提供されています。
ヘルプの使用
設置プロセス
- 環境を整える::
- Conda環境をインストールする:
conda env create -f requirements/environment.yaml
- 環境を活性化させる:
コンダ活性化フォーリークラフター
- Git LFSをインストールします:
conda install git-lfs
を実行する。git lfs install
- Conda環境をインストールする:
- ダウンロード Checkpoints::
- うごきだす
推論.py
チェックポイントを自動的にダウンロードするか、手動でダウンロードしてチェックポイント
カタログ
- うごきだす
- Gradioインターフェースの起動::
- うごきだす
python app.py --share
Gradioインターフェイスを起動します。
- うごきだす
使用プロセス
- ビデオからオーディオへ::
- うごきだす
python inference.py --save_dir=output/sora/
生成されたオーディオファイルを指定されたディレクトリに保存します。
- うごきだす
- タイムアライメント::
- うごきだす
python inference.py --temporal_align --input=input/avsync --save_dir=output/avsync/
生成される効果音は、ビデオコンテンツの時間と同期している。
- うごきだす
- テキストアラート音生成::
- うごきだす
python inference.py --input=input/PromptControl/case1/ --seed=10201304011203481429 --prompt='noisy, people talking' --save_dir=output/PromptControl/case1_prompt/
効果音は、テキストを手掛かりに特定のシーンに合わせて生成される。
- うごきだす
詳細な手順
- 環境を整える::
- Condaのダウンロードとインストール: https://docs.conda.io/en/latest/miniconda.html
- プロジェクトコードをクローンする:
git clone https://github.com/open-mmlab/foleycrafter.git
- プロジェクト・カタログにアクセスする:
CDフォーリークラフター
- 上記の手順に従って、依存関係をインストールし、環境を設定する。
- ダウンロード Checkpoints::
- チェックポイント・ファイルをダウンロードして置き、ディレクトリ構造が以下のようになっていることを確認する:
チェックポイント セマンティック ├── semantic_adapter.bin ボコーダー │ ├── vocoder.pt ├── config.json ├── temporal_adapter.ckpt │ └── timestamp_detector.pth.tar
- Gradioインターフェースの起動::
- うごきだす
python app.py --share
ブラウザーからアクセスできるGradioインターフェイスを起動する。
- うごきだす
- 効果音の生成::
- 必要に応じてさまざまな生成モード(ビデオからオーディオ、タイムアライメント、テキストキュー)を選択し、対応するコマンドを実行してサウンドファイルを生成する。
以上の手順で、ユーザーは簡単にFoleyCrafterを使い始めることができ、無音ビデオに鮮やかで同期したサウンドエフェクトを追加して、オーディオビジュアル体験を向上させることができます。 /n