VACE: ビデオ制作・編集のためのオープンソースモデル（オープンではない）

24.1K 00

はじめに

VACEはAlitongyi Visual Intelligence Lab (ali-vilab)によって開発されたオープンソースプロジェクトで、ビデオの作成と編集に焦点を当てています。リファレンスに基づいた動画の生成、既存の動画コンテンツの編集、ローカライズの修正など、様々な機能を統合したオールインワンツールである。柔軟性と効率性を念頭に設計されたVACEは、ユーザーが自由に機能を組み合わせることをサポートし、クリエイター、開発者、そして一般ユーザーにも適している。VACEのコードはGitHubで公開されており、誰でも無料でダウンロード、研究、改良することができる。VACEの開発チームは、Aliの強力な技術サポートに依存し、人工知能と映像処理の最新の成果を組み合わせることで、強力かつ実用的なクリエイションプラットフォームをユーザーに提供している。

機能一覧

リファレンス・ジェネレーション・ビデオ（R2V）画像やビデオクリップなど、与えられた参照素材に基づいて、新しいビデオコンテンツを生成します。
ビデオからビデオへの編集（V2V）色調の調整や背景の入れ替えなど、既存のビデオの全体的なスタイルや内容を変更します。
マスクビデオ編集（MV2V）ローカル編集に対応しており、ビデオの特定の領域を選択してマスクで修正することができます。
モーションコントロールキャラクターを指定した位置に移動させるなど、映像内のオブジェクトの動きの軌跡を調整します。
本体交換ビデオの中の主語（人や物など）を他のものに置き換える。
スクリーンの拡大ビデオフレームを拡張して、元の境界を超えたフレームを生成する。
アニメーション・ジェネレーション静止画像をダイナミックなアニメーション効果に変換します。

ヘルプの使用

VACEはオープンソースプロジェクトであり、主に一定の技術基盤を持つユーザーを対象としています。既製のグラフィカルインターフェースはなく、コードを通じて実行する必要があります。以下は、すぐに使い始めるための詳細なガイドです。

設置プロセス

環境を整える
- Python 3.9以上がコンピュータにインストールされていることを確認してください。コマンドラインから次のように入力します。 python --version チェックする。
- GitHubからコードをダウンロードするためのGitツールをインストールする。Gitツールは、Windowsユーザーはgit-scm.comから、Macユーザーはgit-scm.comからダウンロードできる。 brew install git インストール。
- VACEはGPUアクセラレーションに依存するため、NVIDIA GPUおよびCUDAのサポートが必要です。GPUを持っていない場合は、CPUモードを試すことができますが、パフォーマンスは低下します。
ダウンロードコード
- ターミナル（Windowsの場合はCMDまたはPowerShell、Macの場合はターミナル）を開く。
- 以下のコマンドを入力して、VACEリポジトリをクローンします：
```
git clone https://github.com/ali-vilab/VACE.git
```
- クローニングが完了したら、プロジェクトフォルダーに移動する：
```
cd VACE
```
依存関係のインストール
- VACEにはPythonライブラリのサポートが必要です。次のコマンドを実行してインストールしてください：
```
pip install -r requirements.txt
```
- エラーが発生した場合は、ネットワーク接続を確認するか、pipを更新してください。 pip install --upgrade pip).
- GPUユーザーの場合は、PyTorchと対応するCUDAバージョンなどを必ずインストールしてください：
```
pip install torch torchvision --extra-index-url https://download.pytorch.org/whl/cu118
```
インストールの確認
- インストールが完了したら、簡単なテスト・コマンドを実行して、環境に問題がないことを確認する：
```
python -c "import torch; print(torch.cuda.is_available())"
```
- リターン Trueもしそうなら FalseCUDAがインストールされていない場合は、CUDAのインストールを確認する必要があるかもしれません。

使用方法

VACEの操作は主にコマンドラインを通じて行われ、ユーザは設定ファイルを記述してPythonスクリプトを実行する必要があります。以下に、主な機能の詳細なフローを示します。

機能1：リファレンス・ジェネレーション・ビデオ（R2V）

動く
1. 画像（JPG、PNG）や動画（MP4形式）などの参考素材を用意する。
2. 設定ファイルを作成する。 config_r2v.yaml内容はGitHub上のサンプルを参照しています（通常は configs (フォルダ）。設定ファイルは、入力パスと、解像度、フレームレートなどの出力パラメータを指定する。
3. ターミナルでコマンドを実行する：
```
python inference.py --cfg config_r2v.yaml
```
4. 生成されたビデオは、指定した出力フォルダ（デフォルトは output (フォルダ）。
典型例
- 設定ファイルに「Little boy running to the right in the sunshine（太陽の下、右に向かって走る少年）」という説明とともに少年の写真を入力します。VACEを実行すると、少年が走っている動画が生成されます。

機能2：ビデオからビデオへの編集（V2V）

動く
1. 編集が必要なビデオを用意する。 input.mp4.
2. 設定ファイルの編集 config_v2v.yaml背景を草原に変更したい場合は、「背景を草原に変更」のように編集対象を設定する。
3. コマンドを実行する：
```
python inference.py --cfg config_v2v.yaml
```
4. 編集されたビデオは自動的に保存されます。
典型例
- 街の通りのビデオを入力し、設定ファイルに「背景を森に置き換える」と書くと、森の中を歩くキャラクターが映し出される。

機能3：マスクビデオ編集（MV2V）

動く
1. ビデオとマスクファイルを用意する（マスクは白黒の画像で、白い部分が編集部分を示す）。
2. コンフィギュレーション・ファイルで config_mv2v.yaml マスク」でビデオパスとマスクパスを指定し、「マスク部分をライオンに置き換える」などの編集内容を設定する。
3. コマンドを実行する：
```
python inference.py --cfg config_mv2v.yaml
```
4. 結果が表示され、マスクされた領域が置き換えられます。
典型例
- コーヒーショップのビデオに入り、マスクでテーブルの上のカップを選択し、"子猫 "に置き換える。

機能4：モーションコントロールと被写体の交換

動く
1. 例えば、「馬を左へ走らせる」など、目標とする動作の動画と説明を用意する。
2. 設定ファイルでアクションのパラメーターを設定するか、ボディを置き換える（例："horse replaced by cow"）。
3. コマンドを実行して新しいビデオを生成する。
典型例
- 乗馬のビデオを入力し、「右へ走る馬、紫色の髪の騎手に置き換える」と設定すると、紫色の髪の騎手が馬に乗って右へ走る結果が表示される。

取り扱い上の注意

設定ファイル形式YAMLファイルは厳密なので、インデントと構文に注意してください。
ハードウェア要件少なくとも12GBのRAMを搭載したGPUを推奨します。そうでない場合は、メモリフットプリントを減らすためにパラメータを調整する必要があるかもしれません。
デバッグのヒントよくある問題は、パスエラーや依存関係の欠落です。
地域支援GitHubのIssuesページで質問すれば、開発者やコミュニティが答えてくれる。

以上の手順で、VACEを使って簡単にビデオを作成・編集することができます。VACEの威力はその柔軟性にあり、設定に慣れている限り、幅広い創造的なアイデアを実現することができます。