はじめに
STAR (Spatial-Temporal Augmentation with Text-to-Video Models)は、南京大学、ByteDance、西南大学によって共同開発された革新的なビデオ超解像フレームワークである。このプロジェクトは、実世界のビデオ超解像処理における重要な問題を解決することに特化しており、テキスト-ビデオ(T2V)拡散モデルの先験的知識を組み合わせることにより、ビデオフレームの高品質なエンハンスメントを実現する。STARモデルの特徴は、空間的な詳細の忠実性と時間的な一貫性を同時に維持する能力にあり、これは従来のGANベースのアプローチでは両立が困難な場合が多い。本プロジェクトでは、I2VGen-XLをベースとした軽量・高画質化処理モデルと、CogVideoX-5Bをベースとした高画質化処理モデルの2つの実装バージョンを提供しており、様々なシナリオにおける映像エンハンスメントのニーズに適応することが可能である。
機能一覧
- 多くの種類の映像劣化処理(軽度および重度)に対応した超解像再構成をサポート
- キューワードの自動生成、Pllavaなどのツールを使った動画説明文生成のサポート
- オンライン・デモ・プラットフォームの提供(HuggingFace Spaces)
- 720x480解像度のビデオ入力処理に対応
- 完全な推論コードと訓練済みモデルを提供する
- ローカル情報拡張モジュール(LIEM)を統合し、画面の詳細な再構成の質を向上。
- バッチビデオ処理をサポート
- 柔軟なモデルの重み付けオプションを提供
ヘルプの使用
1.環境構成
まず、以下のようにランタイム環境を設定する必要がある:
- コードリポジトリをクローンする:
git clone https://github.com/NJU-PCALab/STAR.git
cd STAR
- conda環境を作成し、有効化する:
conda create -n star python=3.10
condaがstarをアクティブにする
pip install -r requirements.txt
sudo apt-get update && apt-get install ffmpeg libsm6 libxext6 -y
2.モデルの選択とダウンロード
STARは2種類のモデルを提供している:
- I2VGen-XLベースのモデル:
- light_deg.pt: 光劣化ビデオ処理用
- heavy_deg.pt:激しく劣化したビデオ処理用
- CogVideoX-5Bベースのモデル:
- 特に劣化の激しい映像を扱うように設計されている
- 720x480解像度の入力にのみ対応
HuggingFaceから適切なモデルウェイトをダウンロードし、それをprerained_weight/
カタログ
3.映像処理の流れ
- テストデータを準備する:
- 処理するビデオを
入力/ビデオ
ディレクトリ - キュー・ワードの準備(3択):
- 問わず語り
- Pllavaを使用して自動的に生成
- 手動で動画の説明を書く
- 処理するビデオを
- 処理パラメータを設定する:
- 修正
video_super_resolution/scripts/inference_sr.sh
のパスコンフィギュレーションは- video_folder_path: 入力ビデオのパス
- txt_file_path: プロンプトファイルのパス
- model_path:モデルのウェイトパス
- save_dir: 出力保存パス
- 修正
- 推論を始める:
bash video_super_resolution/scripts/inference_sr.sh
注:メモリーオーバーフロー(OOM)の問題が発生した場合は推論_sr.sh
ミッドレンジマイナーフレーム長
パラメーター
4.CogVideoX-5Bモデルの特別な構成
CogVideoX-5Bモデルを使用する場合は、追加の手順が必要です:
- 専用の環境を作る:
conda create -n star_cog python=3.10
conda star_cog をアクティブにする
cd cogvideox-based/sat
pip install -r requirements.txt
- 追加の依存関係をダウンロードする:
- VAEとT5エンコーダのダウンロードが必要
- 更新
cogvideox ベース/sat/config/cogvideox_5b/cogvideox_5b_infer_sr.yaml
のパスコンフィギュレーションは - transformer.py ファイルを置き換える