AIパーソナル・ラーニング
と実践的なガイダンス

STAR:映像解像度の鮮明度を向上させる空間タイミング拡張AIモデル

はじめに

STAR (Spatial-Temporal Augmentation with Text-to-Video Models)は、南京大学、ByteDance、西南大学によって共同開発された革新的なビデオ超解像フレームワークである。このプロジェクトは、実世界のビデオ超解像処理における重要な問題を解決することに特化しており、テキスト-ビデオ(T2V)拡散モデルの先験的知識を組み合わせることにより、ビデオフレームの高品質なエンハンスメントを実現する。STARモデルの特徴は、空間的な詳細の忠実性と時間的な一貫性を同時に維持する能力にあり、これは従来のGANベースのアプローチでは両立が困難な場合が多い。本プロジェクトでは、I2VGen-XLをベースとした軽量・高画質化処理モデルと、CogVideoX-5Bをベースとした高画質化処理モデルの2つの実装バージョンを提供しており、様々なシナリオにおける映像エンハンスメントのニーズに適応することが可能である。

STAR: ビデオ解像度のシャープネスのための空間タイミング拡張AIモデル-1


 

機能一覧

  • 多くの種類の映像劣化処理(軽度および重度)に対応した超解像再構成をサポート
  • キューワードの自動生成、Pllavaなどのツールを使った動画説明文生成のサポート
  • オンライン・デモ・プラットフォームの提供(HuggingFace Spaces)
  • 720x480解像度のビデオ入力処理に対応
  • 完全な推論コードと訓練済みモデルを提供する
  • ローカル情報拡張モジュール(LIEM)を統合し、画面の詳細な再構成の質を向上。
  • バッチビデオ処理をサポート
  • 柔軟なモデルの重み付けオプションを提供

 

ヘルプの使用

1.環境構成

まず、以下のようにランタイム環境を設定する必要がある:

  1. コードリポジトリをクローンする:
git clone https://github.com/NJU-PCALab/STAR.git
cd STAR
  1. conda環境を作成し、有効化する:
conda create -n star python=3.10
condaがstarをアクティブにする
pip install -r requirements.txt
sudo apt-get update && apt-get install ffmpeg libsm6 libxext6 -y

2.モデルの選択とダウンロード

STARは2種類のモデルを提供している:

  • I2VGen-XLベースのモデル:
    • light_deg.pt: 光劣化ビデオ処理用
    • heavy_deg.pt:激しく劣化したビデオ処理用
  • CogVideoX-5Bベースのモデル:
    • 特に劣化の激しい映像を扱うように設計されている
    • 720x480解像度の入力にのみ対応

HuggingFaceから適切なモデルウェイトをダウンロードし、それをprerained_weight/カタログ

3.映像処理の流れ

  1. テストデータを準備する:
    • 処理するビデオを入力/ビデオディレクトリ
    • キュー・ワードの準備(3択):
      • 問わず語り
      • Pllavaを使用して自動的に生成
      • 手動で動画の説明を書く
  2. 処理パラメータを設定する:
    • 修正video_super_resolution/scripts/inference_sr.shのパスコンフィギュレーションは
      • video_folder_path: 入力ビデオのパス
      • txt_file_path: プロンプトファイルのパス
      • model_path:モデルのウェイトパス
      • save_dir: 出力保存パス
  3. 推論を始める:
bash video_super_resolution/scripts/inference_sr.sh

注:メモリーオーバーフロー(OOM)の問題が発生した場合は推論_sr.shミッドレンジマイナーフレーム長パラメーター

4.CogVideoX-5Bモデルの特別な構成

CogVideoX-5Bモデルを使用する場合は、追加の手順が必要です:

  1. 専用の環境を作る:
conda create -n star_cog python=3.10
conda star_cog をアクティブにする
cd cogvideox-based/sat
pip install -r requirements.txt
  1. 追加の依存関係をダウンロードする:
  • VAEとT5エンコーダのダウンロードが必要
  • 更新cogvideox ベース/sat/config/cogvideox_5b/cogvideox_5b_infer_sr.yamlのパスコンフィギュレーションは
  • transformer.py ファイルを置き換える
無断転載を禁じます:チーフAIシェアリングサークル " STAR:映像解像度の鮮明度を向上させる空間タイミング拡張AIモデル

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語