STAR：映像解像度の鮮明度を向上させる空間タイミング拡張AIモデル

はじめに

STAR (Spatial-Temporal Augmentation with Text-to-Video Models)は、南京大学、ByteDance、西南大学によって共同開発された革新的なビデオ超解像フレームワークである。このプロジェクトは、実世界のビデオ超解像処理における重要な問題を解決することに特化しており、テキスト-ビデオ（T2V）拡散モデルの先験的知識を組み合わせることにより、ビデオフレームの高品質なエンハンスメントを実現する。STARモデルの特徴は、空間的な詳細の忠実性と時間的な一貫性を同時に維持する能力にあり、これは従来のGANベースのアプローチでは両立が困難な場合が多い。本プロジェクトでは、I2VGen-XLをベースとした軽量・高画質化処理モデルと、CogVideoX-5Bをベースとした高画質化処理モデルの2つの実装バージョンを提供しており、様々なシナリオにおける映像エンハンスメントのニーズに適応することが可能である。

機能一覧

多くの種類の映像劣化処理（軽度および重度）に対応した超解像再構成をサポート
キューワードの自動生成、Pllavaなどのツールを使った動画説明文生成のサポート
オンライン・デモ・プラットフォームの提供（HuggingFace Spaces）
720x480解像度のビデオ入力処理に対応
完全な推論コードと訓練済みモデルを提供する
ローカル情報拡張モジュール（LIEM）を統合し、画面の詳細な再構成の質を向上。
バッチビデオ処理をサポート
柔軟なモデルの重み付けオプションを提供

ヘルプの使用

1.環境構成

まず、以下のようにランタイム環境を設定する必要がある：

コードリポジトリをクローンする：

git clone https://github.com/NJU-PCALab/STAR.git
cd STAR

conda環境を作成し、有効化する：

conda create -n star python=3.10
conda activate star
pip install -r requirements.txt
sudo apt-get update && apt-get install ffmpeg libsm6 libxext6 -y

2.モデルの選択とダウンロード

STARは2種類のモデルを提供している：

I2VGen-XLベースのモデル：
- light_deg.pt: 光劣化ビデオ処理用
- heavy_deg.pt：激しく劣化したビデオ処理用
CogVideoX-5Bベースのモデル：
- 特に劣化の激しい映像を扱うように設計されている
- 720x480解像度の入力にのみ対応

HuggingFaceから適切なモデルウェイトをダウンロードし、それをpretrained_weight/カタログ

3.映像処理の流れ

テストデータを準備する：
- 処理するビデオをinput/video/ディレクトリ
- キュー・ワードの準備（3択）：
  - 問わず語り
  - Pllavaを使用して自動的に生成
  - 手動で動画の説明を書く
処理パラメータを設定する：
- 修正video_super_resolution/scripts/inference_sr.shのパスコンフィギュレーションは
  - video_folder_path: 入力ビデオのパス
  - txt_file_path: プロンプトファイルのパス
  - model_path：モデルのウェイトパス
  - save_dir: 出力保存パス
推論を始める：

bash video_super_resolution/scripts/inference_sr.sh

注：メモリーオーバーフロー（OOM）の問題が発生した場合はinference_sr.shミッドレンジマイナーframe_lengthパラメーター

4.CogVideoX-5Bモデルの特別な構成

CogVideoX-5Bモデルを使用する場合は、追加の手順が必要です：

専用の環境を作る：

conda create -n star_cog python=3.10
conda activate star_cog
cd cogvideox-based/sat
pip install -r requirements.txt

追加の依存関係をダウンロードする：

VAEとT5エンコーダのダウンロードが必要
更新cogvideox-based/sat/configs/cogvideox_5b/cogvideox_5b_infer_sr.yamlのパスコンフィギュレーションは
transformer.py ファイルを置き換える

文章版权归 AIシェアリングサークル所有，未经允许请勿转载。

Find My Kids：顔認証とWhatsApp通知による子供の安全監視ツール

4ヶ月前

01.3K

Clone AI（小冰数字人）：集成多种数字人制作与发布解决方案（付费/不推荐）

Clone AI（アイスデジモン）：デジモン生産・配信のための複数のソリューションを統合（有料／非推奨）

最新のAIリソース # AIオープンサービス # AIデジタルマン

8ヶ月前

02.4K

ローカル・ディープ・リサーチ：詳細な調査レポートを作成するためのローカルで実行可能なツール

3ヶ月前

01.3K

Buzz: オープンソースのオフライン音声書き起こし翻訳ツール｜IOS音声書き起こし

最新のAIリソース # AI音声合成

10ヶ月前

02.8K

コメントなし

コメントに参加するにはログインが必要です！

今すぐログイン

コメントはありません

STAR：映像解像度の鮮明度を向上させる空間タイミング拡張AIモデル

はじめに

機能一覧

ヘルプの使用

1.環境構成

2.モデルの選択とダウンロード

3.映像処理の流れ

4.CogVideoX-5Bモデルの特別な構成

ImBD：AIによって生成されたコンテンツの検出。

Sana Labs: 企業のナレッジマネジメントと従業員教育科学のためのAIツール

関連記事

Find My Kids：顔認証とWhatsApp通知による子供の安全監視ツール

Clone AI（アイスデジモン）：デジモン生産・配信のための複数のソリューションを統合（有料／非推奨）

ローカル・ディープ・リサーチ：詳細な調査レポートを作成するためのローカルで実行可能なツール

Buzz: オープンソースのオフライン音声書き起こし翻訳ツール｜IOS音声書き起こし

コメントなし

最新コレクション

最新記事

STAR：映像解像度の鮮明度を向上させる空間タイミング拡張AIモデル

はじめに

機能一覧

ヘルプの使用

1.環境構成

2.モデルの選択とダウンロード

3.映像処理の流れ

4.CogVideoX-5Bモデルの特別な構成

ImBD：AIによって生成されたコンテンツの検出。

Sana Labs: 企業のナレッジマネジメントと従業員教育科学のためのAIツール

関連記事

Find My Kids：顔認証とWhatsApp通知による子供の安全監視ツール

Clone AI（アイスデジモン）：デジモン生産・配信のための複数のソリューションを統合（有料／非推奨）

ローカル・ディープ・リサーチ：詳細な調査レポートを作成するためのローカルで実行可能なツール

Buzz: オープンソースのオフライン音声書き起こし翻訳ツール｜IOS音声書き起こし

コメントなし

厳選されたAIツール

最新コレクション

最新記事