STAR: Spatial Timing Enhancement AI Model zur Verbesserung der Klarheit der Videoauflösung

Allgemeine Einführung

STAR (Spatial-Temporal Augmentation with Text-to-Video Models) ist ein innovativer Rahmen für Video-Superauflösung, der gemeinsam von der Nanjing University, ByteDance und der Southwest University entwickelt wurde. Das Projekt widmet sich der Lösung von Schlüsselproblemen in der realen Video-Superauflösungsverarbeitung und erreicht eine qualitativ hochwertige Verbesserung von Videobildern durch die Kombination von a priori Wissen über Text-zu-Video (T2V)-Diffusionsmodelle. Die Besonderheit des STAR-Modells liegt in seiner Fähigkeit, gleichzeitig räumliche Detailtreue und zeitliche Konsistenz zu erhalten, was mit traditionellen GAN-basierten Ansätzen oft schwer zu vereinbaren ist. Das Projekt bietet zwei Implementierungsversionen: ein leichtes und ein schweres Modell zur Qualitätsreduzierung auf der Grundlage von I2VGen-XL und ein schweres Modell zur Qualitätsreduzierung auf der Grundlage von CogVideoX-5B, das sich an die Anforderungen der Videoverbesserung in verschiedenen Szenarien anpassen lässt.

STAR: Spatial Timing Enhancement AI Model for Video Resolution Sharpness-1

Funktionsliste

Unterstützt die Super-Resolution-Rekonstruktion für viele Arten der Videoverschlechterung (leicht und schwer)
Automatische Generierung von Stichwörtern, Unterstützung für die Erstellung von Videobeschreibungen mit Hilfe von Tools wie Pllava
Bereitstellung einer Online-Demo-Plattform (HuggingFace Spaces)
Unterstützung der Videoeingangsverarbeitung mit einer Auflösung von 720x480
Bereitstellung von vollständigem Inferenzcode und vortrainierten Modellen
Integration des Local Information Enhancement Module (LIEM) zur Verbesserung der Qualität der detaillierten Rekonstruktion des Bildschirms
Unterstützung der Stapelverarbeitung von Videos
Bietet flexible Optionen zur Modellgewichtung

Hilfe verwenden

1. ökologische Konfiguration

Zunächst müssen Sie die Laufzeitumgebung wie folgt konfigurieren:

Klonen Sie das Code-Repository:

git clone https://github.com/NJU-PCALab/STAR.git
cd STAR

Erstellen und aktivieren Sie die conda-Umgebung:

conda create -n star python=3.10
conda star aktivieren
pip install -r anforderungen.txt
sudo apt-get update && apt-get install ffmpeg libsm6 libxext6 -y

2. die Modellauswahl und das Herunterladen

STAR bietet zwei Versionen des Modells an:

I2VGen-XL-basiertes Modell:
- light_deg.pt: für die Verarbeitung von Videos mit Lichtverschlechterung
- heavy_deg.pt: für stark degradierte Videoverarbeitung
CogVideoX-5B-basiertes Modell:
- Speziell entwickelt, um stark degradierte Videos zu verarbeiten
- Unterstützt nur Eingaben mit einer Auflösung von 720x480

Laden Sie die entsprechenden Modellgewichte von HuggingFace herunter und platzieren Sie sie in dervortrainiertes_Gewicht/Katalog.

3. der Ablauf der Videoverarbeitung

Bereiten Sie Testdaten vor:
- Legen Sie das zu bearbeitende Video in den OrdnerEingabe/Video/Verzeichnis (auf der Festplatte des Computers)
- Vorbereitung des Stichworts (drei Möglichkeiten):
  - unaufgefordertes Wort
  - Automatisch generiert mit Pllava
  - Manuelles Schreiben von Videobeschreibungen
Konfigurieren Sie die Verarbeitungsparameter:
- Änderungenvideo_super_auflösung/scripts/inference_sr.shDie Pfadkonfiguration in der Datei
  - video_folder_path: Pfad des Eingangsvideos
  - txt_file_path: Pfad der Prompt-Datei
  - model_path: Pfad der Modellgewichtung
  - save_dir: Speicherpfad der Ausgabe
Argumentation einleiten:

bash video_super_resolution/scripts/inference_sr.sh

Hinweis: Wenn Sie ein Problem mit einem Speicherüberlauf (OOM) haben, können Sie eine neue Datei in derinferenz_sr.shMitteltöniges Moll (in der Musik)frame_lengthParameter.

4. besondere Konfiguration des Modells CogVideoX-5B

Wenn Sie das Modell CogVideoX-5B verwenden, sind zusätzliche Schritte erforderlich:

Schaffen Sie eine eigene Umgebung:

conda create -n star_cog python=3.10
conda star_cog aktivieren
cd cogvideox-basiert/sat
pip install -r anforderungen.txt

Laden Sie zusätzliche Abhängigkeiten herunter:

VAE und T5 Encoder müssen heruntergeladen werden
Updatecogvideox-based/sat/configs/cogvideox_5b/cogvideox_5b_infer_sr.yamlDie Pfadkonfiguration in der Datei
Ersetzen der Datei transformer.py

STAR: Spatial Timing Enhancement AI Model zur Verbesserung der Schärfe der Videoauflösung

Allgemeine Einführung

Funktionsliste

Hilfe verwenden

1. ökologische Konfiguration

2. die Modellauswahl und das Herunterladen

3. der Ablauf der Videoverarbeitung

4. besondere Konfiguration des Modells CogVideoX-5B

Ähnliche Artikel

InvSR: Open-Source-Projekt zur Verbesserung der Qualität der Bildauflösung

DeOldify: das klassische Open-Source-Tool zum Einfärben von Schwarz-Weiß-Fotos und Videos mit Hilfe von KI-Techniken

InstantIR: Open-Source-Projekt zur Reparatur von beschädigten Bildern und hochauflösendem Bildzoom, mindestens 16G Videospeicher

Diffusers Image Outpaint: superstarkes Open-Source-KI-Bilderweiterungstool, Bildübermalung (Image Outpainting)

GFPGAN: Tencents Open-Source-Algorithmus zur Gesichtsreparatur

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

FLUX.1 Bildgenerator (unterstützt chinesische Eingaben)

Neuerscheinungen

Beliebte Artikel

Heiße Tags.

Chef-KI-Austauschkreis