STAR : Modèle IA d'amélioration de la synchronisation spatiale pour améliorer la netteté de la résolution vidéo

Dernières ressources sur l'IAPosté il y a 8 mois Cercle de partage de l'IA

20.6K 00

Introduction générale

STAR (Spatial-Temporal Augmentation with Text-to-Video Models) est un cadre innovant de super-résolution vidéo développé conjointement par l'université de Nanjing, ByteDance et l'université de Southwest. Le projet se consacre à la résolution de problèmes clés dans le traitement de la super-résolution vidéo dans le monde réel et permet d'améliorer la qualité des images vidéo en combinant la connaissance a priori des modèles de diffusion texte-vidéo (T2V). La caractéristique distinctive du modèle STAR réside dans sa capacité à maintenir simultanément la fidélité des détails spatiaux et la cohérence temporelle, ce qui est souvent difficile à concilier avec les approches traditionnelles basées sur les réseaux d'analyse génique. Le projet propose deux versions de mise en œuvre : un modèle de traitement de réduction de la qualité léger et lourd basé sur I2VGen-XL, et un modèle de traitement de réduction de la qualité lourd basé sur CogVideoX-5B, qui est capable de s'adapter aux besoins d'amélioration de la vidéo dans différents scénarios.

Liste des fonctions

Prise en charge de la reconstruction en super-résolution pour de nombreux types de traitements de dégradation vidéo (légers et lourds)
Génération automatisée de mots clés, aide à la génération de descriptions vidéo à l'aide d'outils tels que Pllava
Mise à disposition d'une plateforme de démonstration en ligne (HuggingFace Spaces)
Prise en charge du traitement des entrées vidéo de résolution 720x480
Fournir un code d'inférence complet et des modèles pré-entraînés
Intégration du module d'amélioration de l'information locale (LIEM) pour améliorer la qualité de la reconstruction détaillée de l'écran
Prise en charge du traitement vidéo par lots
Offre des options flexibles de pondération des modèles

Utiliser l'aide

1. configuration de l'environnement

Vous devez d'abord configurer l'environnement d'exécution comme suit :

Cloner le dépôt de code :

git clone https://github.com/NJU-PCALab/STAR.git
cd STAR

Créer et activer l'environnement conda :

conda create -n star python=3.10
conda activate star
pip install -r requirements.txt
sudo apt-get update && apt-get install ffmpeg libsm6 libxext6 -y

2. sélection et téléchargement du modèle

STAR propose deux versions du modèle :

Modèle basé sur I2VGen-XL :
- light_deg.pt : pour le traitement vidéo de la dégradation de la lumière
- heavy_deg.pt : pour le traitement des vidéos fortement dégradées
Modèle basé sur CogVideoX-5B :
- Spécialement conçu pour traiter les vidéos fortement dégradées
- Prise en charge de la résolution 720x480 uniquement

Téléchargez les modèles de poids appropriés à partir de HuggingFace et placez-les dans l'espace de travail.pretrained_weight/Catalogue.

3. flux de traitement vidéo

Préparer les données d'essai :
- Placez la vidéo à traiter dans la fenêtreinput/video/répertoire (sur le disque dur de l'ordinateur)
- Préparation des mots-clés (trois choix) :
  - mot spontané
  - Généré automatiquement à l'aide de Pllava
  - Rédiger manuellement des descriptions de vidéos
Configurer les paramètres de traitement :
- modificationsvideo_super_resolution/scripts/inference_sr.shLa configuration du chemin d'accès dans le
  - video_folder_path : chemin d'accès à la vidéo d'entrée
  - txt_file_path : chemin d'accès au fichier d'invite
  - model_path : chemin du poids du modèle
  - save_dir : chemin d'enregistrement de la sortie
Amorcer le raisonnement :

bash video_super_resolution/scripts/inference_sr.sh

Note : Si vous rencontrez un problème de dépassement de mémoire (OOM), vous pouvez ajouter un nouveau fichier dans le dossierinference_sr.shmédium mineur (en musique)frame_lengthParamètres.

4. configuration spéciale du modèle CogVideoX-5B

Si vous utilisez le modèle CogVideoX-5B, des étapes supplémentaires sont nécessaires :

Créer un environnement dédié :

conda create -n star_cog python=3.10
conda activate star_cog
cd cogvideox-based/sat
pip install -r requirements.txt

Télécharger les dépendances supplémentaires :

Besoin de télécharger VAE et T5 Encoder
mise à jourcogvideox-based/sat/configs/cogvideox_5b/cogvideox_5b_infer_sr.yamlLa configuration du chemin d'accès dans le
Remplacement du fichier transformer.py

Dernières ressources sur l'IA # AI Agrandissement et restauration d'images # AI Java Open Source Projecct

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

1-2-1-MNVTON : Images efficaces, essayage virtuel de vêtements par des personnes dans des vidéos (à ouvrir)

Dernières ressources sur l'IA # AI Java Open Source Projecct # AI Face Swap and Dress Up (échange de visages et habillage)

Il y a 8 mois

017.2K

GraphRAG Visualizer：可视化和探索Microsoft GraphRAG工件的工具

GraphRAG Visualizer : un outil pour visualiser et explorer les artefacts Microsoft GraphRAG

Dernières ressources sur l'IA # AI Java Open Source Projecct # Knowledge Graph

Il y a 9 mois

018K

Facetune：专注人像美化的照片和视频编辑器，为人像细节提供大量滤镜（付费）

Facetune : éditeur de photos et de vidéos axé sur l'embellissement des portraits, avec de nombreux filtres pour les détails des portraits (payant)

Dernières ressources sur l'IA # AI Image Editor

Il y a 10 mois

019.5K

TalkMe : un partenaire virtuel doté d'une IA pour vous aider à vous entraîner à l'oral

Dernières ressources sur l'IA # Outils pédagogiques AI

Il y a 6 mois

018.6K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

STAR : Modèle IA d'amélioration de la synchronisation spatiale pour améliorer la netteté de la résolution vidéo

Introduction générale

Liste des fonctions

Utiliser l'aide

1. configuration de l'environnement

2. sélection et téléchargement du modèle

3. flux de traitement vidéo

4. configuration spéciale du modèle CogVideoX-5B

ImBD : détection de contenu généré par l'IA, permettant de déterminer si le contenu est généré par l'IA ou non.

Sana Labs : un outil d'IA pour la gestion des connaissances en entreprise et la science de la formation des employés

Articles connexes

1-2-1-MNVTON : Images efficaces, essayage virtuel de vêtements par des personnes dans des vidéos (à ouvrir)

GraphRAG Visualizer : un outil pour visualiser et explorer les artefacts Microsoft GraphRAG

Facetune : éditeur de photos et de vidéos axé sur l'embellissement des portraits, avec de nombreux filtres pour les détails des portraits (payant)

TalkMe : un partenaire virtuel doté d'une IA pour vous aider à vous entraîner à l'oral

Pas de commentaires

Dernières collections

Derniers articles

STAR : Modèle IA d'amélioration de la synchronisation spatiale pour améliorer la netteté de la résolution vidéo

Introduction générale

Liste des fonctions

Utiliser l'aide

1. configuration de l'environnement

2. sélection et téléchargement du modèle

3. flux de traitement vidéo

4. configuration spéciale du modèle CogVideoX-5B

ImBD : détection de contenu généré par l'IA, permettant de déterminer si le contenu est généré par l'IA ou non.

Sana Labs : un outil d'IA pour la gestion des connaissances en entreprise et la science de la formation des employés

Articles connexes

1-2-1-MNVTON : Images efficaces, essayage virtuel de vêtements par des personnes dans des vidéos (à ouvrir)

GraphRAG Visualizer : un outil pour visualiser et explorer les artefacts Microsoft GraphRAG

Facetune : éditeur de photos et de vidéos axé sur l'embellissement des portraits, avec de nombreux filtres pour les détails des portraits (payant)

TalkMe : un partenaire virtuel doté d'une IA pour vous aider à vous entraîner à l'oral

Pas de commentaires

Outils d'IA sélectionnés

Dernières collections

Derniers articles