STAR: modelo AI de mejora de la sincronización espacial para aumentar la nitidez de la resolución de vídeo

Últimos recursos sobre IAPublicado hace 12 meses Círculo de intercambio de inteligencia artificial

42.8K 00

Introducción general

STAR (Spatial-Temporal Augmentation with Text-to-Video Models) es un innovador marco de superresolución de vídeo desarrollado conjuntamente por la Universidad de Nanjing, ByteDance y la Universidad del Suroeste. El proyecto se dedica a resolver problemas clave en el procesamiento de la superresolución de vídeo en el mundo real, y consigue una mejora de alta calidad de los fotogramas de vídeo combinando el conocimiento a priori de los modelos de difusión de texto a vídeo (T2V). La característica distintiva del modelo STAR radica en su capacidad para mantener simultáneamente la fidelidad de los detalles espaciales y la coherencia temporal, lo que suele ser difícil de conciliar con los enfoques tradicionales basados en GAN. El proyecto ofrece dos versiones de implementación: un modelo de procesamiento de reducción de calidad ligera y pesada basado en I2VGen-XL, y un modelo de procesamiento de reducción de calidad pesada basado en CogVideoX-5B, capaz de adaptarse a las necesidades de mejora de vídeo en distintos escenarios.

Lista de funciones

Admite la reconstrucción de superresolución para muchos tipos de procesamiento de degradación de vídeo (ligero y pesado)
Generación automatizada de palabras clave, compatibilidad con la generación de descripciones de vídeo mediante herramientas como Pllava.
Puesta a disposición de una plataforma de demostración en línea (HuggingFace Spaces)
Admite procesamiento de entrada de vídeo con resolución 720x480
Código de inferencia completo y modelos preentrenados
Integración del módulo de mejora de la información local (LIEM) para mejorar la calidad de la reconstrucción detallada de la pantalla.
Admite el procesamiento de vídeo por lotes
Ofrece opciones flexibles de ponderación de modelos

Utilizar la ayuda

1. Configuración medioambiental

En primer lugar, es necesario configurar el entorno de ejecución de la siguiente manera:

Clonar el repositorio de código:

git clone https://github.com/NJU-PCALab/STAR.git
cd STAR

Crea y activa el entorno conda:

conda create -n star python=3.10
conda activate star
pip install -r requirements.txt
sudo apt-get update && apt-get install ffmpeg libsm6 libxext6 -y

2. Selección y descarga de modelos

STAR ofrece dos versiones del modelo:

Modelo basado en I2VGen-XL:
- light_deg.pt: para el procesamiento de vídeo con degradación lumínica
- heavy_deg.pt: para el tratamiento de vídeo muy degradado
Modelo basado en CogVideoX-5B:
- Diseñado específicamente para tratar vídeos muy degradados
- Sólo admite entradas con resolución 720x480

Descargue los pesos de modelo apropiados de HuggingFace y colóquelos en la carpetapretrained_weight/Catálogo.

3. Flujo de tratamiento de vídeo

Preparar los datos de las pruebas:
- Coloque el vídeo que desea procesar en elinput/video/directorio (en el disco duro del ordenador)
- Preparación de la palabra clave (tres opciones):
  - palabra no solicitada
  - Generado automáticamente con Pllava
  - Redactar manualmente las descripciones de los vídeos
Configure los parámetros de procesamiento:
- modificacionesvideo_super_resolution/scripts/inference_sr.shLa configuración de la ruta en el
  - ruta_carpeta_vídeo: ruta del vídeo de entrada
  - txt_file_path: ruta del archivo prompt
  - model_path: ruta del peso del modelo
  - save_dir: ruta de salida
Iniciar el razonamiento:

bash video_super_resolution/scripts/inference_sr.sh

Nota: Si se encuentra con un problema de desbordamiento de memoria (OOM), puede añadir un nuevo archivo en la carpetainference_sr.shrango medio menor (en música)frame_lengthParámetros.

4. Configuración especial del modelo CogVideoX-5B

Si utiliza el modelo CogVideoX-5B, se requieren pasos adicionales:

Cree un entorno dedicado:

conda create -n star_cog python=3.10
conda activate star_cog
cd cogvideox-based/sat
pip install -r requirements.txt

Descargar dependencias adicionales:

Necesidad de descargar VAE y T5 Encoder
actualizacióncogvideox-based/sat/configs/cogvideox_5b/cogvideox_5b_infer_sr.yamlLa configuración de la ruta en el
Sustitución del archivo transformer.py

Últimos recursos sobre IA # AI Ampliación y restauración de imágenes # AI Java Proyecto de código abierto

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

FastDeploy - Herramienta de Baidu de alto rendimiento para el razonamiento y despliegue de grandes modelos

Últimos recursos sobre IA

hace 5 meses

032.9K

InfiniteTalk - Herramienta de código abierto de generación de vídeo basado en audio para Mission Vision AI

Últimos recursos sobre IA

hace 4 meses

038.3K

Reor: una herramienta de gestión del conocimiento personal con enlaces automáticos, búsqueda semántica y fichas de inteligencia artificial.

Últimos recursos sobre IA # AI Notas

hace 10 meses

042.9K

EMO: Generación de vídeo de retrato de alta calidad basado en imágenes de retrato y audio de voz humana.

Últimos recursos sobre IA # AI Digital Man

hace 1 año

037.7K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

STAR: modelo AI de mejora de la sincronización espacial para aumentar la nitidez de la resolución de vídeo

Introducción general

Lista de funciones

Utilizar la ayuda

1. Configuración medioambiental

2. Selección y descarga de modelos

3. Flujo de tratamiento de vídeo

4. Configuración especial del modelo CogVideoX-5B

ImBD: detección de contenidos generados por IA, que detecta si el contenido está generado por IA o no.

Sana Labs: una herramienta de IA para la gestión del conocimiento empresarial y la ciencia de la formación de empleados

Artículos relacionados

FastDeploy - Herramienta de Baidu de alto rendimiento para el razonamiento y despliegue de grandes modelos

InfiniteTalk - Herramienta de código abierto de generación de vídeo basado en audio para Mission Vision AI

Reor: una herramienta de gestión del conocimiento personal con enlaces automáticos, búsqueda semántica y fichas de inteligencia artificial.

EMO: Generación de vídeo de retrato de alta calidad basado en imágenes de retrato y audio de voz humana.

Sin comentarios

Últimas colecciones

Últimos artículos

STAR: modelo AI de mejora de la sincronización espacial para aumentar la nitidez de la resolución de vídeo

Introducción general

Lista de funciones

Utilizar la ayuda

1. Configuración medioambiental

2. Selección y descarga de modelos

3. Flujo de tratamiento de vídeo

4. Configuración especial del modelo CogVideoX-5B

ImBD: detección de contenidos generados por IA, que detecta si el contenido está generado por IA o no.

Sana Labs: una herramienta de IA para la gestión del conocimiento empresarial y la ciencia de la formación de empleados

Artículos relacionados

FastDeploy - Herramienta de Baidu de alto rendimiento para el razonamiento y despliegue de grandes modelos

InfiniteTalk - Herramienta de código abierto de generación de vídeo basado en audio para Mission Vision AI

Reor: una herramienta de gestión del conocimiento personal con enlaces automáticos, búsqueda semántica y fichas de inteligencia artificial.

EMO: Generación de vídeo de retrato de alta calidad basado en imágenes de retrato y audio de voz humana.

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos