SkyReels-V1: modelos de vídeo de código abierto para generar vídeos de acción humana de alta calidad

Últimos recursos sobre IAActualizado hace 11 meses Círculo de intercambio de inteligencia artificial

86.7K 00

Introducción general

SkyReels-V1 es un proyecto de código abierto desarrollado por el equipo SkyworkAI centrado en la generación de contenidos de vídeo de alta calidad centrados en el ser humano. El proyecto se basa en HunyuanVídeo El modelo Sky2V es el primer modelo de vídeo de acción humana básica del mundo, creado mediante el ajuste fino de decenas de millones de clips de cine y televisión de alta calidad. La naturaleza de código abierto de SkyReels-V1 lo distingue de otras herramientas de su clase y lo hace adecuado para que creadores, educadores e investigadores de IA lo utilicen en bocetos, animaciones o exploración tecnológica. El proyecto está alojado en GitHub. El proyecto está alojado en GitHub y proporciona código detallado, pesos de los modelos y documentación para que los usuarios puedan empezar a utilizarlo rápidamente.

Lista de funciones

Texto a vídeo (T2V)Generar vídeos animados a partir de descripciones textuales introducidas por el usuario, como "Un gato con gafas de sol trabaja de socorrista en la piscina".
Imagen a vídeo (I2V)Convierte imágenes fijas en vídeo en movimiento, conservando las características originales de la imagen y añadiendo movimiento natural.
Animación facial avanzada: Admite 33 expresiones sutiles y más de 400 combinaciones de movimientos, que reproducen con precisión las emociones humanas y el lenguaje corporal.
Imagen de calidad cinematográfica: Formación con datos de alta calidad de cine y televisión para proporcionar composición profesional, efectos de iluminación y sentido de la cámara.
Marco de razonamiento eficienteGeneración rápida de vídeo mediante SkyReelsInfer, compatible con la computación paralela multi-GPU para mejorar la eficacia de la generación.
Ajuste flexible de parámetrosParámetros definibles por el usuario, como la resolución de vídeo (por ejemplo, 544x960), la frecuencia de imagen (por ejemplo, 97 fps) y la escala de guía.
Ponderación del modelo de código abiertoModelo preentrenado: proporcionar modelos preentrenados para su descarga directa y desarrollo secundario por parte de los desarrolladores.

Utilizar la ayuda

Proceso de instalación

SkyReels-V1 es una herramienta basada en Python que requiere cierto soporte de hardware y software. A continuación se detallan los pasos de instalación y uso:

Requisitos medioambientales

softwareSe recomienda utilizar ordenadores con GPU NVIDIA como RTX 4090 o A800 para garantizar la compatibilidad con CUDA.
sistema operativo: Windows, Linux o macOS (este último puede requerir una configuración adicional).
dependencia del softwarePython 3.10+, CUDA 12.2, PyTorch, Git.

Pasos de la instalación

almacén de clones
Abra un terminal e introduzca el siguiente comando para descargar el código del proyecto SkyReels-V1:

git clone https://github.com/SkyworkAI/SkyReels-V1.git
cd SkyReels-V1

Esto creará una carpeta de proyecto localmente.

Creación de un entorno virtual(Opcional pero recomendado)
Para evitar conflictos de dependencias, se recomienda un entorno virtual:

conda create -n skyreels python=3.10
conda activate skyreels

Instalación de dependencias
El proyecto ofrece un requirements.txt ejecute el siguiente comando para instalar las bibliotecas necesarias:

pip install -r requirements.txt

Asegúrese de que la red está abierta, puede tardar unos minutos en completarse la instalación.

Descargar modelos de pesos
Los pesos del modelo para SkyReels-V1 están alojados en Hugging Face y pueden descargarse localmente de forma manual o especificando la ruta directamente a través del código. Acceda a Página del modelo Hugging FaceDescargar SkyReels-V1-Hunyuan-T2V situada en el directorio del proyecto (por ejemplo /path/to/SkyReels-V1/models).
Verificar la instalación
Ejecute el comando de ejemplo para comprobar si el entorno funciona:

python3 video_generate.py --model_id ./models/SkyReels-V1-Hunyuan-T2V --prompt "FPS-24, A dog running in a park"

Si no se informa de ningún error y se genera un vídeo, la instalación se ha realizado correctamente.

Funcionamiento de las funciones principales

Texto a vídeo (T2V)

Preparación de las señales
Escribe un cue que describa el contenido del vídeo, tiene que empezar por "FPS-24", por ejemplo:

FPS-24, A cat wearing sunglasses and working as a lifeguard at a pool

Ejecute el comando generate
Introduzca el siguiente comando en el terminal:

python3 video_generate.py 
--model_id /path/to/SkyReels-V1-Hunyuan-T2V 
--guidance_scale 6.0 
--height 544 
--width 960 
--num_frames 97 
--prompt "FPS-24, A cat wearing sunglasses and working as a lifeguard at a pool" 
--embedded_guidance_scale 1.0 
--quant --offload --high_cpu_memory 
--gpu_num 1

--guidance_scale: Controla la intensidad de la dirección del texto, recomendado 6.0.
--height responder cantando --width: Ajusta la resolución de vídeo, por defecto 544x960.
--num_frames: Genera fotogramas, 97 fotogramas equivalen aproximadamente a 4 segundos de vídeo (24 FPS).
--quanty--offload: Optimiza el uso de memoria para dispositivos de gama baja.

resultado de salida
El vídeo generado se guardará en la carpeta results/skyreels con el nombre de archivo cue word + seed value, por ejemplo. FPS-24_A_cat_wearing_sunglasses_42_0.mp4.

Imagen a vídeo (I2V)

Preparación de la imagen
Suba una imagen fija (por ejemplo, PNG o JPG), asegurándose de que sea clara, con una resolución recomendada cercana a 544x960.
Ejecutar comando
aumentar --task_type i2v responder cantando --image parámetros, por ejemplo:

python3 video_generate.py 
--model_id /path/to/SkyReels-V1-Hunyuan-T2V 
--task_type i2v 
--guidance_scale 6.0 
--height 544 
--width 960 
--num_frames 97 
--prompt "FPS-24, A person dancing" 
--image ./input/cat_photo.png 
--embedded_guidance_scale 1.0

Ver resultados
El vídeo de salida generará contenido dinámico basado en la imagen, también guardada en el results/skyreels Carpeta.

Ajuste de parámetros para optimizar los resultados

Frecuencia de imagen y duración:: Modificación --num_frames responder cantando --fps(por defecto 24), o 240 fps para vídeos de 10 segundos.
calidad de imagen:: Aumentar --num_inference_steps(por defecto 30), que mejora el detalle pero tarda más.
Soporte Multi-GPU: Ajustes --gpu_num para el número de GPU disponibles para acelerar el procesamiento.

Función destacada Operación

Animación facial avanzada

Lo más destacado de SkyReels-V1 es su capacidad de animación facial. La señal describe una expresión concreta (por ejemplo, "sorprendido" o "sonriente") y el modelo genera automáticamente una de las 33 expresiones con movimientos naturales. Por ejemplo:

FPS-24, Una mujer riendo a carcajadas en un café

Una vez generados, los personajes del vídeo muestran sonrisas y micromovimientos corporales realistas con detalles comparables a los de la acción en vivo.

Gráficos de calidad cinematográfica

Sin necesidad de configuración adicional, SkyReels-V1 produce vídeo con iluminación y composición profesionales de forma predeterminada. Añade una descripción de la escena a la entrada (por ejemplo, "bajo luces de neón por la noche") para conseguir un aspecto más cinematográfico.

advertencia

limitación de hardwareSi la memoria de la GPU es insuficiente (por ejemplo, menos de 12 GB), se recomienda activar la opción --quant responder cantando --offloado reducir la resolución a 512x320.
técnica de la palabra claveDescripciones concisas y específicas: las descripciones concisas y específicas funcionan mejor, evite las palabras vagas.
Apoyo comunitarioVisita la página de incidencias de GitHub para enviar tus comentarios o echa un vistazo a los debates de la comunidad.

Con estos pasos, los usuarios pueden empezar a utilizar fácilmente SkyReels-V1 y generar contenidos de vídeo de alta calidad, ya sea para bocetos cortos o experimentos de animación.