SkyReels-V1: modelos de vídeo de código abierto para generar vídeos de acción humana de alta calidad
Últimos recursos sobre IAActualizado hace 6 meses Círculo de intercambio de inteligencia artificial 19.5K 00
Introducción general
SkyReels-V1 es un proyecto de código abierto desarrollado por el equipo SkyworkAI centrado en la generación de contenidos de vídeo de alta calidad centrados en el ser humano. El proyecto se basa en HunyuanVídeo El modelo Sky2V es el primer modelo de vídeo de acción humana básica del mundo, creado mediante el ajuste fino de decenas de millones de clips de cine y televisión de alta calidad. La naturaleza de código abierto de SkyReels-V1 lo distingue de otras herramientas de su clase y lo hace adecuado para que creadores, educadores e investigadores de IA lo utilicen en bocetos, animaciones o exploración tecnológica. El proyecto está alojado en GitHub. El proyecto está alojado en GitHub y proporciona código detallado, pesos de los modelos y documentación para que los usuarios puedan empezar a utilizarlo rápidamente.

Lista de funciones
- Texto a vídeo (T2V)Generar vídeos animados a partir de descripciones textuales introducidas por el usuario, como "Un gato con gafas de sol trabaja de socorrista en la piscina".
- Imagen a vídeo (I2V)Convierte imágenes fijas en vídeo en movimiento, conservando las características originales de la imagen y añadiendo movimiento natural.
- Animación facial avanzada: Admite 33 expresiones sutiles y más de 400 combinaciones de movimientos, que reproducen con precisión las emociones humanas y el lenguaje corporal.
- Imagen de calidad cinematográfica: Formación con datos de alta calidad de cine y televisión para proporcionar composición profesional, efectos de iluminación y sentido de la cámara.
- Marco de razonamiento eficienteGeneración rápida de vídeo mediante SkyReelsInfer, compatible con la computación paralela multi-GPU para mejorar la eficacia de la generación.
- Ajuste flexible de parámetrosParámetros definibles por el usuario, como la resolución de vídeo (por ejemplo, 544x960), la frecuencia de imagen (por ejemplo, 97 fps) y la escala de guía.
- Ponderación del modelo de código abiertoModelo preentrenado: proporcionar modelos preentrenados para su descarga directa y desarrollo secundario por parte de los desarrolladores.
Utilizar la ayuda
Proceso de instalación
SkyReels-V1 es una herramienta basada en Python que requiere cierto soporte de hardware y software. A continuación se detallan los pasos de instalación y uso:
Requisitos medioambientales
- softwareSe recomienda utilizar ordenadores con GPU NVIDIA como RTX 4090 o A800 para garantizar la compatibilidad con CUDA.
- sistema operativo: Windows, Linux o macOS (este último puede requerir una configuración adicional).
- dependencia del softwarePython 3.10+, CUDA 12.2, PyTorch, Git.
Pasos de la instalación
- almacén de clones
Abra un terminal e introduzca el siguiente comando para descargar el código del proyecto SkyReels-V1:
git clone https://github.com/SkyworkAI/SkyReels-V1.git
cd SkyReels-V1
Esto creará una carpeta de proyecto localmente.
- Creación de un entorno virtual(Opcional pero recomendado)
Para evitar conflictos de dependencias, se recomienda un entorno virtual:
conda create -n skyreels python=3.10
conda activate skyreels
- Instalación de dependencias
El proyecto ofrece unrequirements.txt
ejecute el siguiente comando para instalar las bibliotecas necesarias:
pip install -r requirements.txt
Asegúrese de que la red está abierta, puede tardar unos minutos en completarse la instalación.
- Descargar modelos de pesos
Los pesos del modelo para SkyReels-V1 están alojados en Hugging Face y pueden descargarse localmente de forma manual o especificando la ruta directamente a través del código. Acceda a Página del modelo Hugging FaceDescargarSkyReels-V1-Hunyuan-T2V
situada en el directorio del proyecto (por ejemplo/path/to/SkyReels-V1/models
). - Verificar la instalación
Ejecute el comando de ejemplo para comprobar si el entorno funciona:
python3 video_generate.py --model_id ./models/SkyReels-V1-Hunyuan-T2V --prompt "FPS-24, A dog running in a park"
Si no se informa de ningún error y se genera un vídeo, la instalación se ha realizado correctamente.
Funcionamiento de las funciones principales
Texto a vídeo (T2V)
- Preparación de las señales
Escribe un cue que describa el contenido del vídeo, tiene que empezar por "FPS-24", por ejemplo:
FPS-24, A cat wearing sunglasses and working as a lifeguard at a pool
- Ejecute el comando generate
Introduzca el siguiente comando en el terminal:
python3 video_generate.py
--model_id /path/to/SkyReels-V1-Hunyuan-T2V
--guidance_scale 6.0
--height 544
--width 960
--num_frames 97
--prompt "FPS-24, A cat wearing sunglasses and working as a lifeguard at a pool"
--embedded_guidance_scale 1.0
--quant --offload --high_cpu_memory
--gpu_num 1
--guidance_scale
: Controla la intensidad de la dirección del texto, recomendado 6.0.--height
responder cantando--width
: Ajusta la resolución de vídeo, por defecto 544x960.--num_frames
: Genera fotogramas, 97 fotogramas equivalen aproximadamente a 4 segundos de vídeo (24 FPS).--quant
y--offload
: Optimiza el uso de memoria para dispositivos de gama baja.
- resultado de salida
El vídeo generado se guardará en la carpetaresults/skyreels
con el nombre de archivo cue word + seed value, por ejemplo.FPS-24_A_cat_wearing_sunglasses_42_0.mp4
.
Imagen a vídeo (I2V)
- Preparación de la imagen
Suba una imagen fija (por ejemplo, PNG o JPG), asegurándose de que sea clara, con una resolución recomendada cercana a 544x960. - Ejecutar comando
aumentar--task_type i2v
responder cantando--image
parámetros, por ejemplo:
python3 video_generate.py
--model_id /path/to/SkyReels-V1-Hunyuan-T2V
--task_type i2v
--guidance_scale 6.0
--height 544
--width 960
--num_frames 97
--prompt "FPS-24, A person dancing"
--image ./input/cat_photo.png
--embedded_guidance_scale 1.0
- Ver resultados
El vídeo de salida generará contenido dinámico basado en la imagen, también guardada en elresults/skyreels
Carpeta.
Ajuste de parámetros para optimizar los resultados
- Frecuencia de imagen y duración:: Modificación
--num_frames
responder cantando--fps
(por defecto 24), o 240 fps para vídeos de 10 segundos. - calidad de imagen:: Aumentar
--num_inference_steps
(por defecto 30), que mejora el detalle pero tarda más. - Soporte Multi-GPU: Ajustes
--gpu_num
para el número de GPU disponibles para acelerar el procesamiento.
Función destacada Operación
Animación facial avanzada
Lo más destacado de SkyReels-V1 es su capacidad de animación facial. La señal describe una expresión concreta (por ejemplo, "sorprendido" o "sonriente") y el modelo genera automáticamente una de las 33 expresiones con movimientos naturales. Por ejemplo:
FPS-24, Una mujer riendo a carcajadas en un café
Una vez generados, los personajes del vídeo muestran sonrisas y micromovimientos corporales realistas con detalles comparables a los de la acción en vivo.
Gráficos de calidad cinematográfica
Sin necesidad de configuración adicional, SkyReels-V1 produce vídeo con iluminación y composición profesionales de forma predeterminada. Añade una descripción de la escena a la entrada (por ejemplo, "bajo luces de neón por la noche") para conseguir un aspecto más cinematográfico.
advertencia
- limitación de hardwareSi la memoria de la GPU es insuficiente (por ejemplo, menos de 12 GB), se recomienda activar la opción
--quant
responder cantando--offload
o reducir la resolución a 512x320. - técnica de la palabra claveDescripciones concisas y específicas: las descripciones concisas y específicas funcionan mejor, evite las palabras vagas.
- Apoyo comunitarioVisita la página de incidencias de GitHub para enviar tus comentarios o echa un vistazo a los debates de la comunidad.
Con estos pasos, los usuarios pueden empezar a utilizar fácilmente SkyReels-V1 y generar contenidos de vídeo de alta calidad, ya sea para bocetos cortos o experimentos de animación.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...