Wan2.1: Generación de vídeo de alta calidad en GPU de consumo

Últimos recursos sobre IAActualizado hace 1 año Círculo de intercambio de inteligencia artificial

84.2K 00

Introducción general

Wan2.1 es un conjunto de herramientas de generación de vídeo desarrollado por el equipo de Wan-Video y de código abierto en GitHub, centrado en ampliar los límites de la creación de vídeo mediante la tecnología de inteligencia artificial. Basado en una avanzada arquitectura de convertidor de difusión, integra un exclusivo autocodificador variable en el tiempo (Wan-VAE) que permite convertir texto en vídeo, imágenes en vídeo, etc. Los aspectos más destacados de Wan2.1 son su excelente rendimiento y su compatibilidad con hardware de consumo, como el modelo T2V-1.3B, que solo necesita 8,19 GB de memoria de vídeo para funcionar y genera vídeos de 5 segundos a 480P en la RTX 4090. vídeo en la RTX 4090. El proyecto no solo proporciona capacidades eficientes de generación de vídeo, sino que también admite la codificación y descodificación 1080P sin limitación de longitud, lo que lo hace ampliamente aplicable a creadores de contenidos, desarrolladores y equipos de investigación académica.

Noticia relacionada:El modelo de generación de vídeo VBench encabeza las listas... WanX 2.1 pronto será de código abierto.

Lista de funciones

Texto a vídeoGeneración de contenidos de vídeo dinámicos basados en descripciones de texto de entrada, con soporte de entrada de texto multilingüe.
Image-to-Video (Imagen a vídeo): Convierte imágenes fijas en vídeo en movimiento, manteniendo las proporciones originales y el movimiento natural de la imagen.
Edición de vídeoModifica u optimiza los vídeos existentes mediante la tecnología de IA.
Admite salida de alta resolución: Se pueden generar vídeos de 480P y 720P, y algunos modelos admiten 1080P sin límite de duración.
Tecnología Wan-VAE:: Proporciona una compresión temporal eficaz, admite la generación de vídeos largos y conserva la información temporal.
Optimización de la GPU de consumoFunciona con el hardware habitual, lo que reduce la barrera de uso.
soporte multitarea: Incluye extensiones de texto a imagen, de vídeo a audio y otras.
Generación de textos en chino e inglés: Genera textos claros en chino e inglés en los vídeos.

Utilizar la ayuda

Wan2.1 es una potente herramienta de generación de vídeo de código abierto para usuarios que desean generar rápidamente contenidos de vídeo de alta calidad. A continuación encontrará una guía detallada de instalación y uso que le ayudará a empezar rápidamente.

Proceso de instalación

La instalación de Wan2.1 requiere algunos conocimientos técnicos, principalmente a través del repositorio GitHub para obtener el código y los pesos del modelo. Estos son los pasos:

1. Preparación medioambiental

sistema operativoSoporte para Windows, Linux o macOS.
requisitos de hardwareGPU con al menos 8 GB de memoria de vídeo (por ejemplo, RTX 3060 Ti o 4090), se recomiendan las GPU Nvidia.
dependencia del softwarePython 3.10+, Git, controladores gráficos y CUDA (si se utiliza una GPU).
Instalación de PythonDescarga Python 3.10 o superior de la web oficial y marca la casilla "Add Python to PATH" durante la instalación.

2. Descarga de código y modelos

Abra un terminal o línea de comandos e introduzca el siguiente comando para clonar el repositorio:

git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1

Instalar bibliotecas dependientes:

pip install -r requirements.txt

Descargue los pesos del modelo de Cara Abrazada (T2V-1.3B como ejemplo):

pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-1.3B --local-dir ./Wan2.1-T2V-1.3B

Modelos opcionales: T2V-14B (mayor rendimiento, requiere más memoria de vídeo), I2V-480P/720P.

3. Entorno de configuración

Si la memoria de vídeo es escasa, activa los parámetros de optimización (p. ej. --offload_model True responder cantando --t5_cpu).
Asegúrese de que el controlador de la GPU y CUDA se han instalado correctamente utilizando el comando nvidia-smi Compruébalo.

4. Verificación de la instalación

Ejecute el siguiente comando para probar el entorno:

python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --prompt "测试视频生成"

Si sale el archivo de vídeo, la instalación se ha realizado correctamente.

Función Flujo de operaciones

Texto a vídeo

Texto preparado:: Escribe indicaciones descriptivas, por ejemplo: "Un gato camina grácilmente por la hierba mientras la cámara lo sigue".
Ejecutar comando:

python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --prompt "A cute cat walking gracefully on a lush green field"

parametrización:

--sizeAjuste la resolución (por ejemplo, 832)480 o 1280720).
--offload_model TrueOptimización de la memoria de vídeo.
--sample_shift 8 --sample_guide_scale 6:: Mejorar la calidad de la generación.

exportacionesEl vídeo generado se guarda en el directorio actual y dura aproximadamente 5 segundos.

Image-to-Video (Imagen a vídeo)

Preparación de la imagenSube una imagen JPG/PNG (p. ej. input.jpg).
Ejecutar comando:

python generate.py --task i2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-I2V-14B-720P --image input.jpg --prompt "Summer beach vacation style"

al finalEl modelo genera vídeo dinámico a partir de la imagen, manteniendo las proporciones originales y el movimiento natural.

Edición de vídeo

Entrada VídeoPrepara un archivo de vídeo existente.
Operaciones editoriales: Utilice una herramienta como DiffSynth-Studio (Wan 2.1 admite extensiones) para invocar el módulo correspondiente desde la línea de comandos.
ejemplo de comando (informática): Consulte la documentación de GitHub para obtener más detalles, y actualmente se admite la edición básica.

Salida de alta resolución

Utilizando el modelo T2V-14B o I2V-720P, ajuste el --size 1280*720Las tarjetas gráficas más recientes necesitarán más memoria (unos 17 GB).
Wan-VAE soporta 1080P sin limitación de longitud, adecuado para la generación de vídeos largos.

Generar texto en chino e inglés

Incluya una descripción textual en la pregunta, por ejemplo: "Un cartel que dice 'Bienvenido' en inglés y chino".
Ejecute el comando Texto a vídeo y el modelo incrustará automáticamente texto claro en el vídeo.

Trucos y consejos

optimizar el rendimiento: Para hardware de gama baja, se recomiendan modelos de 1,3B y resolución 480P; para hardware de gama alta, prueba con 14B y 720P.
Sugerencias de palabras clave: Mejora la calidad de la generación mediante descripciones detalladas (por ejemplo, acción, escena, iluminación).
Apoyo comunitarioÚnete a los grupos de debate de GitHub Issues o Discord para obtener ayuda.

Con estos pasos, podrás utilizar fácilmente Wan2.1 para generar contenidos de vídeo de calidad profesional tanto para presentaciones creativas como para investigaciones académicas.