CFG-Zero-star: una herramienta de código abierto para mejorar la calidad de la generación de imágenes y vídeos
Últimos recursos sobre IAPublicado hace 5 meses Círculo de intercambio de inteligencia artificial 1.4K 00
Introducción general
CFG-Zero-star es un proyecto de código abierto desarrollado por Weichen Fan y el equipo S-Lab de la Universidad Tecnológica de Nanyang. Se centra en la mejora de la técnica Classifier Free Guidance (CFG) en modelos de correspondencia de flujos para aumentar la calidad de la generación de imágenes y vídeos mediante la optimización de la estrategia de guiado y el método de inicialización cero. Esta herramienta soporta tareas de generación de texto a imagen y de texto a vídeo, y puede adaptarse a Stable Diffusion 3, SD3.5, Wan-2.1 y otros modelos. El código es completamente abierto y se basa en la licencia Apache-2.0, lo que permite su uso para la investigación académica y el uso comercial. El proyecto ofrece demos en línea y documentación detallada para desarrolladores, investigadores o entusiastas de la IA.

Lista de funciones
- Mejora de la técnica CFG: optimización del bootstrapping sin clasificador para mejorar la calidad del contenido generado y la correspondencia de textos.
- Compatibilidad con la generación de imágenes: generación basada en texto de imágenes de alta calidad, compatible con Stable Diffusion 3 y SD3.5.
- Soporta generación de vídeo: genera vídeo dinámico, se adapta a Wan-2.1 y otros modelos de vídeo.
- Optimización de la inicialización cero: puesta a cero de la predicción al principio de la generación para mejorar la calidad de la muestra del modelo de correspondencia de flujos.
- Código fuente abierto: se proporciona el código completo y los usuarios son libres de descargarlo, modificarlo o contribuir a él.
- Interfaz de demostración de Gradio: Herramienta de pruebas en línea incorporada, sin necesidad de configuraciones complejas.
- Ajuste dinámico de parámetros: permite ajustar la intensidad de guiado y el número de pasos de inferencia para satisfacer distintas necesidades.
- Soporte de terceros integrado: Soporte para ComfyUI-KJNodes y extensiones Wan2.1GP.
Utilizar la ayuda
CFG-Zero-star es un proyecto de código abierto en GitHub que requiere que los usuarios configuren su propio entorno y ejecuten el código. A continuación encontrará una guía detallada de instalación y uso que le ayudará a empezar rápidamente.
Proceso de instalación
- Creación de un entorno virtual
- Instala Anaconda (si no lo tienes, descárgalo de https://www.anaconda.com/).
- Ejecute el siguiente comando en el terminal para crear el entorno:
conda create -n CFG_Zero_Star python=3.10
- Activar el entorno:
conda activate CFG_Zero_Star
- Instalación de PyTorch
- Instala PyTorch de acuerdo con la versión CUDA de tu GPU. La recomendación oficial es CUDA 12.4:
conda install pytorch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 pytorch-cuda=12.4 -c pytorch -c nvidia
- Compruebe la compatibilidad de la versión CUDA, consulte https://docs.nvidia.com/deploy/cuda-compatibility/.
- Los usuarios sin GPU pueden instalar la versión para CPU:
conda install pytorch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 -c pytorch
- Instala PyTorch de acuerdo con la versión CUDA de tu GPU. La recomendación oficial es CUDA 12.4:
- Descargar el código del proyecto
- Clonar el repositorio con Git:
git clone https://github.com/WeichenFan/CFG-Zero-star.git
- Ir al catálogo:
cd CFG-Zero-star
- Clonar el repositorio con Git:
- Instalación de dependencias
- Ejecute el comando para instalar las bibliotecas necesarias:
pip install -r requirements.txt
- Si falta
requirements.txt
instale manualmente las dependencias básicas:pip install torch diffusers gradio numpy imageio
- Ejecute el comando para instalar las bibliotecas necesarias:
- Preparación de archivos modelo
- Descargue los pesos del modelo Stable Diffusion 3 o SD3.5 de https://huggingface.co/stabilityai/stable-diffusion-3-medium-diffusers.
- Coloque el archivo del modelo en el directorio del proyecto o especifique la ruta en el código.
Funcionamiento de las funciones principales
La función principal de CFG-Zero-star es generar imágenes y vídeos. A continuación se indican los pasos específicos.
Generación de imágenes
- Parámetros de configuración
- espectáculo (una entrada)
demo.py
...fije la palabra clave:prompt = "一片星空下的森林"
- Activar la optimización CFG-Zero-star:
use_cfg_zero_star = True
- espectáculo (una entrada)
- Generación de carreras
- Introdúcelo en el terminal:
python demo.py
- La imagen generada se muestra o se guarda en la ruta especificada.
- Introdúcelo en el terminal:
- Parámetros de ajuste
guidance_scale
: Controla la intensidad de la dirección del texto, por defecto 4.0, puede ajustarse de 1-20.num_inference_steps
: Pasos de razonamiento, por defecto 28, aumentar para mejorar la calidad.
Generar vídeo
- Seleccionar modelo
- existe
demo.py
Establecido en:model_name = "wan-t2v" prompt = "一条河流穿过山谷"
- existe
- Generación de carreras
- Implantación:
python demo.py
- Vídeo guardado en formato MP4, ruta por defecto
generated_videos/{seed}_CFG-Zero-Star.mp4
.
- Implantación:
- Parámetros de ajuste
height
responder cantandowidth
: Establece la resolución, por defecto 480x832.num_frames
Frames, por defecto 81.fps
: Frecuencia de imagen, por defecto 16.
Demostración con Gradio
- Interfaz de lanzamiento
- Corriendo:
python demo.py
- Visite http://127.0.0.1:7860 en su navegador.
- Corriendo:
- procedimiento
- Introduzca la palabra clave y seleccione el modelo (SD3, SD3.5 o Wan-2.1).
- garrapata
Use CFG Zero Star
Ajuste los parámetros y envíelos. - El resultado se mostrará en la interfaz.
Integración de herramientas de terceros
- ComfyUI-KJNodes
- Descargue https://github.com/kijai/ComfyUI-KJNodes y siga sus instrucciones de instalación.
- existe ComfyUI Cargar el nodo CFG-Zero-star en el
- Wan2.1GP
- Descargue https://github.com/deepbeepmeep/Wan2GP y configúrelo para su uso.
advertencia
- La generación es intensiva desde el punto de vista computacional y se recomienda una GPU NVIDIA con al menos 8 GB de RAM.
- La descarga del modelo es necesaria para la primera ejecución, mantenga su conexión a Internet abierta.
- El proyecto sigue la licencia Apache-2.0, que prohíbe generar contenidos pornográficos, violentos, etc.
Con estos pasos, podrá generar imágenes y vídeos de alta calidad con CFG-Zero-star. Su funcionamiento requiere cierta base técnica, pero la documentación y la interfaz de demostración rebajan el umbral de uso.
escenario de aplicación
- investigación académica
Los investigadores pueden utilizarlo para probar la eficacia de los modelos de correspondencia de flujos y analizar las mejoras en CFG e inicialización cero, aplicables al campo de la visión por ordenador. - creación de contenidos
Los creadores pueden utilizar el texto para generar imágenes o vídeos, como "dragones voladores", para diseños artísticos o videoclips cortos. - desarrollo de modelos
Los desarrolladores pueden utilizar esta herramienta para optimizar sus modelos de generación y depurar parámetros para mejorar la calidad de la generación.
CONTROL DE CALIDAD
- ¿Qué problema resuelve CFG-Zero-star?
Optimiza la técnica CFG en el modelo de correspondencia de secuencias y mejora la calidad y la correspondencia de texto de las imágenes y vídeos generados. - ¿Qué modelos son compatibles?
Se admiten modelos como Stable Diffusion 3, SD3.5 y Wan-2.1. - ¿Para qué sirve la inicialización cero?
Poner a cero las predicciones en las primeras fases de generación ayuda a los modelos poco entrenados a mejorar la calidad de las muestras. - ¿Cómo puedo saber si un modelo está poco entrenado?
Si el efecto mejora significativamente al activar la inicialización cero, esto indica que el modelo puede no estar completamente entrenado.
© declaración de copyright
El artículo está protegido por derechos de autor y no debe reproducirse sin autorización.
Artículos relacionados
Sin comentarios...