Introdução geral
O CFG-Zero-star é um projeto de código aberto desenvolvido por Weichen Fan e pela equipe do S-Lab da Universidade Tecnológica de Nanyang. Ele se concentra no aprimoramento da técnica CFG (Classifier Free Guidance) em modelos de correspondência de fluxo para melhorar a qualidade da geração de imagens e vídeos, otimizando a estratégia de orientação e o método de inicialização zero. Essa ferramenta é compatível com tarefas de geração de texto para imagem e texto para vídeo e pode ser adaptada ao Stable Diffusion 3, SD3.5, Wan-2.1 e outros modelos. O código é totalmente aberto e baseado na licença Apache-2.0, permitindo a pesquisa acadêmica e o uso comercial. O projeto oferece demonstrações on-line e documentação detalhada para desenvolvedores, pesquisadores ou entusiastas de IA.
Lista de funções
- Aprimoramento da técnica CFG: otimização do bootstrapping livre do classificador para melhorar a qualidade do conteúdo gerado e a correspondência de texto.
- Suporte à geração de imagens: geração de imagens de alta qualidade com base em texto, compatível com Stable Diffusion 3 e SD3.5.
- Suporte à geração de vídeo: gere vídeo dinâmico, adapte-se ao Wan-2.1 e a outros modelos de vídeo.
- Otimização de inicialização zero: zerar a previsão no início da geração para melhorar a qualidade da amostra do modelo de correspondência de fluxo.
- Código-fonte aberto: o código completo é fornecido e os usuários podem fazer download, modificar ou contribuir livremente.
- Interface de demonstração do Gradio: ferramenta de teste on-line integrada, sem necessidade de configuração complexa.
- Ajuste dinâmico de parâmetros: permite ajustar a intensidade da orientação e o número de etapas de inferência para atender a diferentes necessidades.
- Suporte integrado de terceiros: suporte para extensões ComfyUI-KJNodes e Wan2.1GP.
Usando a Ajuda
O CFG-Zero-star é um projeto de código aberto no GitHub que exige que os usuários configurem seu próprio ambiente e executem o código. A seguir, há um guia detalhado de instalação e uso para ajudá-lo a começar rapidamente.
Processo de instalação
- Criação de um ambiente virtual
- Instale o Anaconda (se não estiver instalado, faça o download em https://www.anaconda.com/).
- Execute o seguinte comando no terminal para criar o ambiente:
conda create -n CFG_Zero_Star python=3.10
- Ativar o ambiente:
conda activate CFG_Zero_Star
- Instalando o PyTorch
- Instale o PyTorch de acordo com a versão CUDA de sua GPU. A recomendação oficial é CUDA 12.4:
conda install pytorch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 pytorch-cuda=12.4 -c pytorch -c nvidia
- Verifique a compatibilidade da versão CUDA, consulte https://docs.nvidia.com/deploy/cuda-compatibility/.
- Os usuários sem uma GPU podem instalar a versão para CPU:
conda install pytorch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 -c pytorch
- Instale o PyTorch de acordo com a versão CUDA de sua GPU. A recomendação oficial é CUDA 12.4:
- Download do código do projeto
- Clone o repositório com o Git:
git clone https://github.com/WeichenFan/CFG-Zero-star.git
- Acesse o catálogo:
cd CFG-Zero-star
- Clone o repositório com o Git:
- Instalação de dependências
- Execute o comando para instalar as bibliotecas necessárias:
pip install -r requirements.txt
- Se houver falta de
requirements.txt
Instale manualmente as dependências principais:pip install torch diffusers gradio numpy imageio
- Execute o comando para instalar as bibliotecas necessárias:
- Preparação de arquivos de modelo
- Faça o download dos pesos do modelo Stable Diffusion 3 ou SD3.5 em https://huggingface.co/stabilityai/stable-diffusion-3-medium-diffusers.
- Coloque o arquivo de modelo no diretório do projeto ou especifique o caminho no código.
Operação das principais funções
A principal função do CFG-Zero-star é gerar imagens e vídeos. Aqui estão as etapas exatas.
Geração de imagens
- Parâmetros de configuração
- show (um ingresso)
demo.py
, defina a palavra-chave:prompt = "一片星空下的森林"
- Ativar a otimização CFG-Zero-star:
use_cfg_zero_star = True
- show (um ingresso)
- Geração de execução
- Digite-o no terminal:
python demo.py
- A imagem gerada é exibida ou salva no caminho especificado.
- Digite-o no terminal:
- Parâmetros de ajuste
guidance_scale
Controle da intensidade da direção do texto; padrão 4,0, pode ser definido de 1 a 20.num_inference_steps
Etapas de raciocínio, padrão 28, aumentam para melhorar a qualidade.
Gerar vídeo
- Selecione o modelo
- existir
demo.py
Situado em:model_name = "wan-t2v" prompt = "一条河流穿过山谷"
- existir
- Geração de execução
- Implementação:
python demo.py
- Vídeo salvo no formato MP4, caminho padrão
generated_videos/{seed}_CFG-Zero-Star.mp4
.
- Implementação:
- Parâmetros de ajuste
height
responder cantandowidth
Resolução: define a resolução, padrão 480x832.num_frames
Frames: Frames, padrão 81.fps
Taxa de quadros: Taxa de quadros, padrão 16.
Demonstração com o Gradio
- Interface de lançamento
- Em execução:
python demo.py
- Acesse http://127.0.0.1:7860 em seu navegador da Web.
- Em execução:
- procedimento
- Digite a palavra de aviso e selecione o modelo (SD3, SD3.5 ou Wan-2.1).
- carrapato
Use CFG Zero Star
, ajuste os parâmetros e envie. - O resultado será exibido na interface.
Integração de ferramentas de terceiros
- ComfyUI-KJNodes
- Faça o download do site https://github.com/kijai/ComfyUI-KJNodes e siga as instruções de instalação.
- existir ComfyUI Carregue o nó CFG-Zero-star no
- Wan2.1GP
- Faça o download do site https://github.com/deepbeepmeep/Wan2GP e configure-o para uso.
advertência
- A geração é computacionalmente intensiva e recomenda-se uma GPU NVIDIA com pelo menos 8 GB de RAM.
- O download do modelo é necessário para a primeira execução; mantenha sua conexão com a Internet aberta.
- O projeto segue a licença Apache-2.0, que proíbe a geração de conteúdo pornográfico, violento, etc.
Com essas etapas, você pode gerar imagens e vídeos de alta qualidade com o CFG-Zero-star. Sua operação requer uma certa base técnica, mas a documentação e a interface de demonstração reduzem o limite de uso.
cenário do aplicativo
- pesquisa acadêmica
Os pesquisadores podem usá-lo para testar a eficácia dos modelos de correspondência de fluxo e analisar os aprimoramentos em CFG e inicialização zero, aplicáveis ao campo da visão computacional. - criação de conteúdo
Os criadores podem usar o texto para gerar imagens ou vídeos, como "Flying Dragon", para uso em trabalhos artísticos ou videoclipes curtos. - desenvolvimento de modelos
Os desenvolvedores podem usar essa ferramenta para otimizar seus modelos de geração e parâmetros de depuração para melhorar a qualidade da geração.
QA
- Que problema o CFG-Zero-star resolve?
Ele otimiza a técnica CFG no modelo de correspondência de fluxo e melhora a qualidade e a correspondência de texto das imagens e dos vídeos gerados. - Quais são os modelos suportados?
Modelos como Stable Diffusion 3, SD3.5 e Wan-2.1 são suportados. - Qual é o objetivo da inicialização zero?
Zerar as previsões nos estágios iniciais da geração ajuda os modelos pouco treinados a melhorar a qualidade da amostra. - Como posso saber se um modelo está mal treinado?
Se o efeito for significativamente aprimorado com a ativação da inicialização zero, isso indica que o modelo pode não estar totalmente treinado.