CFG-Zero-star: uma ferramenta de código aberto para melhorar a qualidade da geração de imagens e vídeos

Recursos mais recentes de IAPublicado há 5 meses Círculo de compartilhamento de IA

1.4K 00

Introdução geral

O CFG-Zero-star é um projeto de código aberto desenvolvido por Weichen Fan e pela equipe do S-Lab da Universidade Tecnológica de Nanyang. Ele se concentra no aprimoramento da técnica CFG (Classifier Free Guidance) em modelos de correspondência de fluxo para melhorar a qualidade da geração de imagens e vídeos, otimizando a estratégia de orientação e o método de inicialização zero. Essa ferramenta é compatível com tarefas de geração de texto para imagem e texto para vídeo e pode ser adaptada ao Stable Diffusion 3, SD3.5, Wan-2.1 e outros modelos. O código é totalmente aberto e baseado na licença Apache-2.0, permitindo a pesquisa acadêmica e o uso comercial. O projeto oferece demonstrações on-line e documentação detalhada para desenvolvedores, pesquisadores ou entusiastas de IA.

Lista de funções

Aprimoramento da técnica CFG: otimização do bootstrapping livre do classificador para melhorar a qualidade do conteúdo gerado e a correspondência de texto.
Suporte à geração de imagens: geração de imagens de alta qualidade com base em texto, compatível com Stable Diffusion 3 e SD3.5.
Suporte à geração de vídeo: gere vídeo dinâmico, adapte-se ao Wan-2.1 e a outros modelos de vídeo.
Otimização de inicialização zero: zerar a previsão no início da geração para melhorar a qualidade da amostra do modelo de correspondência de fluxo.
Código-fonte aberto: o código completo é fornecido e os usuários podem fazer download, modificar ou contribuir livremente.
Interface de demonstração do Gradio: ferramenta de teste on-line integrada, sem necessidade de configuração complexa.
Ajuste dinâmico de parâmetros: permite ajustar a intensidade da orientação e o número de etapas de inferência para atender a diferentes necessidades.
Suporte integrado de terceiros: suporte para extensões ComfyUI-KJNodes e Wan2.1GP.

Usando a Ajuda

O CFG-Zero-star é um projeto de código aberto no GitHub que exige que os usuários configurem seu próprio ambiente e executem o código. A seguir, há um guia detalhado de instalação e uso para ajudá-lo a começar rapidamente.

Processo de instalação

Criação de um ambiente virtual
- Instale o Anaconda (se não estiver instalado, faça o download em https://www.anaconda.com/).
- Execute o seguinte comando no terminal para criar o ambiente:
```
conda create -n CFG_Zero_Star python=3.10
```
- Ativar o ambiente:
```
conda activate CFG_Zero_Star
```
Instalando o PyTorch
- Instale o PyTorch de acordo com a versão CUDA de sua GPU. A recomendação oficial é CUDA 12.4:
```
conda install pytorch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 pytorch-cuda=12.4 -c pytorch -c nvidia
```
- Verifique a compatibilidade da versão CUDA, consulte https://docs.nvidia.com/deploy/cuda-compatibility/.
- Os usuários sem uma GPU podem instalar a versão para CPU:
```
conda install pytorch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 -c pytorch
```
Download do código do projeto
- Clone o repositório com o Git:
```
git clone https://github.com/WeichenFan/CFG-Zero-star.git
```
- Acesse o catálogo:
```
cd CFG-Zero-star
```
Instalação de dependências
- Execute o comando para instalar as bibliotecas necessárias:
```
pip install -r requirements.txt
```
- Se houver falta de requirements.txtInstale manualmente as dependências principais:
```
pip install torch diffusers gradio numpy imageio
```
Preparação de arquivos de modelo
- Faça o download dos pesos do modelo Stable Diffusion 3 ou SD3.5 em https://huggingface.co/stabilityai/stable-diffusion-3-medium-diffusers.
- Coloque o arquivo de modelo no diretório do projeto ou especifique o caminho no código.

Operação das principais funções

A principal função do CFG-Zero-star é gerar imagens e vídeos. Aqui estão as etapas exatas.

Geração de imagens

Parâmetros de configuração
- show (um ingresso) demo.py, defina a palavra-chave:
```
prompt = "一片星空下的森林"
```
- Ativar a otimização CFG-Zero-star:
```
use_cfg_zero_star = True
```
Geração de execução
- Digite-o no terminal:
```
python demo.py
```
- A imagem gerada é exibida ou salva no caminho especificado.
Parâmetros de ajuste
- guidance_scaleControle da intensidade da direção do texto; padrão 4,0, pode ser definido de 1 a 20.
- num_inference_stepsEtapas de raciocínio, padrão 28, aumentam para melhorar a qualidade.

Gerar vídeo

Selecione o modelo

existir demo.py Situado em:

model_name = "wan-t2v"
prompt = "一条河流穿过山谷"

Geração de execução
- Implementação:
```
python demo.py
```
- Vídeo salvo no formato MP4, caminho padrão generated_videos/{seed}_CFG-Zero-Star.mp4.
Parâmetros de ajuste
- height responder cantando widthResolução: define a resolução, padrão 480x832.
- num_framesFrames: Frames, padrão 81.
- fpsTaxa de quadros: Taxa de quadros, padrão 16.

Demonstração com o Gradio

Interface de lançamento
- Em execução:
```
python demo.py
```
- Acesse http://127.0.0.1:7860 em seu navegador da Web.
procedimento
- Digite a palavra de aviso e selecione o modelo (SD3, SD3.5 ou Wan-2.1).
- carrapato Use CFG Zero Star, ajuste os parâmetros e envie.
- O resultado será exibido na interface.

Integração de ferramentas de terceiros

ComfyUI-KJNodes
- Faça o download do site https://github.com/kijai/ComfyUI-KJNodes e siga as instruções de instalação.
- existir ComfyUI Carregue o nó CFG-Zero-star no
Wan2.1GP
- Faça o download do site https://github.com/deepbeepmeep/Wan2GP e configure-o para uso.

advertência

A geração é computacionalmente intensiva e recomenda-se uma GPU NVIDIA com pelo menos 8 GB de RAM.
O download do modelo é necessário para a primeira execução; mantenha sua conexão com a Internet aberta.
O projeto segue a licença Apache-2.0, que proíbe a geração de conteúdo pornográfico, violento, etc.

Com essas etapas, você pode gerar imagens e vídeos de alta qualidade com o CFG-Zero-star. Sua operação requer uma certa base técnica, mas a documentação e a interface de demonstração reduzem o limite de uso.

cenário do aplicativo

pesquisa acadêmica
Os pesquisadores podem usá-lo para testar a eficácia dos modelos de correspondência de fluxo e analisar os aprimoramentos em CFG e inicialização zero, aplicáveis ao campo da visão computacional.
criação de conteúdo
Os criadores podem usar o texto para gerar imagens ou vídeos, como "Flying Dragon", para uso em trabalhos artísticos ou videoclipes curtos.
desenvolvimento de modelos
Os desenvolvedores podem usar essa ferramenta para otimizar seus modelos de geração e parâmetros de depuração para melhorar a qualidade da geração.

QA

Que problema o CFG-Zero-star resolve?
Ele otimiza a técnica CFG no modelo de correspondência de fluxo e melhora a qualidade e a correspondência de texto das imagens e dos vídeos gerados.
Quais são os modelos suportados?
Modelos como Stable Diffusion 3, SD3.5 e Wan-2.1 são suportados.
Qual é o objetivo da inicialização zero?
Zerar as previsões nos estágios iniciais da geração ajuda os modelos pouco treinados a melhorar a qualidade da amostra.
Como posso saber se um modelo está mal treinado?
Se o efeito for significativamente aprimorado com a ativação da inicialização zero, isso indica que o modelo pode não estar totalmente treinado.