Introdução geral
O Story-Adapter é uma estrutura inovadora de visualização de histórias que converte histórias textuais em sequências de imagens coerentes. Desenvolvido por pesquisadores, esse projeto emprega uma abordagem iterativa que não requer treinamento para gerar ilustrações de histórias de alta qualidade. A estrutura é caracterizada por sua capacidade de lidar com histórias longas, manter a consistência semântica entre as imagens e gerar detalhes de interação meticulosos. O Story-Adapter baseia-se em técnicas de modelagem de difusão e garante a coerência e a qualidade das imagens geradas por meio do mecanismo de Atenção Cruzada de Referência Global (GRCA). O projeto é totalmente de código aberto sob a licença MIT e oferece uma ferramenta avançada de visualização de histórias para pesquisadores e desenvolvedores.
Lista de funções
- Suporte para visualização de histórias longas
- Fornecimento de uma estrutura iterativa sem treinamento
- Implementação do mecanismo de Referência Global de Atenção Cruzada (GRCA)
- Manutenção da consistência semântica entre as sequências de imagens
- Gerar efeitos de interação detalhados e de alta qualidade
- Suporte para entrada de histórias personalizadas
- Fornecer integração de modelos pré-treinados
- Suporta a geração de imagens em lote
- Visualização em tempo real dos resultados da visualização
- Suporte ao processamento acelerado por GPU
Usando a Ajuda
Configuração do ambiente
- Requisitos do sistema:
- Python 3.10.14
- PyTorch 2.2.2
- CUDA 12.1
- cuDNN 8.9.02
- Etapas de instalação:
# Clonar o repositório
git clone https://github.com/jwmao1/story-adapter.git
cd story-adapter
# Crie e ative o ambiente conda
conda create -n StoryAdapter python=3.10
conda activate StoryAdapter
# Instalar dependências
pip install -r requirements.txt
- Faça o download dos arquivos de modelo necessários:
- RealVisXL_V4.0: baixado do site Hugging Face e colocado no diretório ". /RealVisXL_V4.0".
- CLIP Image Encoder: faça o download e coloque-o no diretório ". /IP-Adapter/sdxl_models/image_encoder".
- IP-adapter_sdxl: faça o download e coloque em ". /IP-Adapter/sdxl_models/ip-adapter_sdxl.bin"
Uso
- Execução de demonstração básica:
python run.py --base_model_path your_path/RealVisXL_V4.0 --image_encoder_path your_path/IP-Adapter/sdxl_models/image_encoder --ip_ckpt seu_caminho//IP-Adapter/sdxl_models/ip-adapter_sdxl.bin
- Geração de histórias personalizadas:
python run.py --base_model_path your_path/RealVisXL_V4.0 --image_encoder_path your_path/IP-Adapter/sdxl_models/image_encoder --ip_ckpt your_path//IP-Adapter/sdxl_models/ip-adapter_sdxl.bin --story [texto da sua história]
advertência
- Certifique-se de que todos os pacotes dependentes e os arquivos de modelo necessários estejam instalados
- Verifique se a GPU tem memória suficiente; recomendamos o uso de uma GPU de alto desempenho.
- O download e o carregamento do modelo são necessários para a primeira execução e podem levar muito tempo
- A qualidade da imagem gerada depende da qualidade da história de entrada e do nível de detalhe da descrição
- Recomenda-se que histórias longas sejam processadas em lotes para obter melhores resultados
resolução de falhas
- Se você encontrar erros relacionados à CUDA, verifique se a versão da CUDA corresponde à
- O tamanho do lote pode ser ajustado quando a memória estiver baixa
- Quando o carregamento do modelo falhar, verifique se o caminho do arquivo está correto
- Ajuste o nível de detalhes na descrição da história quando a geração não for satisfatória