Introdução geral
One-Prompt-One-Story (1Prompt1Story) é uma ferramenta inovadora de geração de texto para imagem projetada para permitir a geração consistente de imagens a partir de um único prompt. Foi apresentada no ICLR 2025 por Tao Liu et al. Ela emprega uma abordagem sem treinamento que gera imagens de alta qualidade e, ao mesmo tempo, mantém a consistência na identidade dos caracteres. 1Prompt1Story funciona com todos os modelos de texto para imagem baseados em embeddings de texto e oferece suporte à geração de vários caracteres, geração guiada por ControlNet e geração personalizada. A ferramenta garante que as imagens geradas sejam altamente consistentes com a descrição de entrada por meio de uma única entrada solicitada, combinada com reponderação de valor singular e técnicas de atenção cruzada que preservam a identidade.
Lista de funções
- Geração de imagem de identidade consistenteGeração de imagens que mantêm a identidade consistente dos caracteres por meio de uma única entrada de dados.
- Demonstração do GradioDemonstração on-line: Uma demonstração on-line é fornecida para testes e experiência do usuário.
- Consistory+ BenchmarkingConjunto de dicas: contém 200 conjuntos de dicas, cada um contendo entre 5 e 10 dicas, divididos em 8 superclasses.
- Geração de várias funçõesSuporte para geração de imagens com vários caracteres.
- Geração de bootstrap ControlNetGuia o processo de geração por meio da tecnologia ControlNet.
- PersonalizaçãoSuporte à geração de imagens reais personalizadas com base nos requisitos do usuário.
Usando a Ajuda
Processo de instalação
- Clone esse repositório:
git clone https://github.com/byliutao/1Prompt1Story
- Vá para o diretório do repositório:
cd 1Prompt1Story
- Criar e ativar um ambiente virtual:
conda create --name 1p1s python=3.10
conda activate 1p1s
- Instalar dependências:
conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia
conda install conda-forge::transformers
conda install -c conda-forge diffusers
pip install opencv-python scipy gradio==4.44.1 sympy==1.13.1
Processo de uso
- Execute o código de amostra:
python main.py
- Execute a demonstração do Gradio:
python app.py
- Execute o benchmark Consistory+:
python -m resource.gen_benchmark --save_dir . /result/benchmark --benchmark_path . /resource/consistory+.yaml
Funções principais
- Geração de imagem de identidade consistenteImagem: Digite um único prompt descrevendo a identidade e a cena do personagem na caixa de entrada e clique no botão Generate (Gerar) para obter uma imagem que mantenha a identidade do personagem.
- Geração de várias funçõesInclua várias descrições de função no prompt e a ferramenta gerará automaticamente uma imagem contendo todas as funções.
- Geração de bootstrap ControlNetDescrições relacionadas ao ControlNet são adicionadas aos prompts, e o processo de geração é orientado de acordo com a tecnologia ControlNet para garantir que as imagens sejam altamente consistentes com as descrições.
- PersonalizaçãoGerar uma imagem real que atenda aos requisitos com base em uma descrição personalizada inserida pelo usuário.