Introdução geral
O PiT (Piece it Together) é uma ferramenta de código aberto hospedada no GitHub e desenvolvida por pesquisadores como Elad Richardson, da Universidade de Tel Aviv. Ela permite que os usuários insiram partes de uma imagem, como asas, penteados ou olhos e, em seguida, use técnicas de inteligência artificial para gerar uma imagem completa. A PiT elimina a necessidade de descrições textuais, usando as partes da imagem como entrada, e conta com um modelo pré-treinado, o IP-Prior, para preencher as partes que faltam e, por fim, renderiza o resultado via SDXL. Essa ferramenta é adequada para que designers visuais ou pesquisadores reúnam rapidamente ideias criativas. O código e as instruções mais recentes do PiT, em 25 de março de 2025, podem ser encontrados no GitHub.
Lista de funções
- quebra-cabeçaImagem fragmentada de entrada: partes da imagem fragmentada de entrada para gerar uma imagem completa.
- Atenção aos detalhesImagens complementares permanecem consistentes durante todo o processo, dependendo das características da peça.
- Entrada de imagem puraNão são necessários avisos de texto, apenas imagens para operar.
- Vários resultadosSuporte para diferentes números de peças, gerando uma ampla gama de imagens possíveis.
- projeto de código abertoO código está disponível publicamente no GitHub e pode ser baixado e modificado livremente.
- Estilos disponíveisSuporte à geração de imagens de estilo específico por meio do ajuste do IP-LoRA.
- adaptação do domínioIP-Prior: Diferentes modelos de IP-Prior podem ser usados para gerar imagens adequadas a tópicos específicos.
Usando a Ajuda
O PiT é um projeto de código aberto no GitHub para usuários com habilidades básicas de programação. Aqui está um guia detalhado de instalação e uso para ajudá-lo a começar rapidamente.
Processo de instalação
- Preparação do ambiente
- Certifique-se de que seu computador tenha o Python 3.8 ou superior.
- Instalar o Git (Windows a partir de
git-scm.com
Download, entrada para Mac/Linuxgit --version
(Verificar). - Recomenda-se usar um dispositivo com uma GPU (por exemplo, placa de vídeo NVIDIA com CUDA) para acelerar a geração. Ele pode ser usado sem GPU, mas é mais lento.
- Código de download
- Abra um terminal ou uma linha de comando.
- Digite o comando para fazer o download do PiT:
git clone https://github.com/eladrich/PiT.git
- Vá para a pasta do projeto:
cd PiT
- Instalação de dependências
- O projeto requer bibliotecas Python, como
torch
enumpy
A lista está emrequirements.txt
Médio. - Execute o comando para instalar:
pip install -r requirements.txt
- Se você não tiver esse arquivo, consulte o LEIAME para instalá-lo.
diffusers
etransformers
etc.
- O projeto requer bibliotecas Python, como
- Obtendo o modelo
- O PiT se baseia nos modelos IP-Prior e IP-Adapter+; os links para download estão no GitHub ou no documento (https://arxiv.org/abs/2503.10365).
- Coloque o modelo no diretório especificado (por exemplo
models/
), consulte o README para obter o caminho.
- Instalação do SDXL
- O PiT renderiza imagens com SDXL. Instalação do PiT
diffusers
::pip install diffusers
- Faça o download do modelo SDXL do Hugging Face e salve-o localmente.
- O PiT renderiza imagens com SDXL. Instalação do PiT
Uso
- Preparar peças
- Recomenda-se coletar partes da imagem (por exemplo, orelhas, logotipos) no formato PNG com fundos limpos.
- Na pasta de entrada do projeto (por exemplo
input/
).
- programa de corrida
- Entre no diretório do PiT no terminal.
- Execute o script (supondo que
generate.py
(consulte o LEIAME para obter detalhes):python generate.py --input_dir input/ --output_dir output/
- Descrição do parâmetro:
--input_dir
Pasta de peças.--output_dir
Os resultados são salvos na pasta.
- O programa gera a imagem completa com a peça.
- Exibir imagem
- Após a geração, abra o
output/
Exibição de pasta. - Se você não estiver satisfeito, adicione mais peças ou altere a imagem nítida.
- Após a geração, abra o
Operação da função em destaque
- Número de peças
Você pode inserir uma ou mais partes. Por exemplo, insira "paw" (pata) e "tail" (cauda) para gerar um animal completo. É melhor ter o mesmo estilo de partes. - estilo
As dicas de estilo podem ser adicionadas com o IP-LoRA. Exemplo:python generate.py --input_dir input/ --output_dir output/ --prompt "卡通风格"
Assim, é possível gerar imagens de desenho animado.
- (matemática) modelo de domínio comutativo
O PiT suporta diferentes modelos de IP-Prior (por exemplo, brinquedos, criaturas). O arquivo de modelo correspondente é carregado ao alternar, consulte o LEIAME para obter informações sobre a operação. - Resultados da otimização
Se a imagem estiver embaçada, verifique se a parte está clara ou adicione parâmetros:python generate.py --input_dir input/ --steps 50
advertência
- As peças devem ser claras e evitar que sejam muito pequenas ou desorganizadas.
- A primeira execução é lenta, as seguintes serão rápidas.
- Instale as bibliotecas ausentes conforme solicitado em caso de erro.
Essas etapas o ajudarão a montar uma imagem completa com o PiT. A operação requer programação, mas o processo é simples.
cenário do aplicativo
- Inspiração de design
Os designers inserem peças (por exemplo, asas, chapéus) para montar personagens completos e testar ideias rapidamente. - Conceito do produto
Os desenvolvedores usam peças (por exemplo, botões, formas) para gerar novas imagens de produtos e explorar direções de design. - Aprendizagem técnica
Os pesquisadores usaram o PiT para testar como a IA pode se confundir a partir de peças para entender os princípios da geração de imagens.
QA
- Qual é a diferença entre o PiT e outras ferramentas?
O PiT é um quebra-cabeça direto com peças de imagem, sem texto, adequado para a criação visual. - Você precisa treinar o modelo?
Não é necessário, pois há modelos oficiais pré-treinados, mas você mesmo pode treiná-los e ajustá-los. - A geração é rápida?
Não é rápido, leva de alguns segundos a alguns minutos, dependendo do dispositivo.