Aprendizagem pessoal com IA
e orientação prática
豆包Marscode1

PiT: ferramenta para juntar imagens completas a partir de partes de imagens (não aberto)

Introdução geral

O PiT (Piece it Together) é uma ferramenta de código aberto hospedada no GitHub e desenvolvida por pesquisadores como Elad Richardson, da Universidade de Tel Aviv. Ela permite que os usuários insiram partes de uma imagem, como asas, penteados ou olhos e, em seguida, use técnicas de inteligência artificial para gerar uma imagem completa. A PiT elimina a necessidade de descrições textuais, usando as partes da imagem como entrada, e conta com um modelo pré-treinado, o IP-Prior, para preencher as partes que faltam e, por fim, renderiza o resultado via SDXL. Essa ferramenta é adequada para que designers visuais ou pesquisadores reúnam rapidamente ideias criativas. O código e as instruções mais recentes do PiT, em 25 de março de 2025, podem ser encontrados no GitHub.

PiT:用图像零件拼出完整图像的工具(未开放)-1


 

Lista de funções

  • quebra-cabeçaImagem fragmentada de entrada: partes da imagem fragmentada de entrada para gerar uma imagem completa.
  • Atenção aos detalhesImagens complementares permanecem consistentes durante todo o processo, dependendo das características da peça.
  • Entrada de imagem puraNão são necessários avisos de texto, apenas imagens para operar.
  • Vários resultadosSuporte para diferentes números de peças, gerando uma ampla gama de imagens possíveis.
  • projeto de código abertoO código está disponível publicamente no GitHub e pode ser baixado e modificado livremente.
  • Estilos disponíveisSuporte à geração de imagens de estilo específico por meio do ajuste do IP-LoRA.
  • adaptação do domínioIP-Prior: Diferentes modelos de IP-Prior podem ser usados para gerar imagens adequadas a tópicos específicos.

 

Usando a Ajuda

O PiT é um projeto de código aberto no GitHub para usuários com habilidades básicas de programação. Aqui está um guia detalhado de instalação e uso para ajudá-lo a começar rapidamente.

Processo de instalação

  1. Preparação do ambiente
    • Certifique-se de que seu computador tenha o Python 3.8 ou superior.
    • Instalar o Git (Windows a partir de git-scm.com Download, entrada para Mac/Linux git --version (Verificar).
    • Recomenda-se usar um dispositivo com uma GPU (por exemplo, placa de vídeo NVIDIA com CUDA) para acelerar a geração. Ele pode ser usado sem GPU, mas é mais lento.
  2. Código de download
    • Abra um terminal ou uma linha de comando.
    • Digite o comando para fazer o download do PiT:
      git clone https://github.com/eladrich/PiT.git
      
    • Vá para a pasta do projeto:
      cd PiT
      
  3. Instalação de dependências
    • O projeto requer bibliotecas Python, como torchenumpyA lista está em requirements.txt Médio.
    • Execute o comando para instalar:
      pip install -r requirements.txt
      
    • Se você não tiver esse arquivo, consulte o LEIAME para instalá-lo. diffusersetransformers etc.
  4. Obtendo o modelo
    • O PiT se baseia nos modelos IP-Prior e IP-Adapter+; os links para download estão no GitHub ou no documento (https://arxiv.org/abs/2503.10365).
    • Coloque o modelo no diretório especificado (por exemplo models/), consulte o README para obter o caminho.
  5. Instalação do SDXL
    • O PiT renderiza imagens com SDXL. Instalação do PiT diffusers::
      pip install diffusers
      
    • Faça o download do modelo SDXL do Hugging Face e salve-o localmente.

Uso

  1. Preparar peças
    • Recomenda-se coletar partes da imagem (por exemplo, orelhas, logotipos) no formato PNG com fundos limpos.
    • Na pasta de entrada do projeto (por exemplo input/).
  2. programa de corrida
    • Entre no diretório do PiT no terminal.
    • Execute o script (supondo que generate.py(consulte o LEIAME para obter detalhes):
      python generate.py --input_dir input/ --output_dir output/
      
    • Descrição do parâmetro:
      • --input_dirPasta de peças.
      • --output_dirOs resultados são salvos na pasta.
    • O programa gera a imagem completa com a peça.
  3. Exibir imagem
    • Após a geração, abra o output/ Exibição de pasta.
    • Se você não estiver satisfeito, adicione mais peças ou altere a imagem nítida.

Operação da função em destaque

  • Número de peças
    Você pode inserir uma ou mais partes. Por exemplo, insira "paw" (pata) e "tail" (cauda) para gerar um animal completo. É melhor ter o mesmo estilo de partes.
  • estilo
    As dicas de estilo podem ser adicionadas com o IP-LoRA. Exemplo:

    python generate.py --input_dir input/ --output_dir output/ --prompt "卡通风格"
    

    Assim, é possível gerar imagens de desenho animado.

  • (matemática) modelo de domínio comutativo
    O PiT suporta diferentes modelos de IP-Prior (por exemplo, brinquedos, criaturas). O arquivo de modelo correspondente é carregado ao alternar, consulte o LEIAME para obter informações sobre a operação.
  • Resultados da otimização
    Se a imagem estiver embaçada, verifique se a parte está clara ou adicione parâmetros:

    python generate.py --input_dir input/ --steps 50
    

advertência

  • As peças devem ser claras e evitar que sejam muito pequenas ou desorganizadas.
  • A primeira execução é lenta, as seguintes serão rápidas.
  • Instale as bibliotecas ausentes conforme solicitado em caso de erro.

Essas etapas o ajudarão a montar uma imagem completa com o PiT. A operação requer programação, mas o processo é simples.

 

cenário do aplicativo

  1. Inspiração de design
    Os designers inserem peças (por exemplo, asas, chapéus) para montar personagens completos e testar ideias rapidamente.
  2. Conceito do produto
    Os desenvolvedores usam peças (por exemplo, botões, formas) para gerar novas imagens de produtos e explorar direções de design.
  3. Aprendizagem técnica
    Os pesquisadores usaram o PiT para testar como a IA pode se confundir a partir de peças para entender os princípios da geração de imagens.

 

QA

  1. Qual é a diferença entre o PiT e outras ferramentas?
    O PiT é um quebra-cabeça direto com peças de imagem, sem texto, adequado para a criação visual.
  2. Você precisa treinar o modelo?
    Não é necessário, pois há modelos oficiais pré-treinados, mas você mesmo pode treiná-los e ajustá-los.
  3. A geração é rápida?
    Não é rápido, leva de alguns segundos a alguns minutos, dependendo do dispositivo.
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " PiT: ferramenta para juntar imagens completas a partir de partes de imagens (não aberto)
pt_BRPortuguês do Brasil