Aprendizagem pessoal com IA
e orientação prática

Infinity: modelagem autorregressiva bit a bit da geração de imagens de alta resolução para geração ilimitada de imagens de alta resolução

Introdução geral

O Infinity é uma estrutura pioneira de geração de imagens de alta resolução desenvolvida pela equipe da FoundationVision. O projeto rompe as limitações dos modelos tradicionais de geração de imagens por meio de uma abordagem inovadora de modelagem autorregressiva visual em nível de bits. O principal recurso do Infinity é o uso de um vocabulário ilimitado de desambiguadores e classificadores que, juntamente com o mecanismo de autocorrelação em nível de bits, é capaz de gerar imagens realistas de altíssima qualidade. O projeto é totalmente de código aberto e oferece uma variedade de tamanhos de modelos de escalas de parâmetros de 2B a 20B, suportando a geração de imagens em resoluções de até 1024x1024. Como um projeto de pesquisa de ponta, o Infinity não só impulsiona o progresso tecnológico no campo da visão computacional, mas também oferece novas soluções para tarefas de geração de imagens.

Infinity: modelagem autorregressiva bit a bit para geração de imagens de alta resolução para geração ilimitada de imagens de alta resolução-1

Participe do canal discord para experimentar o modelo de geração de imagens do Infinity!


 

Lista de funções

  • O modelo paramétrico 2B suporta a geração de imagens de alta qualidade com resolução de até 1024x1024
  • Fornece um léxico visual com vocabulário ilimitado para dar suporte à extração de recursos de imagem mais refinados
  • Implementação do mecanismo de autocorreção em nível de bit para melhorar a qualidade e a precisão das imagens geradas
  • Suporta a seleção flexível de vários tamanhos de modelo (parâmetros 125M, 1B, 2B, 20B)
  • Fornecer uma interface de inferência interativa para facilitar aos usuários a realização de experimentos de geração de imagens
  • Integrado a uma estrutura completa de treinamento e avaliação
  • Oferece suporte à avaliação multidimensional do desempenho do modelo (GenEval, DPG, HPSv2.1 e outras métricas)
  • Oferece uma plataforma de demonstração on-line que permite que os usuários experimentem a geração de imagens diretamente

 

Usando a Ajuda

1. configuração ambiental

1.1 Requisitos básicos:

  • Ambiente Python
  • PyTorch >= 2.5.1 (requer suporte ao FlexAttention)
  • Instale outras dependências via pip:pip3 install -r requirements.txt

2. uso de modelos

2.1 Início rápido:

  • Baixe o modelo pré-treinado do HuggingFace: infinity_2b_reg.pth
  • Download do Visual Segmenter: infinity_vae_d32_reg.pth
  • Geração de imagens interativas usando interactive_infer.ipynb

2.2 Configuração do treinamento:

# Iniciar o treinamento com um único comando
bash scripts/train.sh

# Comandos de treinamento para diferentes tamanhos de modelo
# Modelo de 125M (resolução de 256x256)
torchrun --nproc_per_node=8 train.py --model=layer12c4 --pn 0.06M

Modelo # 2B (resolução de 1024x1024)
torchrun --nproc_per_node=8 train.py --model=2bc8 --pn 1M

2.3 Preparação de dados:

  • Os dados de treinamento precisam ser preparados no formato JSONL
  • Cada item de dados contém: caminho da imagem, descrição de texto longo e curto, proporção da imagem e outras informações
  • Os conjuntos de dados de amostra são fornecidos pelo projeto para referência

2.4 Avaliação do modelo:

  • Suporte a vários indicadores de avaliação:
    • ImageReward: avaliação das pontuações de preferência humana para gerar imagens
    • HPS v2.1: métricas de avaliação baseadas em 798 mil classificações manuais
    • GenEval: Avaliação do alinhamento de texto para imagem
    • FID: avaliação da qualidade e da diversidade das imagens geradas

2.5 Apresentação on-line:

  • Visite a plataforma de demonstração oficial: https://opensource.bytedance.com/gmpt/t2i/invite
  • Insira uma descrição de texto para gerar uma imagem de alta qualidade correspondente
  • Suporta o ajuste de várias resoluções de imagem e parâmetros de geração

3. funções avançadas

3.1 Mecanismos de autocorreção em nível de bit:

  • Reconhecimento e correção automáticos de erros no processo de geração
  • Melhorar a qualidade e a precisão das imagens geradas

3.2 Extensões do modelo:

  • Suporta escalonamento flexível de tamanhos de modelos
  • Vários modelos estão disponíveis com parâmetros de 125M a 20B.
  • Adaptar-se a diferentes ambientes de hardware e requisitos de aplicativos

4. cuidados

  • Garantir que os recursos de hardware atendam aos requisitos do modelo
  • Modelos de grande escala exigem memória suficiente na GPU
  • Recomendado para treinamento com equipamentos de HPC
  • Pontos de verificação regulares de treinamento de apoio
  • Observe a adesão ao protocolo de código aberto do MIT
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Infinity: modelagem autorregressiva bit a bit da geração de imagens de alta resolução para geração ilimitada de imagens de alta resolução

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil