Introdução geral
O Infinity é uma estrutura pioneira de geração de imagens de alta resolução desenvolvida pela equipe da FoundationVision. O projeto rompe as limitações dos modelos tradicionais de geração de imagens por meio de uma abordagem inovadora de modelagem autorregressiva visual em nível de bits. O principal recurso do Infinity é o uso de um vocabulário ilimitado de desambiguadores e classificadores que, juntamente com o mecanismo de autocorrelação em nível de bits, é capaz de gerar imagens realistas de altíssima qualidade. O projeto é totalmente de código aberto e oferece uma variedade de tamanhos de modelos de escalas de parâmetros de 2B a 20B, suportando a geração de imagens em resoluções de até 1024x1024. Como um projeto de pesquisa de ponta, o Infinity não só impulsiona o progresso tecnológico no campo da visão computacional, mas também oferece novas soluções para tarefas de geração de imagens.
Lista de funções
- O modelo paramétrico 2B suporta a geração de imagens de alta qualidade com resolução de até 1024x1024
- Fornece um léxico visual com vocabulário ilimitado para dar suporte à extração de recursos de imagem mais refinados
- Implementação do mecanismo de autocorreção em nível de bit para melhorar a qualidade e a precisão das imagens geradas
- Suporta a seleção flexível de vários tamanhos de modelo (parâmetros 125M, 1B, 2B, 20B)
- Fornecer uma interface de inferência interativa para facilitar aos usuários a realização de experimentos de geração de imagens
- Integrado a uma estrutura completa de treinamento e avaliação
- Oferece suporte à avaliação multidimensional do desempenho do modelo (GenEval, DPG, HPSv2.1 e outras métricas)
- Oferece uma plataforma de demonstração on-line que permite que os usuários experimentem a geração de imagens diretamente
Usando a Ajuda
1. configuração ambiental
1.1 Requisitos básicos:
- Ambiente Python
- PyTorch >= 2.5.1 (requer suporte ao FlexAttention)
- Instale outras dependências via pip:
pip3 install -r requirements.txt
2. uso de modelos
2.1 Início rápido:
- Baixe o modelo pré-treinado do HuggingFace: infinity_2b_reg.pth
- Download do Visual Segmenter: infinity_vae_d32_reg.pth
- Geração de imagens interativas usando interactive_infer.ipynb
2.2 Configuração do treinamento:
# Iniciar o treinamento com um único comando
bash scripts/train.sh
# Comandos de treinamento para diferentes tamanhos de modelo
# Modelo de 125M (resolução de 256x256)
torchrun --nproc_per_node=8 train.py --model=layer12c4 --pn 0.06M
Modelo # 2B (resolução de 1024x1024)
torchrun --nproc_per_node=8 train.py --model=2bc8 --pn 1M
2.3 Preparação de dados:
- Os dados de treinamento precisam ser preparados no formato JSONL
- Cada item de dados contém: caminho da imagem, descrição de texto longo e curto, proporção da imagem e outras informações
- Os conjuntos de dados de amostra são fornecidos pelo projeto para referência
2.4 Avaliação do modelo:
- Suporte a vários indicadores de avaliação:
- ImageReward: avaliação das pontuações de preferência humana para gerar imagens
- HPS v2.1: métricas de avaliação baseadas em 798 mil classificações manuais
- GenEval: Avaliação do alinhamento de texto para imagem
- FID: avaliação da qualidade e da diversidade das imagens geradas
2.5 Apresentação on-line:
- Visite a plataforma de demonstração oficial: https://opensource.bytedance.com/gmpt/t2i/invite
- Insira uma descrição de texto para gerar uma imagem de alta qualidade correspondente
- Suporta o ajuste de várias resoluções de imagem e parâmetros de geração
3. funções avançadas
3.1 Mecanismos de autocorreção em nível de bit:
- Reconhecimento e correção automáticos de erros no processo de geração
- Melhorar a qualidade e a precisão das imagens geradas
3.2 Extensões do modelo:
- Suporta escalonamento flexível de tamanhos de modelos
- Vários modelos estão disponíveis com parâmetros de 125M a 20B.
- Adaptar-se a diferentes ambientes de hardware e requisitos de aplicativos
4. cuidados
- Garantir que os recursos de hardware atendam aos requisitos do modelo
- Modelos de grande escala exigem memória suficiente na GPU
- Recomendado para treinamento com equipamentos de HPC
- Pontos de verificação regulares de treinamento de apoio
- Observe a adesão ao protocolo de código aberto do MIT