Infinity: modelagem autorregressiva de bits para geração de imagens de alta resolução para geração ilimitada de imagens de alta resolução

🚀 Convite para experimentar: o primeiro software de programação inteligente AI IDE da China Download da versão chinesa do TraeO DeepSeek-R1 e o Doubao-pro estão disponíveis em uma base ilimitada!

Introdução geral

O Infinity é uma estrutura pioneira de geração de imagens de alta resolução desenvolvida pela equipe da FoundationVision. O projeto rompe as limitações dos modelos tradicionais de geração de imagens por meio de uma abordagem inovadora de modelagem autorregressiva visual em nível de bits. O principal recurso do Infinity é o uso de um vocabulário ilimitado de desambiguadores e classificadores que, juntamente com o mecanismo de autocorrelação em nível de bits, é capaz de gerar imagens realistas de altíssima qualidade. O projeto é totalmente de código aberto e oferece uma variedade de tamanhos de modelos de escalas de parâmetros de 2B a 20B, suportando a geração de imagens em resoluções de até 1024x1024. Como um projeto de pesquisa de ponta, o Infinity não só impulsiona o progresso tecnológico no campo da visão computacional, mas também oferece novas soluções para tarefas de geração de imagens.

Infinity: modelagem autorregressiva bit a bit para geração de imagens de alta resolução para geração ilimitada de imagens de alta resolução-1

Participe do canal discord para experimentar o modelo de geração de imagens do Infinity!

Lista de funções

O modelo paramétrico 2B suporta a geração de imagens de alta qualidade com resolução de até 1024x1024
Fornece um léxico visual com vocabulário ilimitado para dar suporte à extração de recursos de imagem mais refinados
Implementação do mecanismo de autocorreção em nível de bit para melhorar a qualidade e a precisão das imagens geradas
Suporta a seleção flexível de vários tamanhos de modelo (parâmetros 125M, 1B, 2B, 20B)
Fornecer uma interface de inferência interativa para facilitar aos usuários a realização de experimentos de geração de imagens
Integrado a uma estrutura completa de treinamento e avaliação
Oferece suporte à avaliação multidimensional do desempenho do modelo (GenEval, DPG, HPSv2.1 e outras métricas)
Oferece uma plataforma de demonstração on-line que permite que os usuários experimentem a geração de imagens diretamente

Usando a Ajuda

1. configuração ambiental

1.1 Requisitos básicos:

Ambiente Python
PyTorch >= 2.5.1 (requer suporte ao FlexAttention)
Instale outras dependências via pip:pip3 install -r requirements.txt

2. uso de modelos

2.1 Início rápido:

Baixe o modelo pré-treinado do HuggingFace: infinity_2b_reg.pth
Download do Visual Segmenter: infinity_vae_d32_reg.pth
Geração de imagens interativas usando interactive_infer.ipynb

2.2 Configuração do treinamento:

# Iniciar o treinamento com um único comando
bash scripts/train.sh

# Comandos de treinamento para diferentes tamanhos de modelo
# Modelo de 125M (resolução de 256x256)
torchrun --nproc_per_node=8 train.py --model=layer12c4 --pn 0.06M

Modelo # 2B (resolução de 1024x1024)
torchrun --nproc_per_node=8 train.py --model=2bc8 --pn 1M

2.3 Preparação de dados:

Os dados de treinamento precisam ser preparados no formato JSONL
Cada item de dados contém: caminho da imagem, descrição de texto longo e curto, proporção da imagem e outras informações
Os conjuntos de dados de amostra são fornecidos pelo projeto para referência

2.4 Avaliação do modelo:

Suporte a vários indicadores de avaliação:
- ImageReward: avaliação das pontuações de preferência humana para gerar imagens
- HPS v2.1: métricas de avaliação baseadas em 798 mil classificações manuais
- GenEval: Avaliação do alinhamento de texto para imagem
- FID: avaliação da qualidade e da diversidade das imagens geradas

2.5 Apresentação on-line:

Visite a plataforma de demonstração oficial: https://opensource.bytedance.com/gmpt/t2i/invite
Insira uma descrição de texto para gerar uma imagem de alta qualidade correspondente
Suporta o ajuste de várias resoluções de imagem e parâmetros de geração