Introdução geral
O InfiniteYou é um projeto de código aberto desenvolvido pela equipe de criação inteligente da ByteDance. Ele se baseia na tecnologia Diffusion Transformers (DiTs), usando a tecnologia FLUXOA função principal do modelo .1-dev é permitir que os usuários carreguem uma foto e insiram uma descrição de texto para gerar uma nova imagem e, ao mesmo tempo, preservar a identidade da pessoa. O projeto usa a tecnologia InfuseNet para melhorar a semelhança de identidade, combinada com treinamento em vários estágios para otimizar a qualidade da imagem e o alinhamento do texto. O InfiniteYou foi lançado em março de 2025 com código, modelos e uma demonstração on-line, e recebeu atenção da comunidade técnica. Ele é compatível com vários plug-ins e é simples de usar para desenvolvedores, pesquisadores e usuários em geral.
Lista de funções
- Remodelagem da retenção de identidadeCarregar uma foto e uma descrição de texto para gerar uma nova imagem e manter as características faciais da pessoa.
- Geração de imagens de alta qualidadeSaída de imagens nítidas e redução de borrões, distorção das mãos e outros problemas.
- Otimização do alinhamento do textoGerar resultados que sejam altamente consistentes com o conteúdo da descrição para evitar distorções.
- Seleção de modelos: Fornecido
aes_stage2
(preferência por estética) esim_stage1
(Identidade primeiro) dois modos. - Extensões de plug-inSuporte a ControlNet, LoRA, IP-Adapter, etc. para maior flexibilidade de geração.
Usando a Ajuda
Processo de instalação
O InfiniteYou requer instalação local para funcionar. Abaixo estão as etapas detalhadas:
- Preparação ambiental
- Certifique-se de que o Python 3.8 ou posterior esteja instalado em seu sistema.
- Instale o Git para fazer download do código.
- As GPUs NVIDIA e CUDA são recomendadas para melhorar a velocidade de geração.
- Código de clonagem
Digite-o no terminal:
git clone https://github.com/bytedance/InfiniteYou.git
Acesse o catálogo:
cd InfiniteYou
- Instalação de dependências
Execute o seguinte comando para instalar as bibliotecas necessárias:
pip install -r requirements.txt
Se estiver usando uma GPU, será necessário instalar a versão correspondente do PyTorch, por exemplo:
pip install torch torchvision --extra-index-url https://download.pytorch.org/whl/cu124
- Modelos para download
Acesse https://huggingface.co/ByteDance/InfiniteYou para fazer o downloadinfu_flux_v1.0
na pastaaes_stage2
talvezsim_stage1
no local correspondente do diretório do projeto. - Demo em execução
Instale o Gradio:
pip install gradio
Inicie a interface local:
python app.py
O navegador será aberto http://127.0.0.1:7860
A seguir, apresentamos uma lista dos produtos mais populares e mais procurados disponíveis no mercado.
Funções principais
Reconstrução de fotos de preservação da identidade
- Fazer upload de fotos
Na interface do Gradio, clique em "Upload Identity Image" (Carregar imagem de identidade) e selecione uma foto nítida de seu rosto. - Descrição da entrada
Digite uma descrição específica na caixa "Prompt text" (Texto do prompt), por exemplo, "A woman in a red dress in the forest" (Uma mulher em um vestido vermelho na floresta). - Parâmetros de configuração
- Seleção de modelos:
aes_stage2
Foco na estética.sim_stage1
Ênfase na semelhança de identidade. - Ajuste do parâmetro: padrão
infusenet_conditioning_scale
por causa de1.0
(matemática) gêneroinfusenet_guidance_start
por causa de0.0
. Se as identidades não forem suficientemente semelhantes, tente ajustar a última para o0.1
. - Valor da semente (Seed): mantenha o padrão ou defina manualmente.
- Geração de imagens
Clique em "Generate" (Gerar) e aguarde cerca de 120 segundos para que o resultado seja exibido na tela.
Raciocínio rápido de scripts
É executado no terminal:
python test.py --id_image ./assets/examples/yann-lecun_resize.jpg --prompt "一个男人,肖像,电影风格" --out_results_dir ./results
Os resultados gerados são salvos no arquivo results
Pasta.
Demonstração on-line
Visite https://huggingface.co/spaces/ByteDance/InfiniteYou-FLUX para experimentá-lo sem instalação.
Uso do plug-in
- ControlNetImagem de referência de pose: Carregue uma imagem de referência de pose para controlar a ação que gera o resultado.
- LoRAPlug-ins Realism e Anti-blur são compatíveis, e o caminho deve ser especificado manualmente, por exemplo
<path_to_lora>
. - Adaptador IPAdicione uma tabela de referência de estilo para um estilo personalizado.
Exemplo de operação
Você deseja gerar uma imagem de um "homem de terno em uma sala de conferências":
- Faça upload de uma foto do homem.
- Digite uma descrição: "Um homem de terno em uma sala de reuniões".
- opção
aes_stage2
Clique em "Generate" (Gerar). - Verifique os resultados e adicione as palavras "a man" (um homem) se precisar ajustar o gênero.
advertência
- As fotografias precisam ser nítidas e estar voltadas para a frente para evitar bloqueios.
- Seja específico em suas descrições e evite palavras vagas, como "lindo".
- O tempo de geração varia de acordo com o hardware e pode ser tão curto quanto 30 a 60 segundos para GPUs.
cenário do aplicativo
- Conteúdo de mídia social
Os usuários carregam uma selfie e digitam "wearing gym clothes at the gym" (usando roupas de ginástica na academia) para gerar uma foto com tema de fitness para compartilhamento. - arte
O artista carrega um retrato que representa um "cavaleiro em traje medieval" para gerar um design conceitual. - teste de pesquisa
Os pesquisadores usaram o InfiniteYou para comparar os efeitos de retenção de identidade e validar o desempenho dos modelos gerados.
QA
- É gratuito?
Sim. O código e o modelo são de código aberto e de uso gratuito para pesquisas acadêmicas. - Quanto tempo leva para gerar?
120 segundos em média, mais rápido com a GPU. - Ele oferece suporte a fotos multijogador?
Atualmente otimizado para um único jogador, o suporte para vários jogadores precisa de mais desenvolvimento.