Aprendizagem pessoal com IA
e orientação prática

OmniGen: um modelo unificado de geração de imagens com entradas multimodais para gerar imagens consistentes com caracteres

Introdução geral

O OmniGen é um modelo "universal" de geração de imagens desenvolvido pela VectorSpaceLab que permite aos usuários criar visuais diversificados e contextualmente ricos com instruções de texto simples ou entradas multimodais. Ele é particularmente adequado para cenas que exigem identificação de caracteres e renderização consistente de caracteres. Os usuários podem carregar até três imagens e gerar imagens de alta qualidade com prompts detalhados. Além disso, o OmniGen suporta a edição de imagens geradas anteriormente, fornecendo recursos flexíveis de propagação adequados para o refinamento e a experimentação de imagens.

O OmniGen não requer plug-ins ou operações adicionais para reconhecer automaticamente os recursos na imagem de entrada e gerar a imagem desejada. Os modelos de geração de imagens existentes geralmente precisam carregar vários módulos de rede adicionais (por exemplo, ControlNet, IP-Adapter, Reference-Net, etc.) e executar etapas adicionais de pré-processamento (por exemplo, detecção de face, estimativa de pose, corte, etc.) para gerar imagens satisfatórias. No entanto, acreditamos que os futuros paradigmas de geração de imagens devem ser mais simples e flexíveis, ou seja, gerar várias imagens diretamente de instruções multimodais arbitrárias sem plug-ins e operações adicionais, de forma semelhante ao funcionamento da GPT na geração de idiomas.

OmniGen: modelo unificado de geração de imagens com entrada multimodal para gerar imagens consistentes com caracteres-1

 

Lista de funções

  • Geração de imagensGeração de imagens diversas por meio de prompts de texto ou entradas multimodais.
  • Criação de imagens personalizadasCarregar até três imagens para gerar uma imagem personalizada.
  • renderização de caracteres (computação)Caracteres: mantém a consistência e a capacidade de reconhecimento dos caracteres e é adequado para cenários em que a identificação de caracteres é necessária.
  • edição de imagensEdição de imagens geradas anteriormente: a edição de imagens geradas anteriormente oferece recursos flexíveis de propagação.
  • Geração de condição de imagemGerar uma nova imagem com base nas condições específicas da imagem de entrada.
  • Saída de alta qualidadeDicas detalhadas para gerar imagens mais nítidas e de melhor qualidade.

Usando a Ajuda

  1. Carregar uma imagemCarregar até três imagens na interface do OmniGen, que podem ser mapas de caracteres, itens ou condições.
  2. Descreva a imagemDescrição: Descreva em detalhes a imagem que deseja gerar na caixa de prompt. Para seções que envolvem elementos de imagem, use o formato <img><|image_i|></img> Apresente-os.
  3. Parâmetros de ajusteAjuste os parâmetros de geração do OmniGen, como a escala da imagem, nas configurações. Recomenda-se que as outras configurações permaneçam como padrão.
  4. Geração de imagensClique no botão Generate (Gerar) para entrar na fila e aguardar a geração da imagem.
  5. Editar imagemEdição e refinamento da imagem resultante usando o recurso de semeadura do OmniGen.

 


Dica:

  • Para tarefas de edição de imagens e tarefas de rede de controle, é recomendável definir a altura e a largura da imagem de saída como as mesmas da imagem de entrada. Por exemplo, se você quiser editar uma imagem de 512x512, deverá definir a altura e a largura da imagem de saída como 512x512. Você também pode definir o use_input_image_size_as_output para alinhar automaticamente a altura e a largura da imagem de saída com a imagem de entrada.
  • Se estiver com falta de memória ou com falta de tempo, você pode definir a opção offload_model=Trueou referência . /docs/inference.md#requiremented-resources Selecione as configurações apropriadas.
  • Ao inserir várias imagens, se o tempo de inferência for muito longo, tente reduzir o tamanho_máximo_da_imagem_de_entrada. Para obter informações detalhadas, consulte . /docs/inference.md#requiremented-resources.
  • Super-saturação: Se a imagem parecer super-saturada, diminua a escala_de_orientação.
  • Baixa qualidade: palavras-chave mais detalhadas produziriam melhores resultados.
  • Estilo anime: se a imagem gerada apresentar um estilo anime, você pode tentar adicionar a palavra de prompt foto.
  • Edição de imagens geradas: Se você gerar uma imagem com omnigen e depois quiser editá-la, não poderá fazer isso com a mesma semente. Por exemplo, se uma imagem foi gerada com seed=0, ela deve ser editada com seed=1.
  • Para tarefas de edição de imagens, recomenda-se que você coloque a imagem antes do comando de edição. Por exemplo, usando o comando <img><|image_1|></img> remover o trajeEm vez de remover o traje <img><|image_1|></img>.

 

Acesso on-line ao OmniGen e pacote de instalação com um clique

Chefe do Círculo de Compartilhamento de IAEste conteúdo foi ocultado pelo autor. Digite o código de verificação para visualizar o conteúdo
Captcha:
Preste atenção ao número público do WeChat deste site, responda "CAPTCHA, um tipo de teste de desafio-resposta (computação)", obtenha o código de verificação. Pesquise no WeChat por "Chefe do Círculo de Compartilhamento de IA"ou"Aparência-AI"ou WeChat escaneando o lado direito do código QR pode prestar atenção a esse número público do WeChat do site.

 

Mais cenários de aplicativos do OmniGen

edição de imagens

O OmniGen tem bons recursos de edição de imagens e também pode gerar textos de imagens.

OmniGen: modelo unificado de geração de imagens com entrada multimodal para gerar imagens consistentes com caracteres-1

 

Geração de caracteres especificados

O OmniGen é semelhante a modelos como InstandID, Pulid, etc. em sua capacidade de gerar imagens consistentes com funções, etc., ou seja, inserir uma imagem com um único objeto, compreender e seguir instruções e gerar uma nova imagem com base nesse objeto.

OmniGen: modelo unificado de geração de imagens com entrada multimodal para gerar imagens consistentes com caracteres-1

Ao contrário do InstandID e do Pulid, o OmniGen também pode especificar a geração de vários caracteres.

OmniGen: modelo unificado de geração de imagens com entrada multimodal para gerar imagens consistentes com caracteres-1

 

As impressões digitais são geradas em nome de

Esse é o recurso mais exclusivo do OmniGen: a capacidade de identificar o objeto referido pelo comando e gerar uma nova imagem a partir de uma imagem que contém vários objetos.

OmniGen: modelo unificado de geração de imagens com entrada multimodal para gerar imagens consistentes com caracteres-1

O OmniGen simplesmente localiza o objeto-alvo em várias imagens (até três imagens podem ser selecionadas) com base em comandos de palavras-chave e gera uma nova imagem que segue os comandos sem nenhum módulo ou operação adicional.

 

Geração de condição de imagem genérica

Essa é a capacidade do OmniGen de oferecer suporte à geração de imagens do tipo ControlNet com base em condições específicas. Atualmente, ele se baseia principalmente em um esqueleto de caractere de referênciaOpenposee outra capacidade de gerar a partir de um mapa de profundidade de caracteres de referência.

OmniGen: modelo unificado de geração de imagens com entrada multimodal para gerar imagens consistentes com caracteres-1

Ao contrário dos modelos convencionais de diagrama de Venn que exigem o Controlnet para o controle de condições, o OmniGen conclui todo o processo do ControlNet com um único modelo: o OmniGen extrai diretamente as condições visuais do diagrama original e gera uma imagem com base nas condições extraídas sem a necessidade de um processador adicional. Além disso, o OmniGen gera uma imagem com base na imagem de referência e nas dicas com um único clique, ao contrário da ControlNet, que precisa gerar um esqueleto ou um mapa de profundidade primeiro.

 

Outras funções do componente de controle

Além de o OmniGen 1.0 ter conseguido realizar a função acima, o funcionário também disse que o OmniGen tem mais recursos, como mais funções de Controlnet, linhas e geração de bordas suaves.

OmniGen: modelo unificado de geração de imagens com entrada multimodal para gerar imagens consistentes com caracteres-1

 

Tarefas clássicas de visão computacional

Redução de ruído da imagem, detecção de bordas, estimativa de pose, etc.

Mesmo que o LLM tenha uma certa capacidade de aprendizagem contextual (In-context Learning), de acordo com a compreensão da operação.

OmniGen: modelo unificado de geração de imagens com entrada multimodal para gerar imagens consistentes com caracteres-1

Aprendizagem fácil com IA

O guia do leigo para começar a usar a IA

Ajuda você a aprender a utilizar as ferramentas de IA com baixo custo e a partir de uma base zero.A IA, assim como o software de escritório, é uma habilidade essencial para todos. Dominar a IA lhe dará uma vantagem em sua busca de emprego e metade do esforço em seu trabalho e estudos futuros.

Ver detalhes>
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " OmniGen: um modelo unificado de geração de imagens com entradas multimodais para gerar imagens consistentes com caracteres

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil