Introdução geral
O OmniGen é um modelo "universal" de geração de imagens desenvolvido pela VectorSpaceLab que permite aos usuários criar visuais diversificados e contextualmente ricos com instruções de texto simples ou entradas multimodais. Ele é particularmente adequado para cenas que exigem identificação de caracteres e renderização consistente de caracteres. Os usuários podem carregar até três imagens e gerar imagens de alta qualidade com prompts detalhados. Além disso, o OmniGen suporta a edição de imagens geradas anteriormente, fornecendo recursos flexíveis de propagação adequados para o refinamento e a experimentação de imagens.
O OmniGen não requer plug-ins ou operações adicionais para reconhecer automaticamente os recursos na imagem de entrada e gerar a imagem desejada. Os modelos de geração de imagens existentes geralmente precisam carregar vários módulos de rede adicionais (por exemplo, ControlNet, IP-Adapter, Reference-Net, etc.) e executar etapas adicionais de pré-processamento (por exemplo, detecção de face, estimativa de pose, corte, etc.) para gerar imagens satisfatórias. No entanto, acreditamos que os futuros paradigmas de geração de imagens devem ser mais simples e flexíveis, ou seja, gerar várias imagens diretamente de instruções multimodais arbitrárias sem plug-ins e operações adicionais, de forma semelhante ao funcionamento da GPT na geração de idiomas.
Lista de funções
- Geração de imagensGeração de imagens diversas por meio de prompts de texto ou entradas multimodais.
- Criação de imagens personalizadasCarregar até três imagens para gerar uma imagem personalizada.
- renderização de caracteres (computação)Caracteres: mantém a consistência e a capacidade de reconhecimento dos caracteres e é adequado para cenários em que a identificação de caracteres é necessária.
- edição de imagensEdição de imagens geradas anteriormente: a edição de imagens geradas anteriormente oferece recursos flexíveis de propagação.
- Geração de condição de imagemGerar uma nova imagem com base nas condições específicas da imagem de entrada.
- Saída de alta qualidadeDicas detalhadas para gerar imagens mais nítidas e de melhor qualidade.
Usando a Ajuda
- Carregar uma imagemCarregar até três imagens na interface do OmniGen, que podem ser mapas de caracteres, itens ou condições.
- Descreva a imagemDescrição: Descreva em detalhes a imagem que deseja gerar na caixa de prompt. Para seções que envolvem elementos de imagem, use o formato <img><|image_i|></img> Apresente-os.
- Parâmetros de ajusteAjuste os parâmetros de geração do OmniGen, como a escala da imagem, nas configurações. Recomenda-se que as outras configurações permaneçam como padrão.
- Geração de imagensClique no botão Generate (Gerar) para entrar na fila e aguardar a geração da imagem.
- Editar imagemEdição e refinamento da imagem resultante usando o recurso de semeadura do OmniGen.
Dica:
- Para tarefas de edição de imagens e tarefas de rede de controle, é recomendável definir a altura e a largura da imagem de saída como as mesmas da imagem de entrada. Por exemplo, se você quiser editar uma imagem de 512x512, deverá definir a altura e a largura da imagem de saída como 512x512. Você também pode definir o
use_input_image_size_as_output
para alinhar automaticamente a altura e a largura da imagem de saída com a imagem de entrada. - Se estiver com falta de memória ou com falta de tempo, você pode definir a opção
offload_model=True
ou referência . /docs/inference.md#requiremented-resources Selecione as configurações apropriadas. - Ao inserir várias imagens, se o tempo de inferência for muito longo, tente reduzir o
tamanho_máximo_da_imagem_de_entrada
. Para obter informações detalhadas, consulte . /docs/inference.md#requiremented-resources. - Super-saturação: Se a imagem parecer super-saturada, diminua a
escala_de_orientação
. - Baixa qualidade: palavras-chave mais detalhadas produziriam melhores resultados.
- Estilo anime: se a imagem gerada apresentar um estilo anime, você pode tentar adicionar a palavra de prompt
foto
. - Edição de imagens geradas: Se você gerar uma imagem com omnigen e depois quiser editá-la, não poderá fazer isso com a mesma semente. Por exemplo, se uma imagem foi gerada com seed=0, ela deve ser editada com seed=1.
- Para tarefas de edição de imagens, recomenda-se que você coloque a imagem antes do comando de edição. Por exemplo, usando o comando
<img><|image_1|></img> remover o traje
Em vez deremover o traje <img><|image_1|></img>
.
Acesso on-line ao OmniGen e pacote de instalação com um clique
Mais cenários de aplicativos do OmniGen
edição de imagens
O OmniGen tem bons recursos de edição de imagens e também pode gerar textos de imagens.
Geração de caracteres especificados
O OmniGen é semelhante a modelos como InstandID, Pulid, etc. em sua capacidade de gerar imagens consistentes com funções, etc., ou seja, inserir uma imagem com um único objeto, compreender e seguir instruções e gerar uma nova imagem com base nesse objeto.
Ao contrário do InstandID e do Pulid, o OmniGen também pode especificar a geração de vários caracteres.
As impressões digitais são geradas em nome de
Esse é o recurso mais exclusivo do OmniGen: a capacidade de identificar o objeto referido pelo comando e gerar uma nova imagem a partir de uma imagem que contém vários objetos.
O OmniGen simplesmente localiza o objeto-alvo em várias imagens (até três imagens podem ser selecionadas) com base em comandos de palavras-chave e gera uma nova imagem que segue os comandos sem nenhum módulo ou operação adicional.
Geração de condição de imagem genérica
Essa é a capacidade do OmniGen de oferecer suporte à geração de imagens do tipo ControlNet com base em condições específicas. Atualmente, ele se baseia principalmente em um esqueleto de caractere de referênciaOpenposee outra capacidade de gerar a partir de um mapa de profundidade de caracteres de referência.
Ao contrário dos modelos convencionais de diagrama de Venn que exigem o Controlnet para o controle de condições, o OmniGen conclui todo o processo do ControlNet com um único modelo: o OmniGen extrai diretamente as condições visuais do diagrama original e gera uma imagem com base nas condições extraídas sem a necessidade de um processador adicional. Além disso, o OmniGen gera uma imagem com base na imagem de referência e nas dicas com um único clique, ao contrário da ControlNet, que precisa gerar um esqueleto ou um mapa de profundidade primeiro.
Outras funções do componente de controle
Além de o OmniGen 1.0 ter conseguido realizar a função acima, o funcionário também disse que o OmniGen tem mais recursos, como mais funções de Controlnet, linhas e geração de bordas suaves.
Tarefas clássicas de visão computacional
Redução de ruído da imagem, detecção de bordas, estimativa de pose, etc.
Mesmo que o LLM tenha uma certa capacidade de aprendizagem contextual (In-context Learning), de acordo com a compreensão da operação.