OmniGen: modelo unificado de geração de imagens com entrada multimodal para gerar imagens consistentes com caracteres

🚀 O DeepSeek está lento? Este site é gratuito! DeepSeek-R1 de sangue puroO sistema é suave e pode ser conectado em rede! Uso ilimitado!

Introdução geral

O OmniGen é um modelo "universal" de geração de imagens desenvolvido pela VectorSpaceLab que permite aos usuários criar visuais diversificados e contextualmente ricos com instruções de texto simples ou entradas multimodais. Ele é particularmente adequado para cenas que exigem identificação de caracteres e renderização consistente de caracteres. Os usuários podem carregar até três imagens e gerar imagens de alta qualidade com prompts detalhados. Além disso, o OmniGen suporta a edição de imagens geradas anteriormente, fornecendo recursos flexíveis de propagação adequados para o refinamento e a experimentação de imagens.

O OmniGen não requer plug-ins ou operações adicionais para reconhecer automaticamente os recursos na imagem de entrada e gerar a imagem desejada. Os modelos de geração de imagens existentes geralmente precisam carregar vários módulos de rede adicionais (por exemplo, ControlNet, IP-Adapter, Reference-Net, etc.) e executar etapas adicionais de pré-processamento (por exemplo, detecção de face, estimativa de pose, corte, etc.) para gerar imagens satisfatórias. No entanto, acreditamos que os futuros paradigmas de geração de imagens devem ser mais simples e flexíveis, ou seja, gerar várias imagens diretamente de instruções multimodais arbitrárias sem plug-ins e operações adicionais, de forma semelhante ao funcionamento da GPT na geração de idiomas.

Lista de funções

Geração de imagensGeração de imagens diversas por meio de prompts de texto ou entradas multimodais.
Criação de imagens personalizadasCarregar até três imagens para gerar uma imagem personalizada.
renderização de caracteres (computação)Caracteres: mantém a consistência e a capacidade de reconhecimento dos caracteres e é adequado para cenários em que a identificação de caracteres é necessária.
edição de imagensEdição de imagens geradas anteriormente: a edição de imagens geradas anteriormente oferece recursos flexíveis de propagação.
Geração de condição de imagemGerar uma nova imagem com base nas condições específicas da imagem de entrada.
Saída de alta qualidadeDicas detalhadas para gerar imagens mais nítidas e de melhor qualidade.

Usando a Ajuda

Carregar uma imagemCarregar até três imagens na interface do OmniGen, que podem ser mapas de caracteres, itens ou condições.
Descreva a imagemDescrição: Descreva em detalhes a imagem que deseja gerar na caixa de prompt. Para seções que envolvem elementos de imagem, use o formato <img><|image_i|></img> Apresente-os.
Parâmetros de ajusteAjuste os parâmetros de geração do OmniGen, como a escala da imagem, nas configurações. Recomenda-se que as outras configurações permaneçam como padrão.
Geração de imagensClique no botão Generate (Gerar) para entrar na fila e aguardar a geração da imagem.
Editar imagemEdição e refinamento da imagem resultante usando o recurso de semeadura do OmniGen.

Dica:

Para tarefas de edição de imagens e tarefas de rede de controle, é recomendável definir a altura e a largura da imagem de saída como as mesmas da imagem de entrada. Por exemplo, se você quiser editar uma imagem de 512x512, deverá definir a altura e a largura da imagem de saída como 512x512. Você também pode definir o use_input_image_size_as_output para alinhar automaticamente a altura e a largura da imagem de saída com a imagem de entrada.
Se estiver com falta de memória ou com falta de tempo, você pode definir a opção offload_model=Trueou referência . /docs/inference.md#requiremented-resources Selecione as configurações apropriadas.
Ao inserir várias imagens, se o tempo de inferência for muito longo, tente reduzir o tamanho_máximo_da_imagem_de_entrada. Para obter informações detalhadas, consulte . /docs/inference.md#requiremented-resources.
Super-saturação: Se a imagem parecer super-saturada, diminua a escala_de_orientação.
Baixa qualidade: palavras-chave mais detalhadas produziriam melhores resultados.
Estilo anime: se a imagem gerada apresentar um estilo anime, você pode tentar adicionar a palavra de prompt foto.
Edição de imagens geradas: Se você gerar uma imagem com omnigen e depois quiser editá-la, não poderá fazer isso com a mesma semente. Por exemplo, se uma imagem foi gerada com seed=0, ela deve ser editada com seed=1.
Para tarefas de edição de imagens, recomenda-se que você coloque a imagem antes do comando de edição. Por exemplo, usando o comando <img><|image_1|></img> remover o trajeEm vez de remover o traje <img><|image_1|></img>.

Acesso on-line ao OmniGen e pacote de instalação com um clique

Chefe do Círculo de Compartilhamento de IA

Este conteúdo foi ocultado pelo autor. Digite o código de verificação para visualizar o conteúdo

Preste atenção ao número público do WeChat deste site, responda "CAPTCHA, um tipo de teste de desafio-resposta (computação)", obtenha o código de verificação. Pesquise no WeChat por "Chefe do Círculo de Compartilhamento de IA"ou"Aparência-AI"ou WeChat escaneando o lado direito do código QR pode prestar atenção a esse número público do WeChat do site.

Mais cenários de aplicativos do OmniGen

edição de imagens

O OmniGen tem bons recursos de edição de imagens e também pode gerar textos de imagens.

Geração de caracteres especificados

O OmniGen é semelhante a modelos como InstandID, Pulid, etc. em sua capacidade de gerar imagens consistentes com funções, etc., ou seja, inserir uma imagem com um único objeto, compreender e seguir instruções e gerar uma nova imagem com base nesse objeto.

Ao contrário do InstandID e do Pulid, o OmniGen também pode especificar a geração de vários caracteres.

As impressões digitais são geradas em nome de

Esse é o recurso mais exclusivo do OmniGen: a capacidade de identificar o objeto referido pelo comando e gerar uma nova imagem a partir de uma imagem que contém vários objetos.

O OmniGen simplesmente localiza o objeto-alvo em várias imagens (até três imagens podem ser selecionadas) com base em comandos de palavras-chave e gera uma nova imagem que segue os comandos sem nenhum módulo ou operação adicional.

Geração de condição de imagem genérica

Essa é a capacidade do OmniGen de oferecer suporte à geração de imagens do tipo ControlNet com base em condições específicas. Atualmente, ele se baseia principalmente em um esqueleto de caractere de referênciaOpenposee outra capacidade de gerar a partir de um mapa de profundidade de caracteres de referência.

Ao contrário dos modelos convencionais de diagrama de Venn que exigem o Controlnet para o controle de condições, o OmniGen conclui todo o processo do ControlNet com um único modelo: o OmniGen extrai diretamente as condições visuais do diagrama original e gera uma imagem com base nas condições extraídas sem a necessidade de um processador adicional. Além disso, o OmniGen gera uma imagem com base na imagem de referência e nas dicas com um único clique, ao contrário da ControlNet, que precisa gerar um esqueleto ou um mapa de profundidade primeiro.

Outras funções do componente de controle

Além de o OmniGen 1.0 ter conseguido realizar a função acima, o funcionário também disse que o OmniGen tem mais recursos, como mais funções de Controlnet, linhas e geração de bordas suaves.