OmniGen : un modèle unifié de génération d'images avec des entrées multimodales pour générer des images cohérentes avec les personnages

Introduction générale

OmniGen est un modèle "universel" de génération d'images développé par VectorSpaceLab qui permet aux utilisateurs de créer des visuels variés et riches en contexte à l'aide de simples invites textuelles ou d'entrées multimodales. Il est particulièrement bien adapté aux scènes qui nécessitent l'identification et le rendu cohérent des personnages. Les utilisateurs peuvent télécharger jusqu'à trois images et générer des images de haute qualité avec des invites détaillées. En outre, OmniGen prend en charge l'édition des images générées précédemment, offrant ainsi des capacités d'alimentation flexibles adaptées à l'affinement des images et à l'expérimentation.

OmniGen ne nécessite pas de plug-ins ou d'opérations supplémentaires pour reconnaître automatiquement les caractéristiques de l'image d'entrée et générer l'image souhaitée. Les modèles de génération d'images existants doivent généralement charger plusieurs modules réseau supplémentaires (par exemple, ControlNet, IP-Adapter, Reference-Net, etc.) et effectuer des étapes de prétraitement supplémentaires (par exemple, détection des visages, estimation de la pose, recadrage, etc. ) afin de générer des images satisfaisantes. Cependant, nous pensons que les futurs paradigmes de génération d'images devraient être plus simples et plus flexibles, c'est-à-dire générer diverses images directement à partir d'instructions multimodales arbitraires sans plug-ins ni opérations supplémentaires, de la même manière que le GPT fonctionne dans la génération de langage.

OmniGen:统一图像生成模型,多模态输入生成人物一致性图像

 

Liste des fonctions

  • Génération d'imagesLes images : Générer des images diverses par le biais d'invites textuelles ou d'entrées multimodales.
  • Création d'images personnaliséesLes images peuvent être personnalisées en téléchargeant jusqu'à trois images.
  • rendu de caractères (informatique)Le système d'identification des caractères permet de maintenir la cohérence et la reconnaissabilité des caractères et convient aux scénarios dans lesquels l'identification des caractères est nécessaire.
  • édition d'imagesLe système de gestion de l'information de la Commission européenne (CEI) : L'édition d'images précédemment générées offre des capacités d'ensemencement flexibles.
  • Génération de conditions d'imageGénérer une nouvelle image basée sur les conditions spécifiques de l'image d'entrée.
  • Une production de haute qualitéLes images : Des conseils détaillés pour générer des images plus claires et de meilleure qualité.

Utiliser l'aide

  1. Télécharger une imageLes images peuvent être des cartes de personnages, d'articles ou d'états.
  2. Décrire l'imageDécrivez en détail l'image que vous souhaitez générer dans la zone d'invite. Pour les sections impliquant des éléments d'image, utilisez le format <img><|image_i|></img> Présentez-les.
  3. Paramètres de réglageRégler les paramètres de génération d'OmniGen, tels que l'échelle de l'image, dans les réglages. Il est recommandé de conserver les autres paramètres par défaut.
  4. Générer des imagesCliquez sur le bouton Générer pour entrer dans la file d'attente et attendre que l'image soit générée.
  5. Modifier l'imageL'image obtenue est ensuite éditée et affinée à l'aide de la fonction d'ensemencement d'OmniGen.

 

Conseil :

  • Pour les tâches d'édition d'images et les tâches de réseau de contrôle, il est recommandé de régler la hauteur et la largeur de l'image de sortie sur la même valeur que l'image d'entrée. Par exemple, si vous souhaitez éditer une image de 512x512, vous devez définir la hauteur et la largeur de l'image de sortie à 512x512. Vous pouvez également définir l'option use_input_image_size_as_output pour aligner automatiquement la hauteur et la largeur de l'image de sortie sur l'image d'entrée.
  • Si vous souffrez d'un manque de mémoire ou d'un manque de temps, vous pouvez régler le paramètre offload_model=Trueou la référence . /docs/inference.md1TP5Ressources requises Sélectionnez les paramètres appropriés.
  • Lors de la saisie de plusieurs images, si le temps d'inférence est trop long, essayez de réduire le nombre d'images. max_input_image_size. Pour plus d'informations, veuillez vous référer à . /docs/inference.md1TP5Ressources requises.
  • Sursaturation : si l'image semble sursaturée, diminuez la valeur de l'indicateur de sursaturation. guidance_scale.
  • Faible qualité : des indices plus détaillés permettraient d'obtenir de meilleurs résultats.
  • Style anime : si l'image générée présente un style anime, vous pouvez essayer d'ajouter le mot-clé photo.
  • Modification des images générées : si vous générez une image avec omnigen et que vous souhaitez ensuite la modifier, vous ne pouvez pas le faire avec la même graine. Par exemple, si une image a été générée avec la graine=0, elle doit être modifiée avec la graine=1.
  • Pour les tâches d'édition d'images, il est recommandé de placer l'image avant la commande d'édition. Par exemple, en utilisant la commande <img><|image_1|></img> remove suitAu lieu de remove suit <img><|image_1|></img>.

 

Accès en ligne à OmniGen et installation en un clic

Site officiel pour l'utilisation en ligne : aiomnigen.comComfyui

Node : github.com/AIFSH/OmniGen-ComfyUIOmniGen

Paquet d'installation en un clic : pan.quark.cn/s/a1fd7d5298f9

 

OmniGen More Scénarios d'application

édition d'images

OmniGen possède de bonnes capacités d'édition d'images et peut également générer du texte à partir d'images.

OmniGen:统一图像生成模型,多模态输入生成人物一致性图像

 

Génération de caractères spécifiés

OmniGen est similaire à des modèles tels que InstandID, Pulid, etc. dans sa capacité à générer des images cohérentes avec les rôles, etc., c'est-à-dire à saisir une image avec un seul objet, à comprendre et à suivre des instructions, et à produire une nouvelle image basée sur cet objet.

OmniGen:统一图像生成模型,多模态输入生成人物一致性图像

Contrairement à InstandID et Pulid, OmniGen peut également spécifier la génération à partir de plusieurs caractères.

OmniGen:统一图像生成模型,多模态输入生成人物一致性图像

 

Les empreintes digitales sont générées au nom de

C'est la caractéristique la plus unique d'OmniGen : la capacité d'identifier l'objet auquel se réfère la commande et de générer une nouvelle image à partir d'une image contenant plusieurs objets.

OmniGen:统一图像生成模型,多模态输入生成人物一致性图像

OmniGen localise simplement l'objet cible à partir de plusieurs images (jusqu'à 3 images peuvent être sélectionnées) sur la base de commandes de mots-clés et génère une nouvelle image qui suit les commandes sans aucun module ou opération supplémentaire.

 

Génération de conditions d'image génériques

Il s'agit de la capacité d'OmniGen à prendre en charge la génération d'images de type ControlNet en fonction de conditions spécifiques. Actuellement, elle est principalement basée sur un squelette de caractère de référence.Openposeet une autre capacité à générer une carte de profondeur à partir d'un caractère de référence.

OmniGen:统一图像生成模型,多模态输入生成人物一致性图像

Contrairement aux modèles de diagramme de Venn classiques qui nécessitent ControlNet pour le contrôle des conditions, OmniGen complète l'ensemble du processus ControlNet avec un seul modèle : OmniGen extrait directement les conditions visuelles du diagramme original et génère une image basée sur les conditions extraites sans avoir besoin d'un processeur supplémentaire. De plus, OmniGen génère une image basée sur l'image de référence et les repères en un seul clic, contrairement à ControlNet qui doit d'abord générer un squelette ou une carte de profondeur.

 

Autres fonctions des composants de contrôle

Outre le fait que la version 1.0 d'OmniGen a été en mesure de remplir cette fonction, le responsable a également déclaré que la version 1.0 d'OmniGen comportait davantage de fonctions, telles que les fonctions Controlnet, les lignes et la génération d'arêtes douces.

OmniGen:统一图像生成模型,多模态输入生成人物一致性图像

 

Tâches classiques de vision par ordinateur

Débruitage d'images, détection des contours, estimation de la pose, etc.

OmniGen:统一图像生成模型,多模态输入生成人物一致性图像

Même le LLM peut avoir un certain degré de capacité d'apprentissage contextuel (In-context Learning), en fonction de la compréhension de l'opération.

OmniGen:统一图像生成模型,多模态输入生成人物一致性图像
© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...