OmniGen : un modèle unifié de génération d'images avec des entrées multimodales pour générer des images cohérentes avec les personnages
Introduction générale
OmniGen est un modèle "universel" de génération d'images développé par VectorSpaceLab qui permet aux utilisateurs de créer des visuels variés et riches en contexte à l'aide de simples invites textuelles ou d'entrées multimodales. Il est particulièrement bien adapté aux scènes qui nécessitent l'identification et le rendu cohérent des personnages. Les utilisateurs peuvent télécharger jusqu'à trois images et générer des images de haute qualité avec des invites détaillées. En outre, OmniGen prend en charge l'édition des images générées précédemment, offrant ainsi des capacités d'alimentation flexibles adaptées à l'affinement des images et à l'expérimentation.
OmniGen ne nécessite pas de plug-ins ou d'opérations supplémentaires pour reconnaître automatiquement les caractéristiques de l'image d'entrée et générer l'image souhaitée. Les modèles de génération d'images existants doivent généralement charger plusieurs modules réseau supplémentaires (par exemple, ControlNet, IP-Adapter, Reference-Net, etc.) et effectuer des étapes de prétraitement supplémentaires (par exemple, détection des visages, estimation de la pose, recadrage, etc. ) afin de générer des images satisfaisantes. Cependant, nous pensons que les futurs paradigmes de génération d'images devraient être plus simples et plus flexibles, c'est-à-dire générer diverses images directement à partir d'instructions multimodales arbitraires sans plug-ins ni opérations supplémentaires, de la même manière que le GPT fonctionne dans la génération de langage.

Liste des fonctions
- Génération d'imagesLes images : Générer des images diverses par le biais d'invites textuelles ou d'entrées multimodales.
- Création d'images personnaliséesLes images peuvent être personnalisées en téléchargeant jusqu'à trois images.
- rendu de caractères (informatique)Le système d'identification des caractères permet de maintenir la cohérence et la reconnaissabilité des caractères et convient aux scénarios dans lesquels l'identification des caractères est nécessaire.
- édition d'imagesLe système de gestion de l'information de la Commission européenne (CEI) : L'édition d'images précédemment générées offre des capacités d'ensemencement flexibles.
- Génération de conditions d'imageGénérer une nouvelle image basée sur les conditions spécifiques de l'image d'entrée.
- Une production de haute qualitéLes images : Des conseils détaillés pour générer des images plus claires et de meilleure qualité.
Utiliser l'aide
- Télécharger une imageLes images peuvent être des cartes de personnages, d'articles ou d'états.
- Décrire l'imageDécrivez en détail l'image que vous souhaitez générer dans la zone d'invite. Pour les sections impliquant des éléments d'image, utilisez le format <img><|image_i|></img> Présentez-les.
- Paramètres de réglageRégler les paramètres de génération d'OmniGen, tels que l'échelle de l'image, dans les réglages. Il est recommandé de conserver les autres paramètres par défaut.
- Générer des imagesCliquez sur le bouton Générer pour entrer dans la file d'attente et attendre que l'image soit générée.
- Modifier l'imageL'image obtenue est ensuite éditée et affinée à l'aide de la fonction d'ensemencement d'OmniGen.
Conseil :
- Pour les tâches d'édition d'images et les tâches de réseau de contrôle, il est recommandé de régler la hauteur et la largeur de l'image de sortie sur la même valeur que l'image d'entrée. Par exemple, si vous souhaitez éditer une image de 512x512, vous devez définir la hauteur et la largeur de l'image de sortie à 512x512. Vous pouvez également définir l'option
use_input_image_size_as_output
pour aligner automatiquement la hauteur et la largeur de l'image de sortie sur l'image d'entrée. - Si vous souffrez d'un manque de mémoire ou d'un manque de temps, vous pouvez régler le paramètre
offload_model=True
ou la référence . /docs/inference.md1TP5Ressources requises Sélectionnez les paramètres appropriés. - Lors de la saisie de plusieurs images, si le temps d'inférence est trop long, essayez de réduire le nombre d'images.
max_input_image_size
. Pour plus d'informations, veuillez vous référer à . /docs/inference.md1TP5Ressources requises. - Sursaturation : si l'image semble sursaturée, diminuez la valeur de l'indicateur de sursaturation.
guidance_scale
. - Faible qualité : des indices plus détaillés permettraient d'obtenir de meilleurs résultats.
- Style anime : si l'image générée présente un style anime, vous pouvez essayer d'ajouter le mot-clé
photo
. - Modification des images générées : si vous générez une image avec omnigen et que vous souhaitez ensuite la modifier, vous ne pouvez pas le faire avec la même graine. Par exemple, si une image a été générée avec la graine=0, elle doit être modifiée avec la graine=1.
- Pour les tâches d'édition d'images, il est recommandé de placer l'image avant la commande d'édition. Par exemple, en utilisant la commande
<img><|image_1|></img> remove suit
Au lieu deremove suit <img><|image_1|></img>
.
Accès en ligne à OmniGen et installation en un clic
Site officiel pour l'utilisation en ligne : aiomnigen.comComfyui
Node : github.com/AIFSH/OmniGen-ComfyUIOmniGen
Paquet d'installation en un clic : pan.quark.cn/s/a1fd7d5298f9
OmniGen More Scénarios d'application
édition d'images
OmniGen possède de bonnes capacités d'édition d'images et peut également générer du texte à partir d'images.

Génération de caractères spécifiés
OmniGen est similaire à des modèles tels que InstandID, Pulid, etc. dans sa capacité à générer des images cohérentes avec les rôles, etc., c'est-à-dire à saisir une image avec un seul objet, à comprendre et à suivre des instructions, et à produire une nouvelle image basée sur cet objet.

Contrairement à InstandID et Pulid, OmniGen peut également spécifier la génération à partir de plusieurs caractères.

Les empreintes digitales sont générées au nom de
C'est la caractéristique la plus unique d'OmniGen : la capacité d'identifier l'objet auquel se réfère la commande et de générer une nouvelle image à partir d'une image contenant plusieurs objets.

OmniGen localise simplement l'objet cible à partir de plusieurs images (jusqu'à 3 images peuvent être sélectionnées) sur la base de commandes de mots-clés et génère une nouvelle image qui suit les commandes sans aucun module ou opération supplémentaire.
Génération de conditions d'image génériques
Il s'agit de la capacité d'OmniGen à prendre en charge la génération d'images de type ControlNet en fonction de conditions spécifiques. Actuellement, elle est principalement basée sur un squelette de caractère de référence.Openposeet une autre capacité à générer une carte de profondeur à partir d'un caractère de référence.

Contrairement aux modèles de diagramme de Venn classiques qui nécessitent ControlNet pour le contrôle des conditions, OmniGen complète l'ensemble du processus ControlNet avec un seul modèle : OmniGen extrait directement les conditions visuelles du diagramme original et génère une image basée sur les conditions extraites sans avoir besoin d'un processeur supplémentaire. De plus, OmniGen génère une image basée sur l'image de référence et les repères en un seul clic, contrairement à ControlNet qui doit d'abord générer un squelette ou une carte de profondeur.
Autres fonctions des composants de contrôle
Outre le fait que la version 1.0 d'OmniGen a été en mesure de remplir cette fonction, le responsable a également déclaré que la version 1.0 d'OmniGen comportait davantage de fonctions, telles que les fonctions Controlnet, les lignes et la génération d'arêtes douces.

Tâches classiques de vision par ordinateur
Débruitage d'images, détection des contours, estimation de la pose, etc.

Même le LLM peut avoir un certain degré de capacité d'apprentissage contextuel (In-context Learning), en fonction de la compréhension de l'opération.

© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...