OmniGen : un modèle unifié de génération d'images avec des entrées multimodales pour générer des images cohérentes avec les personnages

Dernières ressources sur l'IAMise à jour il y a 11 mois Cercle de partage de l'IA

20.4K 00

Introduction générale

OmniGen est un modèle "universel" de génération d'images développé par VectorSpaceLab qui permet aux utilisateurs de créer des visuels variés et riches en contexte à l'aide de simples invites textuelles ou d'entrées multimodales. Il est particulièrement bien adapté aux scènes qui nécessitent l'identification et le rendu cohérent des personnages. Les utilisateurs peuvent télécharger jusqu'à trois images et générer des images de haute qualité avec des invites détaillées. En outre, OmniGen prend en charge l'édition des images générées précédemment, offrant ainsi des capacités d'alimentation flexibles adaptées à l'affinement des images et à l'expérimentation.

OmniGen ne nécessite pas de plug-ins ou d'opérations supplémentaires pour reconnaître automatiquement les caractéristiques de l'image d'entrée et générer l'image souhaitée. Les modèles de génération d'images existants doivent généralement charger plusieurs modules réseau supplémentaires (par exemple, ControlNet, IP-Adapter, Reference-Net, etc.) et effectuer des étapes de prétraitement supplémentaires (par exemple, détection des visages, estimation de la pose, recadrage, etc. ) afin de générer des images satisfaisantes. Cependant, nous pensons que les futurs paradigmes de génération d'images devraient être plus simples et plus flexibles, c'est-à-dire générer diverses images directement à partir d'instructions multimodales arbitraires sans plug-ins ni opérations supplémentaires, de la même manière que le GPT fonctionne dans la génération de langage.

Liste des fonctions

Génération d'imagesLes images : Générer des images diverses par le biais d'invites textuelles ou d'entrées multimodales.
Création d'images personnaliséesLes images peuvent être personnalisées en téléchargeant jusqu'à trois images.
rendu de caractères (informatique)Le système d'identification des caractères permet de maintenir la cohérence et la reconnaissabilité des caractères et convient aux scénarios dans lesquels l'identification des caractères est nécessaire.
édition d'imagesLe système de gestion de l'information de la Commission européenne (CEI) : L'édition d'images précédemment générées offre des capacités d'ensemencement flexibles.
Génération de conditions d'imageGénérer une nouvelle image basée sur les conditions spécifiques de l'image d'entrée.
Une production de haute qualitéLes images : Des conseils détaillés pour générer des images plus claires et de meilleure qualité.

Utiliser l'aide

Télécharger une imageLes images peuvent être des cartes de personnages, d'articles ou d'états.
Décrire l'imageDécrivez en détail l'image que vous souhaitez générer dans la zone d'invite. Pour les sections impliquant des éléments d'image, utilisez le format <img><|image_i|></img> Présentez-les.
Paramètres de réglageRégler les paramètres de génération d'OmniGen, tels que l'échelle de l'image, dans les réglages. Il est recommandé de conserver les autres paramètres par défaut.
Générer des imagesCliquez sur le bouton Générer pour entrer dans la file d'attente et attendre que l'image soit générée.
Modifier l'imageL'image obtenue est ensuite éditée et affinée à l'aide de la fonction d'ensemencement d'OmniGen.

Conseil :

Pour les tâches d'édition d'images et les tâches de réseau de contrôle, il est recommandé de régler la hauteur et la largeur de l'image de sortie sur la même valeur que l'image d'entrée. Par exemple, si vous souhaitez éditer une image de 512x512, vous devez définir la hauteur et la largeur de l'image de sortie à 512x512. Vous pouvez également définir l'option use_input_image_size_as_output pour aligner automatiquement la hauteur et la largeur de l'image de sortie sur l'image d'entrée.
Si vous souffrez d'un manque de mémoire ou d'un manque de temps, vous pouvez régler le paramètre offload_model=Trueou la référence . /docs/inference.md1TP5Ressources requises Sélectionnez les paramètres appropriés.
Lors de la saisie de plusieurs images, si le temps d'inférence est trop long, essayez de réduire le nombre d'images. max_input_image_size. Pour plus d'informations, veuillez vous référer à . /docs/inference.md1TP5Ressources requises.
Sursaturation : si l'image semble sursaturée, diminuez la valeur de l'indicateur de sursaturation. guidance_scale.
Faible qualité : des indices plus détaillés permettraient d'obtenir de meilleurs résultats.
Style anime : si l'image générée présente un style anime, vous pouvez essayer d'ajouter le mot-clé photo.
Modification des images générées : si vous générez une image avec omnigen et que vous souhaitez ensuite la modifier, vous ne pouvez pas le faire avec la même graine. Par exemple, si une image a été générée avec la graine=0, elle doit être modifiée avec la graine=1.
Pour les tâches d'édition d'images, il est recommandé de placer l'image avant la commande d'édition. Par exemple, en utilisant la commande <img><|image_1|></img> remove suitAu lieu de remove suit <img><|image_1|></img>.

Accès en ligne à OmniGen et installation en un clic

Site officiel pour l'utilisation en ligne : aiomnigen.comComfyui

Node : github.com/AIFSH/OmniGen-ComfyUIOmniGen

Paquet d'installation en un clic : pan.quark.cn/s/a1fd7d5298f9

OmniGen More Scénarios d'application

édition d'images

OmniGen possède de bonnes capacités d'édition d'images et peut également générer du texte à partir d'images.

Génération de caractères spécifiés

OmniGen est similaire à des modèles tels que InstandID, Pulid, etc. dans sa capacité à générer des images cohérentes avec les rôles, etc., c'est-à-dire à saisir une image avec un seul objet, à comprendre et à suivre des instructions, et à produire une nouvelle image basée sur cet objet.

Contrairement à InstandID et Pulid, OmniGen peut également spécifier la génération à partir de plusieurs caractères.

Les empreintes digitales sont générées au nom de

C'est la caractéristique la plus unique d'OmniGen : la capacité d'identifier l'objet auquel se réfère la commande et de générer une nouvelle image à partir d'une image contenant plusieurs objets.

OmniGen localise simplement l'objet cible à partir de plusieurs images (jusqu'à 3 images peuvent être sélectionnées) sur la base de commandes de mots-clés et génère une nouvelle image qui suit les commandes sans aucun module ou opération supplémentaire.

Génération de conditions d'image génériques

Il s'agit de la capacité d'OmniGen à prendre en charge la génération d'images de type ControlNet en fonction de conditions spécifiques. Actuellement, elle est principalement basée sur un squelette de caractère de référence.Openposeet une autre capacité à générer une carte de profondeur à partir d'un caractère de référence.

Contrairement aux modèles de diagramme de Venn classiques qui nécessitent ControlNet pour le contrôle des conditions, OmniGen complète l'ensemble du processus ControlNet avec un seul modèle : OmniGen extrait directement les conditions visuelles du diagramme original et génère une image basée sur les conditions extraites sans avoir besoin d'un processeur supplémentaire. De plus, OmniGen génère une image basée sur l'image de référence et les repères en un seul clic, contrairement à ControlNet qui doit d'abord générer un squelette ou une carte de profondeur.

Autres fonctions des composants de contrôle

Outre le fait que la version 1.0 d'OmniGen a été en mesure de remplir cette fonction, le responsable a également déclaré que la version 1.0 d'OmniGen comportait davantage de fonctions, telles que les fonctions Controlnet, les lignes et la génération d'arêtes douces.

Tâches classiques de vision par ordinateur

Débruitage d'images, détection des contours, estimation de la pose, etc.

Même le LLM peut avoir un certain degré de capacité d'apprentissage contextuel (In-context Learning), en fonction de la compréhension de l'opération.

Dernières ressources sur l'IA # AI génération d'images en ligne # AI Java Open Source Projecct

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

Youtu-GraphRAG - Tencent Youtu Labs Open Source Enhanced Graph Retrieval Generation Framework (en anglais)

Dernières ressources sur l'IA

il y a 5 jours

04.8K

iMCP : outil de service MCP pour connecter les données macOS aux grands modèles

Dernières ressources sur l'IA # AI Life Efficiency Assistant # Services MCP

Il y a 6 mois

018K

Ello : une expérience de lecture personnalisée pour améliorer les compétences de lecture des enfants

Dernières ressources sur l'IA # Outils pédagogiques AI

Il y a 9 mois

017.3K

KrillinAI : outil de globalisation multilingue pour la vidéo avec traduction et doublage en un clic

Dernières ressources sur l'IA # AI Java Open Source Projecct # AI Traduction

Il y a 3 mois

020.4K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

OmniGen : un modèle unifié de génération d'images avec des entrées multimodales pour générer des images cohérentes avec les personnages

Introduction générale

Liste des fonctions

Utiliser l'aide

Accès en ligne à OmniGen et installation en un clic

OmniGen More Scénarios d'application

XAnswer : moteur de recherche intelligent avec réponses instantanées et cartes heuristiques

NovelAI : assistant de création d'histoires pour les romans, les essais et les nouvelles

Articles connexes

Youtu-GraphRAG - Tencent Youtu Labs Open Source Enhanced Graph Retrieval Generation Framework (en anglais)

iMCP : outil de service MCP pour connecter les données macOS aux grands modèles

Ello : une expérience de lecture personnalisée pour améliorer les compétences de lecture des enfants

KrillinAI : outil de globalisation multilingue pour la vidéo avec traduction et doublage en un clic

Pas de commentaires

Dernières collections

Derniers articles

OmniGen : un modèle unifié de génération d'images avec des entrées multimodales pour générer des images cohérentes avec les personnages

Introduction générale

Liste des fonctions

Utiliser l'aide

Accès en ligne à OmniGen et installation en un clic

OmniGen More Scénarios d'application

XAnswer : moteur de recherche intelligent avec réponses instantanées et cartes heuristiques

NovelAI : assistant de création d'histoires pour les romans, les essais et les nouvelles

Articles connexes

Youtu-GraphRAG - Tencent Youtu Labs Open Source Enhanced Graph Retrieval Generation Framework (en anglais)

iMCP : outil de service MCP pour connecter les données macOS aux grands modèles

Ello : une expérience de lecture personnalisée pour améliorer les compétences de lecture des enfants

KrillinAI : outil de globalisation multilingue pour la vidéo avec traduction et doublage en un clic

Pas de commentaires

Outils d'IA sélectionnés

Dernières collections

Derniers articles