Un message, une histoire : les messages textuels génèrent des images cohérentes de l'identité des personnages

Dernières ressources sur l'IAPosté il y a 8 mois Cercle de partage de l'IA

16.2K 00

Introduction générale

One-Prompt-One-Story (1Prompt1Story) est un outil innovant de génération de texte à partir d'images conçu pour permettre une génération cohérente d'images à partir d'un seul message. Il a été présenté à l'ICLR 2025 par Tao Liu et al. Il a été présenté à l'ICLR 2025 par Tao Liu et al. Il utilise une approche sans apprentissage qui génère des images de haute qualité tout en maintenant la cohérence de l'identité des personnages. 1Prompt1Story fonctionne avec tous les modèles texte-image basés sur l'intégration de texte et prend en charge la génération de caractères multiples, la génération guidée par ControlNet et la génération personnalisée. L'outil garantit que les images générées sont très cohérentes avec la description d'entrée par le biais d'une seule entrée guidée, combinée à une repondération de la valeur singulière et à des techniques d'attention croisée préservant l'identité.

Liste des fonctions

Génération d'une image identitaire cohérenteLes images : Générer des images qui conservent une identité de caractère cohérente à partir d'une seule saisie.
Démonstration de GradioLes utilisateurs ont la possibilité d'effectuer des tests en ligne et de se familiariser avec le produit.
Consistory+ BenchmarkingLe site contient 200 jeux de baguettes, chacun contenant entre 5 et 10 baguettes, divisés en 8 superclasses.
Génération de rôles multiplesSupport pour la génération d'images contenant des caractères multiples : Support pour la génération d'images contenant des caractères multiples.
Génération d'amorçage ControlNetLe système ControlNet : Il guide le processus de production par le biais de la technologie ControlNet.
PersonnalisationLe système de gestion des images : Il permet de générer des images réelles personnalisées en fonction des besoins de l'utilisateur.

Utiliser l'aide

Processus d'installation

Cloner ce dépôt :

   git clone https://github.com/byliutao/1Prompt1Story

Allez dans le répertoire du référentiel :

   cd 1Prompt1Story

Créer et activer un environnement virtuel :

   conda create --name 1p1s python=3.10
conda activate 1p1s

Installer les dépendances :

   conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia
conda install conda-forge::transformers
conda install -c conda-forge diffusers
pip install opencv-python scipy gradio==4.44.1 sympy==1.13.1

Processus d'utilisation

Exécutez l'exemple de code :

   python main.py

Lancez la démo Gradio :

   python app.py

Exécutez le test Consistory+ :

   python -m resource.gen_benchmark --save_dir ./result/benchmark --benchmark_path ./resource/consistory+.yaml

Principales fonctions

Génération d'une image identitaire cohérenteGénérer une image : Saisissez une seule invite décrivant l'identité et la scène du personnage dans la zone de saisie et cliquez sur le bouton Générer pour obtenir une image qui conserve l'identité du personnage.
Génération de rôles multiplesL'outil génère automatiquement une image contenant tous les rôles.
Génération d'amorçage ControlNetLe processus de génération est guidé en fonction de la technologie ControlNet afin de garantir que les images sont parfaitement cohérentes avec les descriptions.
PersonnalisationLe système de gestion de l'image : génère une image réelle qui répond aux exigences sur la base d'une description personnalisée saisie par l'utilisateur.