Una-Propuesta-Una-Historia: Las Propuestas de Texto Generan Imágenes Coherentes con la Identidad de los Personajes

Últimos recursos sobre IAPublicado hace 1 año Círculo de intercambio de inteligencia artificial

54.3K 00

Introducción general

One-Prompt-One-Story (1Prompt1Story) es una innovadora herramienta de generación de texto a imagen diseñada para permitir la generación de imágenes coherentes a partir de una sola indicación. Fue presentada en el ICLR 2025 por Tao Liu et al. Utiliza un método sin necesidad de entrenamiento capaz de generar imágenes de alta calidad manteniendo la coherencia en la identidad de los caracteres. 1Prompt1Story funciona con todos los modelos de conversión de texto en imagen basados en incrustaciones de texto y admite la generación de varios caracteres, la generación guiada por ControlNet y la generación personalizada. La herramienta garantiza que las imágenes generadas sean altamente coherentes con la descripción de entrada a través de una única entrada solicitada, combinada con técnicas de reponderación del valor singular y de atención cruzada para preservar la identidad.

Lista de funciones

Generación de una imagen de identidad coherente: Genere imágenes que mantengan una identidad de caracteres coherente mediante una única entrada solicitada.
Demostración de GradioSe ofrece una demostración en línea para que los usuarios puedan probarlo.
Evaluación comparativa de ConsistoryContiene 200 juegos de tacos, cada uno de los cuales contiene entre 5 y 10 tacos, divididos en 8 superclases.
Generación multirol: Soporte para generar imágenes que contengan múltiples caracteres.
Generación de bootstrap ControlNet: Guía el proceso de generación a través de la tecnología ControlNet.
Personalización: Permite generar imágenes reales personalizadas en función de las necesidades del usuario.

Utilizar la ayuda

Proceso de instalación

Clone este repositorio:

   git clone https://github.com/byliutao/1Prompt1Story

Vaya al directorio del repositorio:

   cd 1Prompt1Story

Crear y activar un entorno virtual:

   conda create --name 1p1s python=3.10
conda activate 1p1s

Instalar dependencias:

   conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia
conda install conda-forge::transformers
conda install -c conda-forge diffusers
pip install opencv-python scipy gradio==4.44.1 sympy==1.13.1

Proceso de utilización

Ejecute el código de ejemplo:

   python main.py

Ejecuta la demo de Gradio:

   python app.py

Ejecuta el benchmark Consistory+:

   python -m resource.gen_benchmark --save_dir ./result/benchmark --benchmark_path ./resource/consistory+.yaml

Funciones principales

Generación de una imagen de identidad coherenteIntroduzca una única instrucción que describa la identidad del personaje y la escena en el cuadro de entrada y pulse el botón Generar para obtener una imagen que mantenga la identidad del personaje.
Generación multirolIncluya varias descripciones de funciones en la consulta y la herramienta generará automáticamente una imagen que contenga todas las funciones.
Generación de bootstrap ControlNet: se añaden descripciones relacionadas con ControlNet a las indicaciones, y el proceso de generación se guía según la tecnología ControlNet para garantizar que las imágenes sean muy coherentes con las descripciones.
PersonalizaciónGenerar una imagen real que responda a los requisitos a partir de una descripción personalizada introducida por el usuario.