OmniGen: un modelo unificado de generación de imágenes con entradas multimodales para generar imágenes coherentes con los caracteres
Últimos recursos sobre IAActualizado hace 9 meses Círculo de intercambio de inteligencia artificial 2.7K 00
Introducción general
OmniGen es un modelo "universal" de generación de imágenes desarrollado por VectorSpaceLab que permite a los usuarios crear imágenes diversas y contextualmente ricas con simples indicaciones de texto o entradas multimodales. Es especialmente adecuado para escenas que requieren la identificación de personajes y una representación coherente de los mismos. Los usuarios pueden cargar hasta tres imágenes y generar imágenes de alta calidad con indicaciones detalladas. Además, OmniGen admite la edición de imágenes generadas previamente, lo que proporciona una capacidad de reproducción flexible adecuada para el perfeccionamiento y la experimentación de imágenes.
OmniGen no requiere plug-ins ni operaciones adicionales para reconocer automáticamente las características de la imagen de entrada y generar la imagen deseada. Los modelos de generación de imágenes existentes suelen necesitar cargar varios módulos de red adicionales (por ejemplo, ControlNet, IP-Adapter, Reference-Net, etc.) y realizar pasos de preprocesamiento adicionales (por ejemplo, detección de rostros, estimación de la pose, recorte, etc.) para generar imágenes satisfactorias. Sin embargo, creemos que los futuros paradigmas de generación de imágenes deberían ser más sencillos y flexibles, es decir, generar diversas imágenes directamente a partir de instrucciones multimodales arbitrarias sin complementos ni operaciones adicionales, de forma similar a como funciona GPT en la generación de lenguajes.

Lista de funciones
- Generación de imágenesGeneración de imágenes diversas mediante mensajes de texto o entradas multimodales.
- Creación de imágenes personalizadasCarga hasta tres imágenes para crear una imagen personalizada.
- representación de caracteres (informática)El sistema de identificación de personajes: mantiene la coherencia y la reconocibilidad de los personajes y es adecuado para situaciones en las que se requiere la identificación de personajes.
- edición de imágenes: La edición de imágenes generadas previamente proporciona una capacidad de siembra flexible.
- Generación de condiciones de imagen: Genera una nueva imagen basada en las condiciones específicas de la imagen de entrada.
- Alta calidad: Consejos detallados para generar imágenes más claras y de mayor calidad.
Utilizar la ayuda
- Subir una foto: Cargue hasta tres imágenes en la interfaz OmniGen, que pueden ser mapas de caracteres, elementos o condiciones.
- Describir la imagen: Describa detalladamente la imagen que desea generar en el cuadro de consulta. Para las secciones que incluyan elementos de imagen, utilice el formato <img><|image_i|></img> Preséntalos.
- Parámetros de ajusteAjuste los parámetros de generación de OmniGen, como la escala de imagen, en la configuración. Se recomienda mantener los demás ajustes por defecto.
- Generación de imágenesHaga clic en el botón Generar para entrar en la cola y esperar a que se genere la imagen.
- Editar imagenEdite y refine la imagen resultante utilizando la función de siembra de OmniGen.
Consejo:
- Para tareas de edición de imágenes y tareas de controlnet, se recomienda establecer la altura y la anchura de la imagen de salida iguales a las de la imagen de entrada. Por ejemplo, si desea editar una imagen de 512x512, debe establecer la altura y la anchura de la imagen de salida en 512x512. También puede establecer la opción
use_input_image_size_as_output
para alinear automáticamente la altura y la anchura de la imagen de salida con la imagen de entrada. - Si experimenta problemas de memoria insuficiente o de coste de tiempo, puede configurar la opción
offload_model=True
o referencia . /docs/inference.md1TP5Recursos necesarios Selecciona los ajustes adecuados. - Al introducir varias imágenes, si el tiempo de inferencia es demasiado largo, pruebe a reducir el
max_input_image_size
. Para más información, consulte . /docs/inference.md1TP5Recursos necesarios. - Sobresaturación: Si la imagen se ve sobresaturada, reduzca la
guidance_scale
. - Baja calidad: unas palabras clave más detalladas producirían mejores resultados.
- Estilo anime: Si la imagen generada presenta estilo anime, puede intentar añadir la palabra de aviso
photo
. - Edición de imágenes generadas: Si genera una imagen con omnigen y posteriormente desea editarla, no podrá hacerlo con la misma semilla. Por ejemplo, si una imagen se generó con semilla=0, debe editarse con semilla=1.
- Para tareas de edición de imágenes, se recomienda colocar la imagen antes del comando de edición. Por ejemplo, utilizando el comando
<img><|image_1|></img> remove suit
En lugar deremove suit <img><|image_1|></img>
.
Acceso en línea a OmniGen y paquete de instalación con un solo clic
Página web oficial para uso en línea: aiomnigen.comComfyui
Nodo: github.com/AIFSH/OmniGen-ComfyUIOmniGen
Paquete de instalación con un solo clic: pan.quark.cn/s/a1fd7d5298f9
OmniGen Más escenarios de aplicación
edición de imágenes
OmniGen tiene buenas capacidades de edición de imágenes y también puede hacer la generación de texto de las imágenes.

Generación de caracteres especificados
OmniGen es similar a modelos como InstandID, Pulid, etc. en su capacidad para generar imágenes coherentes con los roles, etc., es decir, introducir una imagen con un único objeto, comprender y seguir instrucciones, y emitir una nueva imagen basada en ese objeto.

A diferencia de InstandID y Pulid, OmniGen también puede especificar la generación a partir de varios caracteres.

Las huellas dactilares se generan en nombre de
Esta es la característica más exclusiva de OmniGen: la capacidad de identificar el objeto al que se refiere el comando y generar una nueva imagen a partir de una imagen que contenga varios objetos.

OmniGen simplemente localiza el objeto de destino a partir de varias imágenes (se pueden seleccionar hasta 3 imágenes) basándose en comandos de palabras clave y genera una nueva imagen que sigue los comandos sin módulos ni operaciones adicionales.
Generación genérica de condiciones de imagen
Se trata de la capacidad de OmniGen para soportar la generación de imágenes similar a ControlNet en función de condiciones específicas. Actualmente se basa principalmente en un esqueleto de caracteres de referenciaOpenposey otra para generar a partir de un mapa de profundidad de caracteres de referencia.

A diferencia de los principales modelos de diagramas de Venn que requieren ControlNet para el control de las condiciones, OmniGen completa todo el proceso de ControlNet con un único modelo: OmniGen extrae directamente las condiciones visuales del diagrama original y genera una imagen basada en las condiciones extraídas sin necesidad de un procesador adicional. Es más, OmniGen genera una imagen basada en la imagen de referencia y las señales con un solo clic, a diferencia de ControlNet, que necesita generar primero un esqueleto o mapa de profundidad.
Otras funciones de los componentes de control
Además de lo anterior OmniGen 1.0 ha sido capaz de lograr la función, el funcionario también dijo que OmniGen hay más características, tales como más funciones Controlnet, líneas, generación de borde suave.

Tareas clásicas de visión por ordenador
Eliminación de ruido de imágenes, detección de bordes, estimación de poses, etc.

Incluso como LLM puede tener un cierto grado de capacidad de aprendizaje contextual (In-context Learning), de acuerdo con la comprensión de la operación.

© declaración de copyright
El artículo está protegido por derechos de autor y no debe reproducirse sin autorización.
Artículos relacionados
Sin comentarios...