Sana: generación rápida de imágenes de alta resolución, modelo de tamaño ultrapequeño de 0,6B, funcionamiento con GPU de portátil de bajo perfil

Últimos recursos sobre IAPublicado hace 1 año Círculo de intercambio de inteligencia artificial

59.6K 00

Introducción general

Sana es un eficiente marco de generación de imágenes de alta resolución desarrollado en los laboratorios de NVIDIA que genera imágenes de hasta 4096 × 4096 de resolución en cuestión de segundos.Sana utiliza un transformador de difusión lineal y tecnología de autocodificación de compresión profunda para mejorar drásticamente la velocidad y la calidad de generación de imágenes al tiempo que reduce la necesidad de recursos computacionales. El marco admite la ejecución en GPU de portátiles normales para la creación de contenidos de bajo coste.

Experiencia en línea: https://nv-sana.mit.edu/

Lista de funciones

Generación de imágenes de alta resolución: Admite la generación de imágenes de hasta 4096 × 4096 de resolución.
convertidor de difusión linealMejora de la eficacia de la generación de imágenes de alta resolución mediante un mecanismo de atención lineal.
Autocodificador de compresión profunda: Comprime las imágenes hasta 32 veces, lo que reduce el número de marcadores potenciales y mejora la eficacia de la formación y la generación.
Conversión de texto a imagen: Alineación mejorada de imagen a texto mediante decodificador sólo codificador de texto.
Formación y muestreo eficacesEl Flow-DPM-Solver se utiliza para reducir los pasos de muestreo y acelerar la convergencia.
Implantación de bajo coste: Admite la ejecución en GPU de portátiles de 16 GB y genera imágenes de 1024 x 1024 de resolución en menos de 1 segundo.

Utilizar la ayuda

Proceso de instalación

Asegúrese de que la versión de Python es >= 3.10.0, se recomienda Anaconda o Miniconda.
Instalar PyTorch versión >= 2.0.1+cu12.1.

Clonación del almacén de Sana:

git clone https://github.com/NVlabs/Sana.git
cd Sana

Ejecute el script de configuración del entorno:
```
./environment_setup.sh sana
```
o según environment_setup.sh Instale cada componente paso a paso como se describe en

Utilización

requisitos de hardware

El modelo 0.6B requiere 9GB de VRAM y el modelo 1.6B requiere 12GB de VRAM. la versión cuantificada requerirá menos de 8GB de memoria de vídeo para la inferencia.

Inicio rápido

Inicie la demostración oficial en línea con Gradio:

DEMO_PORT=15432 \
python app/app_sana.py \
--config=configs/sana_config/1024ms/Sana_1600M_img1024.yaml \
--model_path=hf://Efficient-Large-Model/Sana_1600M_1024px/checkpoints/Sana_1600M_1024px.pth

Ejecuta el código de inferencia para generar una imagen:

import torch
from app.sana_pipeline import SanaPipeline
from torchvision.utils import save_image
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
generator = torch.Generator(device=device).manual_seed(42)
sana = SanaPipeline("configs/sana_config/1024ms/Sana_1600M_img1024.yaml")
sana.from_pretrained("hf://Efficient-Large-Model/Sana_1600M_1024px/checkpoints/Sana_1600M_1024px.pth")
prompt = 'a cyberpunk cat with a neon sign that says "Sana"'
image = sana(prompt=prompt, height=1024, width=1024, guidance_scale=5.0, pag_guidance_scale=2.0, num_inference_steps=18, generator=generator)
save_image(image, 'output/sana.png', nrow=1, normalize=True, value_range=(-1, 1))

Modelos de formación

Prepare el conjunto de datos en el siguiente formato:

asset/example_data
├── AAA.txt
├── AAA.png
├── BCC.txt
├── BCC.png
└── CCC.txt

Iniciar la formación:

bash train_scripts/train.sh \
configs/sana_config/512ms/Sana_600M_img512.yaml \
--data.data_dir="asset/example_data" \
--data.type=SanaImgDataset \
--model.multi_scale=false \
--train.train_batch_size=32

Últimos recursos sobre IA # AI Java Proyecto de código abierto # AI Herramienta de generación de imágenes de autodespliegue

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

Puestos relacionados

Pika: Excelente Generación Creativa de Vídeo | Texto a Vídeo | Gráfico a Vídeo | Fusión de Imagen a Vídeo

hace 9mos

057.8K

Doclingo Document Translation: servicio de traducción automática de documentos PDF, mantenimiento de la maquetación del documento y edición posterior a la traducción.

Últimos recursos sobre IA # AI Traducción

Hace 1 año

065.5K

InvSR: Proyecto de superresolución de imágenes de código abierto para mejorar la calidad de la resolución de imágenes.

Últimos recursos sobre IA # AI Ampliación y restauración de imágenes # AI Java Proyecto de código abierto

Hace 1 año

063.3K

OASIS: simulación multiinteligente de las interacciones en redes sociales de millones de usuarios para estudiar fenómenos sociales complejos

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Aplicación de carrocería inteligente

hace 12mos

059K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

Sana: generación rápida de imágenes de alta resolución, modelo de tamaño ultrapequeño de 0,6B, funcionamiento con GPU de portátil de bajo perfil

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

Utilización

requisitos de hardware

Inicio rápido

Modelos de formación

SP-MangaEditer: herramienta profesional de creación de ilustraciones manga de cuatro paneles, generación de imágenes, edición de páginas manga

Gemini-OpenAI: generación inversa de direcciones Gemini que eluden las restricciones regionales y se convierten en API compatibles con OpenAI

Puestos relacionados

Pika: Excelente Generación Creativa de Vídeo | Texto a Vídeo | Gráfico a Vídeo | Fusión de Imagen a Vídeo

Doclingo Document Translation: servicio de traducción automática de documentos PDF, mantenimiento de la maquetación del documento y edición posterior a la traducción.

InvSR: Proyecto de superresolución de imágenes de código abierto para mejorar la calidad de la resolución de imágenes.

OASIS: simulación multiinteligente de las interacciones en redes sociales de millones de usuarios para estudiar fenómenos sociales complejos

Sin comentarios

Últimas colecciones

Últimos artículos

Sana: generación rápida de imágenes de alta resolución, modelo de tamaño ultrapequeño de 0,6B, funcionamiento con GPU de portátil de bajo perfil

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

Utilización

requisitos de hardware

Inicio rápido

Modelos de formación

SP-MangaEditer: herramienta profesional de creación de ilustraciones manga de cuatro paneles, generación de imágenes, edición de páginas manga

Gemini-OpenAI: generación inversa de direcciones Gemini que eluden las restricciones regionales y se convierten en API compatibles con OpenAI

Puestos relacionados

Pika: Excelente Generación Creativa de Vídeo | Texto a Vídeo | Gráfico a Vídeo | Fusión de Imagen a Vídeo

Doclingo Document Translation: servicio de traducción automática de documentos PDF, mantenimiento de la maquetación del documento y edición posterior a la traducción.

InvSR: Proyecto de superresolución de imágenes de código abierto para mejorar la calidad de la resolución de imágenes.

OASIS: simulación multiinteligente de las interacciones en redes sociales de millones de usuarios para estudiar fenómenos sociales complejos

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos