NVIDIA abre el modelo gráfico SANA de Vincennes: imágenes 4K sobre la marcha para implantaciones locales

Recientemente, NVIDIA (NVIDIA), en colaboración con el Instituto Tecnológico de Massachusetts y la Universidad de Tsinghua, ha lanzado un modelo de generación de imágenes de código abierto denominado SANA, que no sólo es capaz de generar imágenes con una resolución de hasta 4096 × 4096, sino que además tiene una velocidad de generación muy rápida.

Actuación de SANA

SANA se caracteriza por la palabra rápido. SANA-0.6B tarda menos de un segundo en generar imágenes de 1024×1024 de resolución, 25 veces más rápido que Flux-Dev, mientras que generar imágenes de 4096×4096 de resolución es 106 veces más rápido que Flux-Dev.

英伟达开源文生图模型SANA:本地部署飞速直出4K图像

 

En cuanto a la calidad de la generación, SANA obtiene la misma puntuación que Flux en la prueba de referencia DPG-Bench y sólo se sitúa ligeramente por debajo del modelo Flux en la métrica GenEval.

英伟达开源文生图模型SANA:本地部署飞速直出4K图像

 

Diseño básico de SANA

El éxito de SANA se debe a sus cuatro diseños básicos:

英伟达开源文生图模型SANA:本地部署飞速直出4K图像

 

1. Autocodificador de compresión profunda (DC-AE)

Mientras que los autocodificadores (AEs) convencionales suelen comprimir las imágenes por un factor de 8, SANA introduce un autocodificador de compresión profunda que aumenta el factor de compresión hasta 32. Este diseño reduce drásticamente el número de marcadores potenciales, lo que permite a SANA generar eficientemente imágenes de resolución ultraalta (por ejemplo, resolución 4K) al tiempo que reduce significativamente el coste computacional de entrenamiento y generación.

2. DIT lineal (transformador de imagen de difusión)

SANA emplea un nuevo mecanismo de atención lineal en lugar del mecanismo de atención cuadrática tradicional, lo que reduce la complejidad de O(N²) a O(N). Esta mejora no sólo aumenta la eficiencia de la generación de imágenes de alta resolución, sino que también elimina la necesidad de codificación posicional, marcando el primer modelo DIT que no requiere incrustación posicional.

3. Pequeños LLM sólo decodificadores como codificadores de texto

SANA utiliza pequeños modelos lingüísticos sólo descodificadores, como Gemma 2, como codificadores de texto, en sustitución de los modelos tradicionales CLIP o T5.Gemma tiene capacidades superiores de comprensión de texto y adherencia a las instrucciones, lo que, combinado con un sofisticado diseño de instrucciones manuales, mejora significativamente la alineación imagen-texto.

4. Estrategias eficaces de formación y razonamiento

SANA propone una estrategia automática de etiquetado y entrenamiento que genera diferentes re-captions con múltiples Visual Language Models (VLMs) y selecciona subtítulos de alta calidad basándose en CLIPScore, acelerando así la convergencia de modelos y mejorando la alineación texto-imagen. Además, SANA introduce Flow-DPM-Solver, que reduce drásticamente los pasos de inferencia y mejora aún más la eficiencia de la generación.

Implantación de bajo coste y código abierto

SANA-0.6B puede ejecutarse en la GPU de un portátil de 16 GB, generando imágenes de 1024×1024 de resolución en menos de 1 segundo, y 22 GB de memoria de vídeo pueden enderezar imágenes de 4096×4096 de resolución, una característica que hace que SANA no sólo sea adecuado para dispositivos informáticos de gama alta, sino que también puede ejecutarse eficientemente en los ordenadores portátiles de los usuarios normales. usuarios normales. Además, NVIDIA también ha anunciado que hará públicos el código y el modelo de SANA, lo que promoverá aún más la popularidad y la aplicación de la tecnología de generación de texto a imagen.

utilizar

NVIDIA ha creado ocho interfaces de uso web 3090 que pueden probarse gratuitamente. Cabe destacar que el modelo SANA puede utilizarse directamente con palabras de aviso chinas.

英伟达开源文生图模型SANA:本地部署飞速直出4K图像

 

Incluso es posible el uso de palabras clave con símbolos de icono, lo que debería beneficiarse del uso del modelo de lenguaje visual Gemma2 2B como codificador de texto.

英伟达开源文生图模型SANA:本地部署飞速直出4K图像

 

Con el plugin ComfyUI_ExtraModels, es muy fácil utilizar modelos SANA en Comfyui nativo también. Instalación del plugin es muy simple, no es necesario configurar sus propias dependencias, ejecutar después de la instalación se descargará automáticamente los archivos de modelo necesarios.

英伟达开源文生图模型SANA:本地部署飞速直出4K图像

 

Con autoencoder de compresión profunda, DIT lineal, LLM pequeño sólo para el decodificador, y estrategias eficientes de formación e inferencia, SANA no sólo es capaz de generar eficientemente imágenes de resolución ultra alta, sino que también tiene fuertes capacidades de alineación texto-imagen y ventajas de despliegue de bajo coste. Para quienes necesiten producir imágenes rápidamente, SANA sigue siendo bueno, es decir, en términos de ecología no puede compararse con Flux.

英伟达开源文生图模型SANA:本地部署飞速直出4K图像

 

Página del proyecto:

github.com/NVlabs/Sana

Uso de la web:

nv-sana.mit.edu

Plugin Comfyui:

github.com/Efficient-Large-Model/ComfyUI_ExtraModels

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...