NVIDIA abre el modelo gráfico SANA de Vincennes: imágenes 4K sobre la marcha para implantaciones locales

Noticias AIPublicado hace 1 año Círculo de intercambio de inteligencia artificial

40.7K 00

Recientemente, NVIDIA (NVIDIA), en colaboración con el Instituto Tecnológico de Massachusetts y la Universidad de Tsinghua, ha lanzado un modelo de generación de imágenes de código abierto denominado SANA, que no sólo es capaz de generar imágenes con una resolución de hasta 4096 × 4096, sino que además tiene una velocidad de generación muy rápida.

Actuación de SANA

SANA se caracteriza por la palabra rápido. SANA-0.6B tarda menos de un segundo en generar imágenes de 1024×1024 de resolución, 25 veces más rápido que Flux-Dev, mientras que generar imágenes de 4096×4096 de resolución es 106 veces más rápido que Flux-Dev.

En cuanto a la calidad de la generación, SANA obtiene la misma puntuación que Flux en la prueba de referencia DPG-Bench y sólo se sitúa ligeramente por debajo del modelo Flux en la métrica GenEval.

Diseño básico de SANA

El éxito de SANA se debe a sus cuatro diseños básicos:

1. Autocodificador de compresión profunda (DC-AE)

Mientras que los autocodificadores (AEs) convencionales suelen comprimir las imágenes por un factor de 8, SANA introduce un autocodificador de compresión profunda que aumenta el factor de compresión hasta 32. Este diseño reduce drásticamente el número de marcadores potenciales, lo que permite a SANA generar eficientemente imágenes de resolución ultraalta (por ejemplo, resolución 4K) al tiempo que reduce significativamente el coste computacional de entrenamiento y generación.

2. DIT lineal (transformador de imagen de difusión)

SANA emplea un nuevo mecanismo de atención lineal en lugar del mecanismo de atención cuadrática tradicional, lo que reduce la complejidad de O(N²) a O(N). Esta mejora no sólo aumenta la eficiencia de la generación de imágenes de alta resolución, sino que también elimina la necesidad de codificación posicional, marcando el primer modelo DIT que no requiere incrustación posicional.

3. Pequeños LLM sólo decodificadores como codificadores de texto

SANA utiliza pequeños modelos lingüísticos sólo descodificadores, como Gemma 2, como codificadores de texto, en sustitución de los modelos tradicionales CLIP o T5.Gemma tiene capacidades superiores de comprensión de texto y adherencia a las instrucciones, lo que, combinado con un sofisticado diseño de instrucciones manuales, mejora significativamente la alineación imagen-texto.

4. Estrategias eficaces de formación y razonamiento

SANA propone una estrategia automática de etiquetado y entrenamiento que genera diferentes re-captions con múltiples Visual Language Models (VLMs) y selecciona subtítulos de alta calidad basándose en CLIPScore, acelerando así la convergencia de modelos y mejorando la alineación texto-imagen. Además, SANA introduce Flow-DPM-Solver, que reduce drásticamente los pasos de inferencia y mejora aún más la eficiencia de la generación.

Implantación de bajo coste y código abierto

SANA-0.6B puede ejecutarse en la GPU de un portátil de 16 GB, generando imágenes de 1024×1024 de resolución en menos de 1 segundo, y 22 GB de memoria de vídeo pueden enderezar imágenes de 4096×4096 de resolución, una característica que hace que SANA no sólo sea adecuado para dispositivos informáticos de gama alta, sino que también puede ejecutarse eficientemente en los ordenadores portátiles de los usuarios normales. usuarios normales. Además, NVIDIA también ha anunciado que hará públicos el código y el modelo de SANA, lo que promoverá aún más la popularidad y la aplicación de la tecnología de generación de texto a imagen.

utilizar

NVIDIA ha creado ocho interfaces de uso web 3090 que pueden probarse gratuitamente. Cabe destacar que el modelo SANA puede utilizarse directamente con palabras de aviso chinas.

Incluso es posible el uso de palabras clave con símbolos de icono, lo que debería beneficiarse del uso del modelo de lenguaje visual Gemma2 2B como codificador de texto.

Con el plugin ComfyUI_ExtraModels, es muy fácil utilizar modelos SANA en Comfyui nativo también. Instalación del plugin es muy simple, no es necesario configurar sus propias dependencias, ejecutar después de la instalación se descargará automáticamente los archivos de modelo necesarios.

Con autoencoder de compresión profunda, DIT lineal, LLM pequeño sólo para el decodificador, y estrategias eficientes de formación e inferencia, SANA no sólo es capaz de generar eficientemente imágenes de resolución ultra alta, sino que también tiene fuertes capacidades de alineación texto-imagen y ventajas de despliegue de bajo coste. Para quienes necesiten producir imágenes rápidamente, SANA sigue siendo bueno, es decir, en términos de ecología no puede compararse con Flux.

Página del proyecto:

github.com/NVlabs/Sana

Uso de la web:

nv-sana.mit.edu

Plugin Comfyui:

github.com/Efficient-Large-Model/ComfyUI_ExtraModels

Noticias AI

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

RealtimeSTT: herramienta de conversión de voz a texto en tiempo real para el reconocimiento del habla en streaming de baja latencia basada en Whisper.

hace 1 año

086.4K

Dify v1.1.0 Nuevo filtro inteligente "Metadatos" para la base de conocimientos

Noticias AI

hace 1 año

095.1K

El equipo de LangChain en MCP: ¿una nueva dirección para la extensión de la herramienta AI Agent?

Noticias AI

hace 1 año

052.6K

Google 发布自家“推理”AI模型：Gemini 2.0 Flash Thinking Experimental

Google lanza su propio modelo de IA de "razonamiento": Gemini 2.0 Flash Thinking Experimental

Noticias AI

hace 1 año

044.2K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

NVIDIA abre el modelo gráfico SANA de Vincennes: imágenes 4K sobre la marcha para implantaciones locales

Actuación de SANA

Diseño básico de SANA

Implantación de bajo coste y código abierto

utilizar

¡Topaz Photo AI 3.4.3 versión china de la gran actualización, con Topaz tres dioses paquete de instalación!

Mistral AI lanza los modelos Codestral 25.01: más grandes, más rápidos y más potentes para programación específica

Artículos relacionados

RealtimeSTT: herramienta de conversión de voz a texto en tiempo real para el reconocimiento del habla en streaming de baja latencia basada en Whisper.

Dify v1.1.0 Nuevo filtro inteligente "Metadatos" para la base de conocimientos

El equipo de LangChain en MCP: ¿una nueva dirección para la extensión de la herramienta AI Agent?

Google lanza su propio modelo de IA de "razonamiento": Gemini 2.0 Flash Thinking Experimental

Sin comentarios

Últimas colecciones

Últimos artículos

NVIDIA abre el modelo gráfico SANA de Vincennes: imágenes 4K sobre la marcha para implantaciones locales

Actuación de SANA

Diseño básico de SANA

Implantación de bajo coste y código abierto

utilizar

¡Topaz Photo AI 3.4.3 versión china de la gran actualización, con Topaz tres dioses paquete de instalación!

Mistral AI lanza los modelos Codestral 25.01: más grandes, más rápidos y más potentes para programación específica

Artículos relacionados

RealtimeSTT: herramienta de conversión de voz a texto en tiempo real para el reconocimiento del habla en streaming de baja latencia basada en Whisper.

Dify v1.1.0 Nuevo filtro inteligente "Metadatos" para la base de conocimientos

El equipo de LangChain en MCP: ¿una nueva dirección para la extensión de la herramienta AI Agent?

Google lanza su propio modelo de IA de "razonamiento": Gemini 2.0 Flash Thinking Experimental

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos