NVIDIA открыла исходный код графовой модели Vincennes SANA: локальные развертывания выходят прямо из 4K-изображений

Новости ИИОпубликовано 1 год назад Круг обмена ИИ

40.7K 00

Недавно компания NVIDIA (NVIDIA) совместно с Массачусетским технологическим институтом и Университетом Цинхуа запустила модель генерации изображений с открытым исходным кодом под названием SANA, которая не только способна эффективно генерировать изображения с разрешением до 4096 × 4096, но и обладает очень высокой скоростью генерации.

Деятельность САНА

SANA характеризуется словом "быстрый". SANA-0.6B требуется менее секунды для создания изображений с разрешением 1024×1024, что в 25 раз быстрее, чем Flux-Dev, а для создания изображений с разрешением 4096×4096 - в 106 раз быстрее, чем Flux-Dev.

По качеству генерации SANA находится на одном уровне с Flux в тестовом бенчмарке DPG-Bench и лишь немного уступает модели Flux в метрике GenEval.

Основной дизайн SANA

Успех компании SANA обусловлен четырьмя основными направлениями ее деятельности:

1. автокодировщик глубокого сжатия (DC-AE)

В то время как обычные автоэнкодеры (АЭ) обычно сжимают изображения в 8 раз, SANA представляет автоэнкодер с глубоким сжатием, который увеличивает коэффициент сжатия до 32. Такая конструкция значительно сокращает количество потенциальных маркеров, позволяя SANA эффективно генерировать изображения сверхвысокого разрешения (например, 4K), при этом значительно снижая вычислительные затраты на обучение и генерацию.

2. Линейный DIT (Diffusion Image Transformer)

В SANA используется новый линейный механизм внимания вместо традиционного квадратичного, что позволяет снизить сложность с O(N²) до O(N). Это улучшение не только повышает эффективность генерации изображений высокого разрешения, но и устраняет необходимость в позиционном кодировании, являясь первой моделью DIT, не требующей позиционного встраивания.

3. Малые декодерные LLM в качестве кодировщиков текста

SANA использует небольшие языковые модели, работающие только с декодером (например, Gemma 2), в качестве кодировщиков текста, заменяя традиционные модели CLIP или T5. Gemma обладает превосходными возможностями понимания текста и соблюдения инструкций, что в сочетании со сложным дизайном ручных инструкций значительно улучшает согласование изображения с текстом.

4. Эффективные стратегии обучения и рассуждения

SANA предлагает автоматическую стратегию маркировки и обучения, которая генерирует различные повторные подписи с помощью нескольких моделей визуального языка (VLM) и выбирает высококачественные подписи на основе CLIPScore, ускоряя тем самым сходимость моделей и улучшая согласование текста и изображения. Кроме того, в SANA реализован Flow-DPM-Solver, который значительно сокращает количество шагов вывода и повышает эффективность генерации.

Недорогое развертывание и открытый исходный код

SANA-0.6B может работать на графическом процессоре ноутбука объемом 16 ГБ, создавая изображения с разрешением 1024×1024 менее чем за 1 секунду, а 22 ГБ видеопамяти позволяют выпрямлять изображения с разрешением 4096×4096, что делает SANA подходящей не только для высокопроизводительных вычислительных устройств, но и может эффективно работать на ноутбуках обычных пользователей. ноутбуках. Кроме того, NVIDIA объявила, что публично опубликует код и модель SANA, что будет способствовать дальнейшему росту популярности и применению технологии генерации текста в изображение.

пользоваться

NVIDIA создала восемь веб-интерфейсов для 3090, которые можно опробовать бесплатно. Стоит отметить, что модель SANA можно использовать непосредственно с китайскими словами подсказки.

Возможно даже использование слов-подсказок с пиктограммами, что должно выиграть от использования модели визуального языка Gemma2 2B в качестве кодировщика текста.

С помощью плагина ComfyUI_ExtraModels очень легко использовать модели SANA и в родном Comfyui. Установка плагина очень проста, не нужно настраивать собственные зависимости, запуск после установки автоматически загрузит необходимые файлы моделей.

Благодаря автокодировщику с глубоким сжатием, линейному DIT, небольшому LLM только для декодера, а также эффективным стратегиям обучения и вывода, SANA не только способна эффективно генерировать изображения сверхвысокого разрешения, но и обладает сильными возможностями выравнивания текста и изображения, а также недорогими преимуществами развертывания. Для тех, кому нужно быстро создавать изображения, SANA по-прежнему хороша, то есть с точки зрения экологии не сравнится с Flux.

Страница проекта:

github.com/NVlabs/Sana

Использование в Интернете:

nv-sana.mit.edu

Плагин Comfyui:

github.com/Efficient-Large-Model/ComfyUI_ExtraModels