Sana: быстрая генерация изображений высокого разрешения, ультрамалая модель размером 0,6 ББ, работа с GPU в низкопрофильном ноутбуке

Последние ресурсы по искусственному интеллектуОпубликовано 1 год назад Круг обмена ИИ

59.7K 00

Общее введение

Sana - это эффективный фреймворк для создания изображений высокого разрешения, разработанный в NVIDIA Labs, который генерирует изображения с разрешением до 4096 × 4096 за секунды. Sana использует линейное диффузионное преобразование и технологию автокодирования с глубоким сжатием для значительного повышения скорости и качества создания изображений при снижении потребности в вычислительных ресурсах. Фреймворк поддерживает работу на обычных графических процессорах ноутбуков для создания недорогого контента.

Опыт работы в Интернете: https://nv-sana.mit.edu/

Список функций

Создание изображений высокого разрешения: Поддерживает создание изображений с разрешением до 4096 × 4096.
линейный диффузионный преобразователь: Повышение эффективности генерации изображений высокого разрешения с помощью механизма линейного внимания.
Автокодировщик глубокого сжатия: Сжимает изображения до 32 раз, уменьшая количество потенциальных маркеров и повышая эффективность обучения и генерации.
Преобразование текста в изображение: Улучшенное выравнивание изображения с текстом с помощью декодера и кодировщика текста.
Эффективное обучение и отбор пробДля сокращения шагов дискретизации и ускорения сходимости используется Flow-DPM-Solver.
Недорогое развертывание: Поддерживает работу на графических процессорах ноутбуков с 16 ГБ памяти и создает изображения с разрешением 1024 x 1024 менее чем за 1 секунду.

Использование помощи

Процесс установки

Убедитесь, что версия Python >= 3.10.0, рекомендуется использовать Anaconda или Miniconda.
Установите PyTorch версии >= 2.0.1+cu12.1.

Клонирование склада Sana:

git clone https://github.com/NVlabs/Sana.git
cd Sana

Запустите сценарий настройки среды:
```
./environment_setup.sh sana
```
или в соответствии с environment_setup.sh Установите каждый компонент в соответствии с описанием в

Использование

требования к оборудованию

Модель 0.6B требует 9 ГБ VRAM, а модель 1.6B - 12 ГБ VRAM. Для квантованной версии потребуется менее 8 ГБ видеопамяти для выводов.

Быстрый старт

Запустите официальную онлайн-демонстрацию с помощью Gradio:

DEMO_PORT=15432 \
python app/app_sana.py \
--config=configs/sana_config/1024ms/Sana_1600M_img1024.yaml \
--model_path=hf://Efficient-Large-Model/Sana_1600M_1024px/checkpoints/Sana_1600M_1024px.pth

Запустите код вывода, чтобы сгенерировать изображение:

import torch
from app.sana_pipeline import SanaPipeline
from torchvision.utils import save_image
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
generator = torch.Generator(device=device).manual_seed(42)
sana = SanaPipeline("configs/sana_config/1024ms/Sana_1600M_img1024.yaml")
sana.from_pretrained("hf://Efficient-Large-Model/Sana_1600M_1024px/checkpoints/Sana_1600M_1024px.pth")
prompt = 'a cyberpunk cat with a neon sign that says "Sana"'
image = sana(prompt=prompt, height=1024, width=1024, guidance_scale=5.0, pag_guidance_scale=2.0, num_inference_steps=18, generator=generator)
save_image(image, 'output/sana.png', nrow=1, normalize=True, value_range=(-1, 1))

Модели обучения

Подготовьте набор данных в следующем формате:

asset/example_data
├── AAA.txt
├── AAA.png
├── BCC.txt
├── BCC.png
└── CCC.txt

Начните обучение:

bash train_scripts/train.sh \
configs/sana_config/512ms/Sana_600M_img512.yaml \
--data.data_dir="asset/example_data" \
--data.type=SanaImgDataset \
--model.multi_scale=false \
--train.train_batch_size=32

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Инструмент генерации изображений для самостоятельного развертывания ИИ

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

Text2Video-Zero: генератор нулевых образцов текста для видео, выпущенный командой исследователей ИИ Picsart

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # AI текст в видео

1 год назад

050.8K

wechat-article-exporter：一键部署微信公众号文章批量导出工具

wechat-article-exporter: развертывание одним щелчком мыши инструмента для пакетного экспорта статей из публичных номеров Wechat

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct

1 год назад

090.2K

DisPose: генерирование видео с точным контролем человеческих поз, создание танцующих дам

Последние ресурсы по искусственному интеллекту # AI Преобразование изображений в видео # AI Java Open Source Projecct

1 год назад

048.4K

Google AI Studio：体验与集成Google Gemini最新模型，构建多模态生成模型

Google AI Studio: знакомство с новейшими моделями Google Gemini и их интеграция для построения мультимодальных генеративных моделей

Последние ресурсы по искусственному интеллекту # AI Big Model Native Dialogue Tool

1 год назад

0100.1K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

Sana: быстрая генерация изображений высокого разрешения, ультрамалая модель размером 0,6 ББ, работа с GPU в низкопрофильном ноутбуке

Общее введение

Список функций

Использование помощи

Процесс установки

Использование

требования к оборудованию

Быстрый старт

Модели обучения

SP-MangaEditer: профессиональный четырехпанельный инструмент для создания иллюстраций манги, генерации изображений, редактирования страниц манги

Gemini-OpenAI: обратная генерация адресов Gemini в обход региональных ограничений и преобразование в API, совместимые с OpenAI

Похожие статьи

Text2Video-Zero: генератор нулевых образцов текста для видео, выпущенный командой исследователей ИИ Picsart

wechat-article-exporter: развертывание одним щелчком мыши инструмента для пакетного экспорта статей из публичных номеров Wechat

DisPose: генерирование видео с точным контролем человеческих поз, создание танцующих дам

Google AI Studio: знакомство с новейшими моделями Google Gemini и их интеграция для построения мультимодальных генеративных моделей

Нет комментариев

Последние коллекции

Последние статьи

Sana: быстрая генерация изображений высокого разрешения, ультрамалая модель размером 0,6 ББ, работа с GPU в низкопрофильном ноутбуке

Общее введение

Список функций

Использование помощи

Процесс установки

Использование

требования к оборудованию

Быстрый старт

Модели обучения

SP-MangaEditer: профессиональный четырехпанельный инструмент для создания иллюстраций манги, генерации изображений, редактирования страниц манги

Gemini-OpenAI: обратная генерация адресов Gemini в обход региональных ограничений и преобразование в API, совместимые с OpenAI

Похожие статьи

Text2Video-Zero: генератор нулевых образцов текста для видео, выпущенный командой исследователей ИИ Picsart

wechat-article-exporter: развертывание одним щелчком мыши инструмента для пакетного экспорта статей из публичных номеров Wechat

DisPose: генерирование видео с точным контролем человеческих поз, создание танцующих дам

Google AI Studio: знакомство с новейшими моделями Google Gemini и их интеграция для построения мультимодальных генеративных моделей

Нет комментариев

Избранные инструменты искусственного интеллекта

Последние коллекции

Последние статьи