Infinity: побитовое авторегрессионное моделирование генерации изображений высокого разрешения для неограниченной генерации изображений высокого разрешения

Общее введение

Infinity - это новаторский фреймворк для генерации изображений высокого разрешения, разработанный командой FoundationVision. Проект преодолевает ограничения традиционных моделей генерации изображений благодаря инновационному подходу к моделированию визуальной авторегрессии на битовом уровне. Основной особенностью Infinity является использование неограниченного словаря дезамбигуаторов и классификаторов, которые вместе с механизмом автокорреляции на битовом уровне способны генерировать сверхвысококачественные реалистичные изображения. Проект полностью открыт и предлагает выбор размеров моделей от 2B до 20B параметрических шкал, поддерживая генерацию изображений с разрешением до 1024x1024. Являясь передовым исследовательским проектом, Infinity не только продвигает технологический прогресс в области компьютерного зрения, но и предлагает новые решения для задач генерации изображений.

Infinity:生成高分辨率图像的比特自回归建模,实现无限制高分辨率图像生成

Присоединяйтесь к каналу discord, чтобы испытать модель генерации образа Infinity!

 

Список функций

  • 2B-параметрическая модель поддерживает создание высококачественных изображений с разрешением до 1024x1024
  • Предоставляет визуальный лексикон с неограниченным словарным запасом для поддержки более тонкого извлечения признаков изображения
  • Реализация механизма самокоррекции на битовом уровне для повышения качества и точности генерируемых изображений
  • Поддерживает гибкий выбор нескольких размеров модели (параметры 125M, 1B, 2B, 20B)
  • Предоставьте интерактивный интерфейс для вывода, чтобы облегчить пользователям проведение экспериментов по созданию изображений
  • Комплексная система обучения и оценки
  • Поддержка многомерной оценки эффективности модели (GenEval, DPG, HPSv2.1 и другие метрики)
  • Предоставляет онлайн-демонстрационную платформу, позволяющую пользователям непосредственно ознакомиться с процессом создания изображений

 

Использование помощи

1. конфигурация окружающей среды

1.1 Основные требования:

  • Среда Python
  • PyTorch >= 2.5.1 (требуется поддержка FlexAttention)
  • Установите другие зависимости с помощью pip:pip3 install -r requirements.txt

2. использование моделей

2.1 Быстрый старт:

  • Загрузите предварительно обученную модель из HuggingFace: infinity_2b_reg.pth
  • Скачать Visual Segmenter: infinity_vae_d32_reg.pth
  • Интерактивная генерация изображений с помощью interactive_infer.ipynb

2.2 Конфигурация обучения:

# 使用单条命令启动训练
bash scripts/train.sh

# 不同规模模型的训练命令
# 125M模型(256x256分辨率)
torchrun --nproc_per_node=8 train.py --model=layer12c4 --pn 0.06M

# 2B模型(1024x1024分辨率)
torchrun --nproc_per_node=8 train.py --model=2bc8 --pn 1M

2.3 Подготовка данных:

  • Данные для обучения должны быть подготовлены в формате JSONL
  • Каждый элемент данных содержит: путь к изображению, длинное и короткое текстовое описание, соотношение сторон изображения и другую информацию.
  • Образцы данных предоставляются проектом для ознакомления

2.4 Оценка модели:

  • Поддержка нескольких показателей оценки:
    • ImageReward: оценка человеческих предпочтений для сгенерированных изображений
    • HPS v2.1: метрики оценки на основе 798 тысяч ручных рейтингов
    • GenEval: оценка выравнивания текста с изображением
    • FID: оценка качества и разнообразия генерируемых изображений

2.5 Онлайн-презентация:

  • Посетите официальную демо-платформу: https://opensource.bytedance.com/gmpt/t2i/invite.
  • Введите текстовое описание, чтобы сгенерировать соответствующее высококачественное изображение
  • Поддержка настройки нескольких разрешений изображения и параметров генерации

3. Дополнительные функции

3.1 Механизмы самокоррекции на уровне битов:

  • Автоматическое распознавание и исправление ошибок в процессе генерации
  • Повышение качества и точности создаваемых изображений

3.2 Расширения модели:

  • Поддержка гибкого масштабирования размеров моделей
  • Доступно несколько моделей с параметрами от 125M до 20B
  • Адаптация к различным аппаратным средам и требованиям приложений

4. Предостережения

  • Убедитесь, что аппаратные ресурсы соответствуют требованиям модели
  • Крупномасштабные модели требуют достаточного объема памяти GPU
  • Рекомендуемое высокопроизводительное вычислительное оборудование для обучения
  • Регулярные контрольные точки резервного обучения
  • Обратите внимание на соблюдение протокола открытого исходного кода MIT.
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...