Infinity: побитовое авторегрессионное моделирование генерации изображений высокого разрешения для неограниченной генерации изображений высокого разрешения
Общее введение
Infinity - это новаторский фреймворк для генерации изображений высокого разрешения, разработанный командой FoundationVision. Проект преодолевает ограничения традиционных моделей генерации изображений благодаря инновационному подходу к моделированию визуальной авторегрессии на битовом уровне. Основной особенностью Infinity является использование неограниченного словаря дезамбигуаторов и классификаторов, которые вместе с механизмом автокорреляции на битовом уровне способны генерировать сверхвысококачественные реалистичные изображения. Проект полностью открыт и предлагает выбор размеров моделей от 2B до 20B параметрических шкал, поддерживая генерацию изображений с разрешением до 1024x1024. Являясь передовым исследовательским проектом, Infinity не только продвигает технологический прогресс в области компьютерного зрения, но и предлагает новые решения для задач генерации изображений.

Присоединяйтесь к каналу discord, чтобы испытать модель генерации образа Infinity!
Список функций
- 2B-параметрическая модель поддерживает создание высококачественных изображений с разрешением до 1024x1024
- Предоставляет визуальный лексикон с неограниченным словарным запасом для поддержки более тонкого извлечения признаков изображения
- Реализация механизма самокоррекции на битовом уровне для повышения качества и точности генерируемых изображений
- Поддерживает гибкий выбор нескольких размеров модели (параметры 125M, 1B, 2B, 20B)
- Предоставьте интерактивный интерфейс для вывода, чтобы облегчить пользователям проведение экспериментов по созданию изображений
- Комплексная система обучения и оценки
- Поддержка многомерной оценки эффективности модели (GenEval, DPG, HPSv2.1 и другие метрики)
- Предоставляет онлайн-демонстрационную платформу, позволяющую пользователям непосредственно ознакомиться с процессом создания изображений
Использование помощи
1. конфигурация окружающей среды
1.1 Основные требования:
- Среда Python
- PyTorch >= 2.5.1 (требуется поддержка FlexAttention)
- Установите другие зависимости с помощью pip:
pip3 install -r requirements.txt
2. использование моделей
2.1 Быстрый старт:
- Загрузите предварительно обученную модель из HuggingFace: infinity_2b_reg.pth
- Скачать Visual Segmenter: infinity_vae_d32_reg.pth
- Интерактивная генерация изображений с помощью interactive_infer.ipynb
2.2 Конфигурация обучения:
# 使用单条命令启动训练
bash scripts/train.sh
# 不同规模模型的训练命令
# 125M模型(256x256分辨率)
torchrun --nproc_per_node=8 train.py --model=layer12c4 --pn 0.06M
# 2B模型(1024x1024分辨率)
torchrun --nproc_per_node=8 train.py --model=2bc8 --pn 1M
2.3 Подготовка данных:
- Данные для обучения должны быть подготовлены в формате JSONL
- Каждый элемент данных содержит: путь к изображению, длинное и короткое текстовое описание, соотношение сторон изображения и другую информацию.
- Образцы данных предоставляются проектом для ознакомления
2.4 Оценка модели:
- Поддержка нескольких показателей оценки:
- ImageReward: оценка человеческих предпочтений для сгенерированных изображений
- HPS v2.1: метрики оценки на основе 798 тысяч ручных рейтингов
- GenEval: оценка выравнивания текста с изображением
- FID: оценка качества и разнообразия генерируемых изображений
2.5 Онлайн-презентация:
- Посетите официальную демо-платформу: https://opensource.bytedance.com/gmpt/t2i/invite.
- Введите текстовое описание, чтобы сгенерировать соответствующее высококачественное изображение
- Поддержка настройки нескольких разрешений изображения и параметров генерации
3. Дополнительные функции
3.1 Механизмы самокоррекции на уровне битов:
- Автоматическое распознавание и исправление ошибок в процессе генерации
- Повышение качества и точности создаваемых изображений
3.2 Расширения модели:
- Поддержка гибкого масштабирования размеров моделей
- Доступно несколько моделей с параметрами от 125M до 20B
- Адаптация к различным аппаратным средам и требованиям приложений
4. Предостережения
- Убедитесь, что аппаратные ресурсы соответствуют требованиям модели
- Крупномасштабные модели требуют достаточного объема памяти GPU
- Рекомендуемое высокопроизводительное вычислительное оборудование для обучения
- Регулярные контрольные точки резервного обучения
- Обратите внимание на соблюдение протокола открытого исходного кода MIT.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...