Infinity: побитовое авторегрессионное моделирование генерации изображений высокого разрешения для неограниченной генерации изображений высокого разрешения

Последние ресурсы по искусственному интеллектуОбновлено 1 год назад Круг обмена ИИ

Общее введение

Infinity - это новаторский фреймворк для генерации изображений высокого разрешения, разработанный командой FoundationVision. Проект преодолевает ограничения традиционных моделей генерации изображений благодаря инновационному подходу к моделированию визуальной авторегрессии на битовом уровне. Основной особенностью Infinity является использование неограниченного словаря дезамбигуаторов и классификаторов, которые вместе с механизмом автокорреляции на битовом уровне способны генерировать сверхвысококачественные реалистичные изображения. Проект полностью открыт и предлагает выбор размеров моделей от 2B до 20B параметрических шкал, поддерживая генерацию изображений с разрешением до 1024x1024. Являясь передовым исследовательским проектом, Infinity не только продвигает технологический прогресс в области компьютерного зрения, но и предлагает новые решения для задач генерации изображений.

Присоединяйтесь к каналу discord, чтобы испытать модель генерации образа Infinity!

Список функций

2B-параметрическая модель поддерживает создание высококачественных изображений с разрешением до 1024x1024
Предоставляет визуальный лексикон с неограниченным словарным запасом для поддержки более тонкого извлечения признаков изображения
Реализация механизма самокоррекции на битовом уровне для повышения качества и точности генерируемых изображений
Поддерживает гибкий выбор нескольких размеров модели (параметры 125M, 1B, 2B, 20B)
Предоставьте интерактивный интерфейс для вывода, чтобы облегчить пользователям проведение экспериментов по созданию изображений
Комплексная система обучения и оценки
Поддержка многомерной оценки эффективности модели (GenEval, DPG, HPSv2.1 и другие метрики)
Предоставляет онлайн-демонстрационную платформу, позволяющую пользователям непосредственно ознакомиться с процессом создания изображений

Использование помощи

1. конфигурация окружающей среды

1.1 Основные требования:

Среда Python
PyTorch >= 2.5.1 (требуется поддержка FlexAttention)
Установите другие зависимости с помощью pip:pip3 install -r requirements.txt

2. использование моделей

2.1 Быстрый старт:

Загрузите предварительно обученную модель из HuggingFace: infinity_2b_reg.pth
Скачать Visual Segmenter: infinity_vae_d32_reg.pth
Интерактивная генерация изображений с помощью interactive_infer.ipynb

2.2 Конфигурация обучения:

# 使用单条命令启动训练
bash scripts/train.sh

# 不同规模模型的训练命令
# 125M模型(256x256分辨率)
torchrun --nproc_per_node=8 train.py --model=layer12c4 --pn 0.06M

# 2B模型(1024x1024分辨率)
torchrun --nproc_per_node=8 train.py --model=2bc8 --pn 1M

2.3 Подготовка данных:

Данные для обучения должны быть подготовлены в формате JSONL
Каждый элемент данных содержит: путь к изображению, длинное и короткое текстовое описание, соотношение сторон изображения и другую информацию.
Образцы данных предоставляются проектом для ознакомления

2.4 Оценка модели:

Поддержка нескольких показателей оценки:
- ImageReward: оценка человеческих предпочтений для сгенерированных изображений
- HPS v2.1: метрики оценки на основе 798 тысяч ручных рейтингов
- GenEval: оценка выравнивания текста с изображением
- FID: оценка качества и разнообразия генерируемых изображений

2.5 Онлайн-презентация:

Посетите официальную демо-платформу: https://opensource.bytedance.com/gmpt/t2i/invite.
Введите текстовое описание, чтобы сгенерировать соответствующее высококачественное изображение
Поддержка настройки нескольких разрешений изображения и параметров генерации

3. Дополнительные функции

3.1 Механизмы самокоррекции на уровне битов:

Автоматическое распознавание и исправление ошибок в процессе генерации
Повышение качества и точности создаваемых изображений

3.2 Расширения модели:

Поддержка гибкого масштабирования размеров моделей
Доступно несколько моделей с параметрами от 125M до 20B
Адаптация к различным аппаратным средам и требованиям приложений

4. Предостережения

Убедитесь, что аппаратные ресурсы соответствуют требованиям модели
Крупномасштабные модели требуют достаточного объема памяти GPU
Рекомендуемое высокопроизводительное вычислительное оборудование для обучения
Регулярные контрольные точки резервного обучения
Обратите внимание на соблюдение протокола открытого исходного кода MIT.

Последние ресурсы по искусственному интеллекту # AI онлайн генерация изображений # AI Java Open Source Projecct

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

Создавайте: быстрая генерация приложений с искусственным интеллектом на основе текста и изображений

Последние ресурсы по искусственному интеллекту # Нет разработки кода

11 месяцев назад

054.2K

XAudioPro: Профессиональный инструмент для редактирования аудио|Производство аудиокниг|Текст в речь|Разделение аккомпанемента

Последние ресурсы по искусственному интеллекту # AI преобразование текста в речь # AI аудио/видеоредактор

1 год назад

055.8K

Free QWQ: неограниченное количество бесплатных вызовов API-интерфейсов Qwen3/QwQ-32B.

Последние ресурсы по искусственному интеллекту # Бесплатная большая модель API

10 месяцев назад

067.1K

EchoMimicV3 - мультимодальная модель генерации цифровой человеческой анимации с открытым исходным кодом Ant

Последние ресурсы по искусственному интеллекту

6 месяцев назад

037K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

Infinity: побитовое авторегрессионное моделирование генерации изображений высокого разрешения для неограниченной генерации изображений высокого разрешения

Общее введение

Список функций