CFG-Zero-star: инструмент с открытым исходным кодом для улучшения качества генерации изображений и видео
Общее введение
CFG-Zero-star - это проект с открытым исходным кодом, разработанный Вейчен Фань и командой S-Lab в Наньянгском технологическом университете. Он нацелен на улучшение техники Classifier Free Guidance (CFG) в моделях потокового согласования для повышения качества генерации изображений и видео путем оптимизации стратегии наведения и метода нулевой инициализации. Этот инструмент поддерживает задачи генерации текста в изображение и текста в видео, и может быть адаптирован к моделям Stable Diffusion 3, SD3.5, Wan-2.1 и другим. Код полностью открыт и основан на лицензии Apache-2.0, что позволяет проводить академические исследования и использовать его в коммерческих целях. Проект предоставляет онлайн-демонстрации и подробную документацию для разработчиков, исследователей и энтузиастов ИИ.

Список функций
- Совершенствование техники CFG: оптимизация бутстрапинга без классификатора для улучшения качества генерируемого контента и сопоставления текстов.
- Поддержка создания изображений: создание высококачественных изображений на основе текста, совместимое с Stable Diffusion 3 и SD3.5.
- Поддержка генерации видео: создание динамического видео, адаптация к Wan-2.1 и другим видеомоделям.
- Оптимизация с нулевой инициализацией: обнуление предсказания в начале генерации для улучшения качества выборки модели согласования потоков.
- Открытый исходный код: предоставляется полный код, который пользователи могут свободно загружать, изменять или вносить в него свой вклад.
- Демонстрационный интерфейс Gradio: встроенный инструмент онлайн-тестирования, не требующий сложной настройки.
- Динамическая настройка параметров: поддерживает регулировку интенсивности наведения и количества шагов умозаключения для удовлетворения различных потребностей.
- Интегрированная поддержка сторонних производителей: поддержка ComfyUI-KJNodes и расширений Wan2.1GP.
Использование помощи
CFG-Zero-star - это проект с открытым исходным кодом на GitHub, который требует от пользователей настройки собственного окружения и запуска кода. Ниже представлено подробное руководство по установке и использованию, которое поможет вам быстро начать работу.
Процесс установки
- Создание виртуальной среды
- Установите Anaconda (если нет, загрузите ее с сайта https://www.anaconda.com/).
- Выполните следующую команду в терминале, чтобы создать среду:
conda create -n CFG_Zero_Star python=3.10
- Активируйте окружающую среду:
conda activate CFG_Zero_Star
- Установка PyTorch
- Установите PyTorch в соответствии с версией CUDA вашего GPU. Официальная рекомендация - CUDA 12.4:
conda install pytorch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 pytorch-cuda=12.4 -c pytorch -c nvidia
- Проверьте совместимость версий CUDA, см. https://docs.nvidia.com/deploy/cuda-compatibility/.
- Пользователи без GPU могут установить версию для процессора:
conda install pytorch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 -c pytorch
- Установите PyTorch в соответствии с версией CUDA вашего GPU. Официальная рекомендация - CUDA 12.4:
- Скачать код проекта
- Клонируйте репозиторий с помощью Git:
git clone https://github.com/WeichenFan/CFG-Zero-star.git
- Перейдите в каталог:
cd CFG-Zero-star
- Клонируйте репозиторий с помощью Git:
- Установка зависимостей
- Выполните команду для установки необходимых библиотек:
pip install -r requirements.txt
- Если не хватает
requirements.txt
Установите основные зависимости вручную:pip install torch diffusers gradio numpy imageio
- Выполните команду для установки необходимых библиотек:
- Подготовка файлов модели
- Загрузите модельные грузы Stable Diffusion 3 или SD3.5 с сайта https://huggingface.co/stabilityai/stable-diffusion-3-medium-diffusers.
- Поместите файл модели в каталог проекта или укажите путь в коде.
Работа основных функций
Основная функция CFG-Zero-star - генерировать изображения и видео. Вот точные шаги.
Создание изображений
- Параметры конфигурации
- показать (билет)
demo.py
Установите слово для подсказки:prompt = "一片星空下的森林"
- Включите оптимизацию CFG-Zero-star:
use_cfg_zero_star = True
- показать (билет)
- Генерация бега
- Введите его в терминал:
python demo.py
- Созданное изображение отображается или сохраняется по указанному пути.
- Введите его в терминал:
- Параметры настройки
guidance_scale
: Регулирует интенсивность рулевого управления текстом, по умолчанию 4.0, можно установить в диапазоне 1-20.num_inference_steps
: Шаги рассуждения, по умолчанию 28, увеличить для улучшения качества.
Создать видео
- Выберите модель
- существовать
demo.py
Находится в:model_name = "wan-t2v" prompt = "一条河流穿过山谷"
- существовать
- Генерация бега
- Реализация:
python demo.py
- Видео сохраняется в формате MP4, путь по умолчанию
generated_videos/{seed}_CFG-Zero-Star.mp4
.
- Реализация:
- Параметры настройки
height
ответить пениемwidth
: Установите разрешение, по умолчанию 480x832.num_frames
: Кадры, по умолчанию 81.fps
: Частота кадров, по умолчанию 16.
Демо-версия с Gradio
- Интерфейс запуска
- Бег:
python demo.py
- Зайдите на сайт http://127.0.0.1:7860 в своем веб-браузере.
- Бег:
- процедура
- Введите слово запроса и выберите модель (SD3, SD3.5 или Wan-2.1).
- тик
Use CFG Zero Star
Настройте параметры и отправьте заявку. - Результат будет отображен в интерфейсе.
Интеграция инструментов сторонних производителей
- ComfyUI-KJNodes
- Загрузите сайт https://github.com/kijai/ComfyUI-KJNodes и следуйте его инструкциям по установке.
- существовать ComfyUI Загрузите узел CFG-Zero-star в
- Wan2.1GP
- Загрузите https://github.com/deepbeepmeep/Wan2GP и настройте его для использования.
предостережение
- Генерация требует больших вычислений, поэтому рекомендуется использовать графический процессор NVIDIA с не менее чем 8 ГБ оперативной памяти.
- Для первого запуска необходимо загрузить модель, не отключая интернет.
- Проект следует лицензии Apache-2.0, которая запрещает создание порнографического, насильственного и т.п. контента.
Выполнив эти действия, вы сможете генерировать высококачественные изображения и видео с помощью CFG-Zero-star. Его работа требует определенной технической базы, но документация и демонстрационный интерфейс снижают порог использования.
сценарий применения
- научные исследования
Исследователи могут использовать его для проверки эффективности моделей согласования потоков и анализа улучшений в CFG и нулевой инициализации, применимых в области компьютерного зрения. - создание контента
Создатели могут использовать текст для создания изображений или видеороликов, например "летающих драконов", для художественного оформления или коротких видеоклипов. - разработка модели
Разработчики могут использовать этот инструмент для оптимизации моделей генерации и отладки параметров, чтобы улучшить качество генерации.
QA
- Какую проблему решает CFG-Zero-star?
Она оптимизирует технику CFG в модели согласования потоков и улучшает качество и соответствие текста сгенерированным изображениям и видео. - Какие модели поддерживаются?
Поддерживаются такие модели, как Stable Diffusion 3, SD3.5 и Wan-2.1. - В чем смысл нулевой инициализации?
Обнуление предсказаний на ранних этапах генерации помогает недостаточно обученным моделям улучшить качество выборки. - Как определить, что модель недостаточно обучена?
Если эффект значительно улучшается при включении нулевой инициализации, это указывает на то, что модель, возможно, не полностью обучена.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...